letterfrequentie
Branko Collin
vertaling@nl.linux.org
Thu, 6 May 2004 21:07:25 +0200
On 6 May 2004, at 19:01, Tino Meinen wrote:
> In de vertaling van gok moet ik de relatieve frequentie van letters
> weten in het Nederlands. (dus: welke letter komt het meeste voor,
> welke daarna etc.) Heeft iemand een idee hoe ik daar achter kom?
De niet-whitespace-letters uit de Max Havelaar zijn:
84852 e
44776 n
36603 a
31413 i
29089 t
28333 d
26893 r
26546 o
16083 g
16009 s
15873 l
13337 h
11181 k
11177 v
10349 m
8463 j
8314 u
8209 z
8086 w
6546 b
5078 c
5049 p
3727 f
1014 H
910 D
741 I
724 E
683 M
508 W
506 S
497 A
441 N
413 O
340 B
324 Z
307 V
276 J
275 L
263 G
262 T
173 x
159 K
155 P
150 R
112 F
79 y
61 U
55 C
49 =EB
46 =E9
41 3
40 =F3
32 =E1
21 =E0
17 =EF
11 =F2
8 =E8
8 X
7 q
2 Q
1 =FC
1 =FA
1 =E4
1 Y
Methode:
1. In een teksteditor d.m.v. zoek en vervang gezorgd dat elk teken op
een eigen regel stond.
2. Bestand gesorteerd met 'sort'.
3. Bestand geteld 'uniq -c'.
4. Bestand aflopend gesorteerd.
--
branko collin
collin@xs4all.nl
---
Open Source Software vertaalproject, vertaling@nl.linux.org
web: http://vertaling.nl.linux.org/
archief mailinglist: http://mail.nl.linux.org/vertaling/