letterfrequentie

Branko Collin vertaling@nl.linux.org
Thu, 6 May 2004 21:07:25 +0200


On 6 May 2004, at 19:01, Tino Meinen wrote:

> In de vertaling van gok moet ik de relatieve frequentie van letters
> weten in het Nederlands. (dus: welke letter komt het meeste voor,
> welke daarna etc.) Heeft iemand een idee hoe ik daar achter kom?

De niet-whitespace-letters uit de Max Havelaar zijn: 

  84852	e
  44776	n
  36603	a
  31413	i
  29089	t
  28333	d
  26893	r
  26546	o
  16083	g
  16009	s
  15873	l
  13337	h
  11181	k
  11177	v
  10349	m
   8463	j
   8314	u
   8209	z
   8086	w
   6546	b
   5078	c
   5049	p
   3727	f
   1014	H
    910	D
    741	I
    724	E
    683	M
    508	W
    506	S
    497	A
    441	N
    413	O
    340	B
    324	Z
    307	V
    276	J
    275	L
    263	G
    262	T
    173	x
    159	K
    155	P
    150	R
    112	F
     79	y
     61	U
     55	C
     49	=EB
     46	=E9
     41	3
     40	=F3
     32	=E1
     21	=E0
     17	=EF
     11	=F2
      8	=E8
      8	X
      7	q
      2	Q
      1	=FC
      1	=FA
      1	=E4
      1	Y

Methode: 

1. In een teksteditor d.m.v. zoek en vervang gezorgd dat elk teken op 
een eigen regel stond.

2. Bestand gesorteerd met 'sort'.

3. Bestand geteld 'uniq -c'.

4. Bestand aflopend gesorteerd.

-- 
branko collin
collin@xs4all.nl

---
Open Source Software vertaalproject, vertaling@nl.linux.org
                web: http://vertaling.nl.linux.org/
archief mailinglist: http://mail.nl.linux.org/vertaling/