letterfrequentie

imesmits.NET vertaling@nl.linux.org
Thu, 6 May 2004 20:02:55 +0200 (CEST)


INDIVIDVVS VOCATVR Tino Meinen DIE 6/5/2004 19:01 VERE SCRIPSIT:

| In de vertaling van gok moet ik de relatieve frequentie van letters
| weten in het Nederlands. (dus: welke letter komt het meeste voor, welke
| daarna etc.)
| Heeft iemand een idee hoe ik daar achter kom?

Ik weet zo een twee drie niet of er officiele cijfers zijn, maar je zou een 
representatieve serie teksten kunnen pakken en gewoon de letters kunnen 
tellen. Heb een tooltje in elkaar gedraaid op http://www.crapware.nl/charhisto

Zie onder de stats per ascii code van een tekstversie van wat algemene
voorwaarden internet die ik heb liggen, Nederlands, ca. 11000 woorden, 70k
aan kale tekst. Uiteraard niet representatief, maar ik verwacht dat het wel
een heel eind in de buurt komt:

--Ime


Rang ASC HEX Frequentie Percentage Teken
   1  69 45     11482    15.092       E
   2  32 20     10364    13.622        
   3  78 4e      6565     8.629       N
   4  82 52      4630     6.086       R
   5  73 49      4573     6.011       I
   6  65 41      4433     5.827       A
   7  84 54      3961     5.206       T
   8  79 4f      3607     4.741       O
   9  68 44      3356     4.411       D
  10  76 4c      2493     3.277       L
  11  86 56      2384     3.134       V
  12  71 47      2103     2.764       G
  13  83 53      2063     2.712       S
  14  67 43      1416     1.861       C
  15  75 4b      1298     1.706       K
  16  72 48      1139     1.497       H
  17  77 4d      1022     1.343       M
  18  85 55       996     1.309       U
  19  80 50       894     1.175       P
  20  66 42       764     1.004       B
  21  70 46       756     0.994       F
  22  74 4a       705     0.927       J
  23  90 5a       700     0.920       Z
  24  87 57       673     0.885       W
  25  46 2e       661     0.869       .
  26  10 0a       646     0.849       
  27  13 0d       645     0.848       
  28  44 2c       377     0.496       ,
  29 235 eb       297     0.390       ë
  30  50 32       150     0.197       2
  31  49 31       134     0.176       1
  32  51 33       123     0.162       3
  33  52 34       103     0.135       4
  34  53 35        83     0.109       5
  35  45 2d        59     0.078       -
  36  54 36        50     0.066       6
  37  48 30        44     0.058       0
  38  89 59        42     0.055       Y
  39  55 37        40     0.053       7
  40  57 39        31     0.041       9
  41  56 38        30     0.039       8
  42  34 22        26     0.034       "
  43 233 e9        23     0.030       é
  44  59 3b        20     0.026       ;
  45  88 58        19     0.025       X
  46  58 3a        18     0.024       :
  47  40 28        15     0.020       (
  48  47 2f        15     0.020       /
  49  41 29        15     0.020       )
  50 243 f3        12     0.016       ó
  51  81 51        11     0.014       Q
  52  39 27         7     0.009       '
  53 239 ef         3     0.004       ï
  54  37 25         2     0.003       %
  55 164 a4         1     0.001       €
  56  61 3d         1     0.001       =
  57   0 00         1     0.001       




---
Open Source Software vertaalproject, vertaling@nl.linux.org
                web: http://vertaling.nl.linux.org/
archief mailinglist: http://mail.nl.linux.org/vertaling/