letterfrequentie

Simon Brouwer vertaling@nl.linux.org
Thu, 06 May 2004 19:36:23 +0200


At 19:01 6-5-2004, you wrote:
>In de vertaling van gok moet ik de relatieve frequentie van letters
>weten in het Nederlands. (dus: welke letter komt het meeste voor, welke
>daarna etc.)
>Heeft iemand een idee hoe ik daar achter kom?

Als je het niet kant-en-klaar kunt vinden zou je een programmaatje kunnen 
maken dat voor alle letters telt hoe vaak ze voorkomen in de 
spellingwoordenlijst van de Nederlandstalige TeX Gebruikersgroep:

ftp://ftp.tue.nl/pub/tex/GB95/spell-nl-v5b/woorden/latin1/woor-den.max

Theoretisch zou het resultaat nog wel wat kunnen afwijken van de frequentie 
in een "gemiddelde" Nederlandstalige tekst, aangezien daarin sommige 
woorden vaker voorkomen dan andere. Je zou de methode ook kunnen toepassen 
op artikelen die je uit de online telegraaf knipt of op de Max Havelaar die 
via het project Gutenberg is te downloaden.

Ik hoop dat je hier wat aan hebt...


Vriendelijke groet,
Simon Brouwer.

 >>> nl.openoffice.org <<<


---
Open Source Software vertaalproject, vertaling@nl.linux.org
                web: http://vertaling.nl.linux.org/
archief mailinglist: http://mail.nl.linux.org/vertaling/