[vertaling] 'collation character' = "samengesteld teken"?

Benno Schulenberg benno at nietvergeten.nl
Tue Aug 9 20:01:32 CEST 2005


Jan Claeys schreef:
> Als ik die gast weer on-line zie komen zal ik eens vragen wat een
> "collation character" precies is...  :-)

Ondertussen heb ik wat in de rondte gelezen, en denk nu te begrijpen 
dat 'collation character' in deze context ongeveer "samengesteld 
teken" betekent: "collation character [...] is a sequence of 
characters that is treated as a primary unit".  Maar zie hieronder 
voor het reisverslag.

De melding 'Invalid collation character' wordt in sed gegeven naar 
aanleiding van een REG_ECOLLATE.

Uit 'info libc':

`REG_ECOLLATE'
     The regular expression referred to an invalid collating element
     (one not defined in the current locale for string collation).

Uit 'man 7 regex':

"Within  a  bracket  expression, a collating element (a character, 
a multi-character sequence that collates as if it were a single 
character, or a collating-sequence name for either) enclosed in 
`[.' and `.]' stands for the sequence of characters of that 
collating element."

En uit http://www.unicode.org/reports/tr10/tr10-14.html:

"a collation grapheme cluster (also known as a collation grapheme or 
collation character) [...] is a sequence of characters that is 
treated as a primary unit by the ordering. For example, ch is a 
collation grapheme for a traditional Spanish ordering."

Het schijnt bij 'collation characters' dus te gaan om combinaties 
van letters die in een bepaalde taal als één letter gelden, maar 
niet in de op dat moment gebruikte taal.  Het woord 'collation' 
wordt hier naar mijn idee dus een beetje oneigenlijk gebruikt.

$ grep  "[[.ch.]]"  *
grep: Invalid collation character
$ LC_ALL=nl_NL  grep  "[[.ch.]]"  *
grep: Ongeldig sorteerteken
$ LC_ALL=es_ES  grep  "[[.ch.]]"  *
grep: Carácter de unión inválido

Dat het Spaans de 'ch' niet als één teken herkent zal wel komen 
omdat dit een aantal jaren geleden veranderd is: vroeger gold het 
als een eenheid, tegenwoordig niet meer.  Kent iemand een taal 
waarin een combinatie van letters nog wel als eenheid geldt?

(Hoe dat met die "[[..]]" precies werkt, snap ik trouwens niet.  Uit 
de beschrijving lijkt het dat "[[.a.]]" gewoon voor "a" zou moeten 
staan, maar daarnaar greppen produceert regels die rechte haken 
bevatten.  En greppen naar "*[[.a.]]*" geeft regels waar een 
sterretje in voorkomt.  Ik begrijp er geen hout van.)

Toch, de melding 'Invalid collation character' krijg ik alleen 
geproduceerd met een dubbele letter, en de beste vertaling lijkt 
me daarom "Ongeldig samengesteld teken".

(Ik heb ook in de programmatekst van glibc gekeken, om te zien waar 
REG_ECOLLATE allemaal geretourneerd wordt, maar dat kan ik allemaal 
niet volgen.)

Benno




More information about the Vertaling mailing list