Latin-3 ed Unicode

Latin-3 ed Unicode

Nei suoi primi tempi, l'informatica parlava solo inglese; in un contesto linguistico così limitato, l'insieme di caratteri utilizzato era molto piccolo, benché l'evoluzione tecnica abbia causato un graduale passaggio dai soli 48 caratteri dei primi sistemi a scheda perforata ai circa 90 caratteri (più una quarantina di caratteri speciali, detti di controllo, che servono per scopi tecnici) del codice ASCII standard, che codifica ciascun carattere con 7 bit (cifre binarie), che permettono di rappresentare solo 128 caratteri.

Successivamente, specialmente a causa della diffusione capillare dei personal computer, l'esigenza di utilizzare molte lingue ha obbligato ad introdurre molti nuovi caratteri, necessari per una corretta scrittura nelle varie lingue nazionali; questo significa rappresentare più simboli, e quindi utilizzare più bit per ciascun carattere; poiché il numero di bit comunemente gestiti in gruppo va a multipli di 8, il passo naturale fu quello di introdurre codici di caratteri ad 8 bit, che permettono di rappresentarne fino a 256.

Ma sono ancora pochi! Per gestire tutti gli alfabeti di tutte le lingue, ne servono molti di più; perciò fu pensato di mantenere fissi i primi 128 caratteri, che formano lo standard di base, ed aggiungere nella restante parte superiore della tabella, che dispone di 128 posti, di volta in volta i gruppi di caratteri necessari, formando così numerosi alfabeti, chiamati 'set di caratteri', ciascuno dei quali adatto per una o più lingue. Questo metodo venne codificato nello standard ISO 8859-n, dove n è un numero che indica quale particolare tabella di caratteri sia utilizzata. Ad esempio, la tabella di caratteri adatta per l'italiano è la ISO 8859-1, comunemente detta anche Latin-1, mentre quella adatta per l'Esperanto è la ISO 8859-3, chiamata anche Latin-3.

Naturalmente, per poter leggere correttamente un testo scritto usando una certa tabella è necessario disporre di un font che contenga anche i caratteri di quella tabella; se esso viene letto usandone una diversa, tutti i caratteri alti vengono sostituiti dai corrispondenti nella nuova tabella, così che il testo non risulta più correttamente leggibile; da questo deriva la necessità di 'dichiarare' in qualche modo quale sia il set di caratteri utilizzato.

Per superare questo inconveniente, nel 1991 è stato proposto un sistema di caratteri, chiamato Unicode, che, essendo codificato con 16 bit, ne comprende ben 65536, permettendo così di contenere in una singola tabella tutti i caratteri necessari per la maggior parte delle lingue del mondo; questo sistema non ha però ancora trovato universale approvazione, prima di tutto perché molti programmi non sono in grado di utilizzarlo, e poi perché l'invio di un testo in Unicode richiede la trasmissione di una quantità di dati doppia dei normali set di caratteri ad 8 bit.

Latin-3 kaj Unikodo

En siaj pratempoj, informadiko parolis nur angle; en tiel limigita lingva spaco, la necesa karaktraro restis tre malgranda, kvankam la teknika evoluado lauxsxtupe pasigis gxin de la 48 karaktroj el la unuaj trukartaj sistemoj gxis la preskaux 90 karaktroj (plue proksimume kvardeko da apartaj karaktroj, kutime nomataj 'kontrolaj', kiuj oni necesas per teknikaj kialoj) kiuj trovigxas en la ASCII norma kodo, kiu enkodas cxiu karaktro per 7 bitoj (binaraj ciferoj), tiel ebligante montri nur entute 128 karakratojn.

Poste, speciale kauxze de la kapilara disvastigxo de la personaj komputeroj, la neceso uzi plurajn lingvojn devigis ekuzi multajn novajn karaktrojn, kiuj estis necesaj por korekta skribado en la diversaj naciaj lingvoj; tio implicas prezenti pluajn simbolojn, kaj do uzi pluaj bitoj por cxiu karaktro; cxar la bitaroj kutime ope uzataj nombras okoble, komprenebla elekto estis la enkonduko de ok-bitaj karaktroj, kiuj eblas simboli gxis 256 da ili.

Sed ili ankoraux ne suficxas! Por uzebligi cxiujn alfabetojn de cxiuj lingvoj, oni necesas multe pli da ili; tial oni pensis teni sensxangxaj la unuajn 128 karaktrojn, kiuj are formas la bazan ASCII standarton, kaj, en la plua supera parto de la karaktrotabelo, kiu enhavas 128 neokupitajn placojn, vicvice aldoni la arojn de necesaj karaktroj, tiel formante multajn alfabetojn, nomataj 'karaktraroj', el kiuj cxiu tauxgas por unu aux pli lingvoj. Tiu metodo estis difinita en la normo ISO 8859-N, kie N estas numero kiu montras kiun apartan tabelon oni estas uzanta. Ekzemple, la karaktrotabelo tauxga por la itala lingvo estas ISO 8859-1, ankaux kutime nomata Latin-1, dum la tabelo kiu pli tauxgas por Esperanto estas la ISO 8859-3, ankaux nomata Latin-3.

Kompreneble, por korekte legi iun tekston skribita per iu tabelo estas necese havi tiparon entenantan ankaux ties apartajn karaktrojn; se gxin oni legas per iu alia tabelo, cxiuj la superaj karaktroj estas anstatauxataj de la korespondaj en la nova tabelo, tiel ke la teksto ne plu estas korekte legebla; el tio elvenas la neceso iel 'deklari' la uzata karaktraro.

Por supervenki tiun malhelpon, en la jaro 1991 oni proponis novan karaktran sistemon, nome Unikodo, kiu estas kodita per 16 bitoj kaj do ebligas ensxovi en unu solan tabelon plene 65536 karaktrojn, kiuj praktike suficxas por la plejparto el la mondaj lingvoj; tiu sistemo, bedauxrinde, ankoraux ne havas universalan aprobon, unue cxar multo da programoj ne havas kapablon gxin uzi, kaj plue cxar por la sendo de iu Unikoda teksto estas necesa duobla kvanto da datumoj kompare al la kutimaj okbitaj karaktraroj.

Indietro ~ Malantauxen