Vai al contenuto
Torna a Sicurezza Informatica

Caratteri Unicode: cosa sono e come funzionano? Scoprilo

3 min
0:00
Ascolta
Caratteri unicode

Caratteri unicode

Guida ai caratteri Unicode

I caratteri Unicode sono tutto quello che si nasconde dietro ai normali caratteri di testo che visualizzi sul tuo monitor. Ti sarà sicuramente capitato di incontrare, durante le tue ricerche, dei siti web con un piccolo quadrato vuoto in mezzo ad un testo. Ecco, quello è esattamente un problema dovuto ad un’errata trasformazione dei codici Unicode.

La tabella di caratteri Unicode

Il sistema è oggi gestito dall’Unicode Consortium, istituzione internazionale, ma in origine si è basato sull’utilizzo di un’elementare tabella di caratteri Unicode detta ASCII – creata nel 1961 dall’ingegnere IBM Robert Bemer – secondo la quale erano rappresentati i numeri in base ad un certo numero di byte.

Cosa sono i caratteri Unicode?

L’Unicode è un sistema di codifica che assegna un numero univoco – si legge su Wikipedia – ad ogni carattere usato per la scrittura di testi, in maniera indipendente dalla lingua, dalla piattaforma informatica e dal programma utilizzato”. Attraverso i caratteri Unicode da tastiera è infatti possibile scrivere seguendo l’alfabeto arabo, copto, ebraico, latino, greco, tibetano, cirillico, esperanto, con gli ideogrammi e tantissimi altri sistemi di scrittura.

Come funziona il sistema di codifica Unicode

Per capire come funziona il sistema di codifica Unicode è bene partire dall’assunto per cui ogni carattere alfanumerico che troviamo nei computer è in realtà rappresentato da una sequenza di numeri che va da 0 a 1 bit, in gruppi composti da 8 byte totali. Un byte contiene infatti 8 bit e può assumere fino a 256 valori differenti.
I computer “prende” tutti questi valori e li trasforma in lettere – maiuscole e minuscole – e numeri per farci visualizzare il testo attraverso il font scelto dal creatore del sito.
Tutto questo procedimento avviene attraverso delle tabelle specifiche, prima la ASCII base poi quelle estese, tra cui quella che si usa per la maggior parte dei siti web con qualche differenza da Paese a Paese, ossia la tabella ISO 8859-1, chiamata anche Latin-1.
Dopo lo sviluppo da parte di ISO – l’ente di standardizzazione internazionale – di ulteriori versioni, l’innovazione definitiva nel campo della codifica dei caratteri ci è arrivata proprio con l’Unicode – definito anche ISO 10646 – che ha esteso in modo molto preciso la quantità di byte inseriti nelle sequenze, creando così una corrispondenza univoca tra un preciso carattere e un numero, allargando in modo consistente il repertorio dei caratteri.

Diversa codifica per le pagine HTML

Assistiamo ad una codifica anche quando noi stessi scriviamo un testo all’interno di un documento, ed è per questo che Windows ed Apple hanno deciso negli ultimi anni di adottare Unicode ed aggiornare i sistemi operativi sulla base di questa tecnologia. La codifica invece utilizzata normalmente per le pagine HTML è l’ISO 8859-1.

Lingue e alfabeti codificati con Unicode

Anche se non tutte le lingue e gli alfabeti sono stati ancora codificati con Unicode, l’obiettivo dei prossimi anni è quello di coprire tutti i caratteri rappresentabili, garantendo così la compatibilità e la non sovrapposizione dei caratteri già definiti.