Un computer memorizza ogni lettera e simbolo di testo come una sequenza di bit - uno binario e zero . Sistemi di codifica dell'alfabeto , la punteggiatura e altri simboli che si sviluppano durante il 20 ° secolo , portando a ANSI e Unicode . ANSI , sorto in precedenza , utilizza un minor numero di bit , ma accomoda lingue non europee con difficoltà; Unicode comprende molti personaggi asiatici e del Medio Oriente , così come il set romano usato per inglese e altre lingue europee . Dimensione
Il set ANSI codifica dei caratteri con otto bit o un byte di dati , in modo che gestisce fino a 256 simboli diversi alla volta. Il sistema Unicode utilizza 16 bit, o due byte , che può ospitare 256 x 256 o 65.536 simboli . Inoltre , Unicode dispone di 17 aerei di codifica , permettendo un totale di oltre 1 milione di simboli . Per le lingue con set di caratteri non romani , ANSI utilizza un numero a 16 bit aggiuntivo chiamato una pagina di codice . Un computer memorizza questo numero una volta , non con ogni personaggio , dando più flessibilità al sistema di codifica ANSI .
Lingue
ANSI serie nota come "Windows 1252 " dove " 1252" si riferisce al numero di pagina di codice , è il più popolare , che coprono inglese e diverse lingue europee . Altre pagine di codice definiscono lingue aggiuntive , come ad esempio 1254 per il turco e il 1255 per l'ebraico . Unicode , a causa della sua dimensione di carattere più grande, ospita intrinsecamente più simboli , compresi quelli per la thai , Braille , Cherokee e antico persiano .
Piattaforme
ANSI cresciuto dal sistema operativo Windows di Microsoft , essendo stato sviluppato da Microsoft e IBM . Ricercatori provenienti da Apple e Xerox hanno collaborato su Unicode, che Microsoft in seguito adottato . Al momento della pubblicazione , Windows supporta sia ANSI e Unicode . Mac OS X utilizza il proprio codice di carattere a otto bit , simile a ANSI , e supporta anche Unicode . Il sistema operativo Linux fornisce anche il supporto Unicode .
Ordinamento
Il set di caratteri Roman ha sempre permesso agli utenti di organizzare e ordinare le informazioni utilizzando l'ordine dei suoi personaggi . Codici ANSI seguivano l'ordine dei caratteri romano , così il valore di una " T " è maggiore di quello di un " B ", facendo attività di computer come l'ordinamento pressoché automatico . Sebbene Unicode può anche ordinare informazioni basate su ordine dei caratteri , è un processo più complesso . I primi 127 caratteri Unicode includono lettere romane maiuscole e minuscole , che consente l'ordinamento per inglese e altre lingue europee . Ogni lingua non- romano ha la sua formula di sorta , o algoritmo .