ISO 8859
Lo standard ISO 8859, più precisamente ISO/IEC 8859, è uno standard comune ISO ed IEC per la codifica di caratteri ad 8 bit per il trattamento informatico di testi. La norma è divisa in parti numerate pubblicate separatamente (come ISO/IEC 8859-1, ISO/IEC 8859-2, etc), ognuna delle quali può essere riferita informalmente come standard a sé stante. Ci sono attualmente 15 parti definite, escludendo la ISO/IEC 8859-12, abbandonata.
Le parti 1, 2, 3 e 4 della ISO/IEC 8859 sono incluse nello standard ECMA International ECMA-94.
Introduzione
Sebbene la sequenza di bit dei 95 caratteri ASCII stampabili (tutte le lettere occidentali non accentate) siano sufficienti per lo scambio di informazioni usando la lingua inglese, molte altre lingue che usano l'alfabeto latino hanno bisogno di simboli addizionali non compresi nell'ASCII, come la ß (tedesco), la ñ (spagnolo), la å (svedese e altre lingue scandinave) o le lettere accentate italiane (à, è, é, ì, ò, ù).
L'ISO 8859 cercò di rimediare a questo problema utilizzando l'ottavo bit del byte, permettendo la definizione di altri 128 caratteri. Questo bit era usato in precedenza per informazioni del protocollo di trasmissione dati oppure era inutilizzato. Comunque, erano necessari più caratteri di quanti potessero stare nella codifica a 8 bit, così furono sviluppate diverse mappe di caratteri, di cui una decina solo per coprire le lingue latine.
Le codifiche ISO 8859-n contengono solo caratteri stampabili, e sono state concepite per essere usate assieme a caratteri di controllo mappati sui valori non assegnati. Molte codifiche registrate presso lo IANA comprendono i codici di controllo C0 (caratteri di controllo mappati sui valori da 0 a 31 inclusi) dello standard ISO 646 e i codici di controllo C1 (caratteri di controllo mappati sui valori da 127 a 159 inclusi) dello standard ISO 6429, dando origine a mappe a 8 bit in cui tutti o quasi i 256 possibili valori risultano assegnati.
L'identificativo MIME preferito per queste codifiche è ISO-8859-n, o alternativamente il loro nome canonico. Le scritture ISO 8859-n e ISO-8859-n sono frequentemente utilizzate indifferentemente. L'identificativo ISO-8859-11 è l'unico di questo insieme a non essere registrato presso lo IANA, probabilmente a causa della sua pressoché totale corrispondenza con il preesistente standard TIS 620, il cui nome è invece registrato.
Caratteri
Lo standard ISO 8859 è progettato per un affidabile scambio di informazioni, non per la stampa tipografica; lo standard omette simboli necessari per una stampa di qualità, come le legature opzionali, virgolette, lineette ad altri caratteri. In conseguenza di questo i sistemi tipografici professionali spesso usano estensioni proprietarie (ed incompatibili tra di loro) aggiunte all'ASCII e allo standard ISO 8859, oppure l'Unicode.
In linea di massima sono stati inclusi solo i caratteri e i simboli che già facevano parte di un set di caratteri diffusamente utilizzato e presenti sulle varie versioni nazionali delle tastiere. Furono pertanto incluse le virgolette caporali « e », usate da alcune lingue europee, ma non i doppi apici “ e ” usati dall'inglese e qualche altra lingua. Del francese furono escluse le legature œ e Œ, comunemente trascritte come "oe". La lettera Ÿ, necessaria per la scrittura di testo in maiuscolo, fu anch'essa esclusa. Questi caratteri furono però successivamente inclusi, assieme al simbolo dell'euro "€", dalla codifica ISO 8859-15. Analogamente i caratteri olandesi 'ij' e 'IJ' furono esclusi in quanto usualmente trascritti separatamente come "ij". Del rumeno furono inizialmente escluse le lettere 'Ș/ș' e 'Ț/ț' (lettere con virgola), unificate dal Consorzio Unicode con le lettere 'Ş/ş' e 'Ţ/ţ' (lettere con cediglia) considerando i glifi con la virgola semplici varianti di quelli con la cedilla. Le lettere con la virgola furono successivamente introdotte esplicitamente nello standard Unicode ed inserite nella codifica ISO 8859-16.
La maggior parte delle codifiche ISO 8859 offrono i segni diacritici necessari per la trascrizione in caratteri latini di varie lingue europee. Altre offrono anche caratteri non latini, quali il greco, il cirillico, l'ebraico, l'arabo e il thailandese. La maggior parte delle codifiche prevedono solo caratteri spaziati (ovvero che prevedono l'avanzamento del cursore), ma quelle tailandese, ebraica e araba contengono anche caratteri combinanti (ovvero la cui emissione non comporta l'avanzamento del cursore). Lo standard non offre alcun supporto per le scritture dell'est asiatico (cinese, giapponese, coreano), poiché i loro sistemi di scrittura ideografici richiedono molte migliaia di caratteri. Benché utilizzi caratteri basati sull'alfabeto latino, nemmeno il vietnamita rientra entro il limite di 96 caratteri (esclusi i segni diacritici) imposti dallo standard. I due sistemi di scrittura sillabici giapponesi (hiragana e katakana) rientrerebbero in tale limite, ma non sono comunque inclusi tra le codifiche ISO 8859.
Le parti dell'ISO 8859
Parte 1 | Latino-1 Europa occidentale | Probabilmente la parte più usata della ISO 8859, copre la maggior parte delle lingue europee occidentali: danese, faroese, finlandese (parziale[1]), francese (parziale[1]), gaelico scozzese, inglese, irlandese, islandese, italiano, norvegese, olandese (parziale[2]), portoghese, romancio, spagnolo, svedese e tedesco. Lingue di altre parti del mondo sono anch'esse comprese, come: europee orientali (albanese), asiatiche sudorientali (indonesiano), così come lingue africane (afrikaans e swahili). I caratteri mancanti € e Ÿ maiuscola sono nella ISO 8859-15 versione riveduta. Il corrispondente repertorio di caratteri approvato dall'IANA ISO-8859-1 è la codifica predefinita per documenti HTML e per documenti trasmessi tramite messaggi MIME, come le risposte HTTP quando il tipo documento è "text" (come in "text/html"). |
---|---|---|
Parte 2 | Latino-2 Europa centrale | Supporta le lingue centro ed est europee che usano l'alfabeto latino, comprese bosniaco, ceco, croato, polacco, serbo, slovacco, sloveno, ungherese. Il carattere mancante € si trova nella ISO 8859-16. |
Parte 3 | Latino-3 Europa meridionale | Usata per turco, maltese ed Esperanto. Largamente sostituita dalla ISO 8859-9 per il turco e dall'Unicode per l'Esperanto. |
Parte 4 | Latino-4 Europa settentrionale | Usata per estone, lettone, lituano, groenlandese e sami. |
Parte 5 | Latino/Cirillico | Copre la maggior parte delle lingue slave che usano l'alfabeto cirillico, come: bielorusso, bulgaro, macedone, russo, serbo, ucraina (parziale[3]). |
Parte 6 | Latino/Arabo | Copre i caratteri più comuni della lingua araba. Non supporta altri linguaggi che usano l'alfabeto arabo. Per essere correttamente visualizzato necessita di essere elaborato per la bidirezionalità e l'analisi contestuale. |
Parte 7 | Latino/Greco | Copre il greco moderno (sistema monotonico di accentazione). Può essere usato anche per il greco antico scritto senza accenti (monotonico), ma mancano i diacritici per il sistema politonico, introdotto con l'Unicode. |
Parte 8 | Latino/Ebraico | Copre il moderno alfabeto ebraico come è utilizzato in Israele. In pratica esistono due differenti codifiche: ordine logico (necessita di elaborazione per il testo bidirezionale) e visuale (da sinistra a destra). |
Parte 9 | Latino-5 Turco | In gran parte simile alla ISO 8859-1, sostituisce i caratteri islandesi, raramente usati, con quelli turchi. È usato anche per il curdo. |
Parte 10 | Latino-6 Nordico | Una revisione del Latino-4 (ISO 8859-4). Considerato più utile per molte lingue scandinave. Le lingue baltiche usano prevalentemente il Latino-4. |
Parte 11 | Latino/Thai | Contiene la maggior parte dei caratteri necessari per la Lingua thailandese. Lo stesso del TIS 620. |
non esistente Parte 12 | Latino/Devanagari | La creazione di una parte della 8859 per il Devanagari fu ufficialmente abbandonata nel 1997. ISCII e Unicode/ISO/IEC 10646 coprono il Devanagari. |
Parte 13 | Latino-7 Baltico | Aggiunti alcuni caratteri per le lingue baltiche che non erano presenti in Latino-4 e Latino-6. |
Parte 14 | Latino-8 Celtico | Copre le lingue celtiche come il gaelico e il bretone. |
Parte 15 | Latino-9 | Una revisione della 8859-1 che elimina alcuni simboli scarsamente utilizzati, sostituendoli con il simbolo dell'euro € e con le lettere Š, š, Ž, ž, Œ, œ, e Ÿ, che completano la copertura del francese, finlandese ed estone. |
Parte 16 | Latino-10 Europa sudorientale | Destinata all'albanese, croato, italiano, polacco, rumeno, sloveno ed ungherese, ma utilizzabile anche per il finlandese, francese, tedesco ed irlandese (nuova ortografia). È stata posta maggiore attenzione alle lettere che non ai simboli. Il simbolo generico di valuta (¤) è stato sostituito dall'Euro (€). |
Ciascuna parte della ISO 8859 è progettata per essere utilizzata con lingue simili, in modo che i caratteri utilizzati, a volte comuni, siano inseriti nella stessa raccolta. Ci sono però alcuni caratteri e combinazioni di lingue che non possono essere direttamente supportate se non attraverso una transcodifica.
Particolare attenzione è stata posta affinché le operazioni di conversione tra codifiche diverse risultassero quanto più agevoli possibile; ad esempio i sette caratteri speciali del tedesco occupano la medesima posizione in tutte le varianti latine (1-4, 9-10, 13-16), e per molte posizioni i caratteri differiscono, tra una variante e l'altra, unicamente per i segni diacritici. In particolare le varianti 1-4 sono state progettate congiuntamente allo scopo di garantire che se due varianti comprendono un medesimo carattere, esso deve comparire in entrambe nella medesima posizione.
Tabella
Binario | Oct | Dec | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1010 0000 | 240 | 160 | A0 | Non-breaking space (NBSP) | |||||||||||||||
1010 0001 | 241 | 161 | A1 | ¡ | Ą | Ħ | Ą | Ё | ‘ | ¡ | Ą | ก | ” | Ḃ | ¡ | Ą | |||
1010 0010 | 242 | 162 | A2 | ¢ | ˘ | ĸ | Ђ | ’ | ¢ | ¢ | Ē | ข | ¢ | ḃ | ¢ | ą | |||
1010 0011 | 243 | 163 | A3 | £ | Ł | £ | Ŗ | Ѓ | £ | Ģ | ฃ | £ | Ł | ||||||
1010 0100 | 244 | 164 | A4 | ¤ | Є | ¤ | € | ¤ | Ī | ค | ¤ | Ċ | € | ||||||
1010 0101 | 245 | 165 | A5 | ¥ | Ľ | Ĩ | Ѕ | ₯ | ¥ | Ĩ | ฅ | „ | ċ | ¥ | „ | ||||
1010 0110 | 246 | 166 | A6 | ¦ | Ś | Ĥ | Ļ | І | ¦ | Ķ | ฆ | ¦ | Ḋ | Š | |||||
1010 0111 | 247 | 167 | A7 | § | Ї | § | ง | § | |||||||||||
1010 1000 | 250 | 168 | A8 | ¨ | Ј | ¨ | Ļ | จ | Ø | Ẁ | š | ||||||||
1010 1001 | 251 | 169 | A9 | © | Š | İ | Š | Љ | © | Đ | ฉ | © | |||||||
1010 1010 | 252 | 170 | AA | ª | Ş | Ē | Њ | ͺ | × | ª | Š | ช | Ŗ | Ẃ | ª | Ș | |||
1010 1011 | 253 | 171 | AB | « | Ť | Ğ | Ģ | Ћ | « | Ŧ | ซ | « | ḋ | « | |||||
1010 1100 | 254 | 172 | AC | ¬ | Ź | Ĵ | Ŧ | Ќ | ، | ¬ | Ž | ฌ | ¬ | Ỳ | ¬ | Ź | |||
1010 1101 | 255 | 173 | AD | soft hyphen (SHY) | ญ | SHY | |||||||||||||
1010 1110 | 256 | 174 | AE | ® | Ž | Ž | Ў | ® | Ū | ฎ | ® | ź | |||||||
1010 1111 | 257 | 175 | AF | ¯ | Ż | ¯ | Џ | ― | ¯ | Ŋ | ฏ | Æ | Ÿ | ¯ | Ż | ||||
1011 0000 | 260 | 176 | B0 | ° | А | ° | ฐ | ° | Ḟ | ° | |||||||||
1011 0001 | 261 | 177 | B1 | ± | ą | ħ | ą | Б | ± | ą | ฑ | ± | ḟ | ± | |||||
1011 0010 | 262 | 178 | B2 | ² | ˛ | ² | ˛ | В | ² | ē | ฒ | ² | Ġ | ² | Č | ||||
1011 0011 | 263 | 179 | B3 | ³ | ł | ³ | ŗ | Г | ³ | ģ | ณ | ³ | ġ | ³ | ł | ||||
1011 0100 | 264 | 180 | B4 | ´ | Д | ΄ | ´ | ī | ด | “ | Ṁ | Ž | |||||||
1011 0101 | 265 | 181 | B5 | µ | ľ | µ | ĩ | Е | ΅ | µ | ĩ | ต | µ | ṁ | µ | ” | |||
1011 0110 | 266 | 182 | B6 | ¶ | ś | ĥ | ļ | Ж | Ά | ¶ | ķ | ถ | ¶ | ||||||
1011 0111 | 267 | 183 | B7 | · | ˇ | · | ˇ | З | · | ท | · | Ṗ | · | ||||||
1011 1000 | 270 | 184 | B8 | ¸ | И | Έ | ¸ | ļ | ธ | ø | ẁ | ž | |||||||
1011 1001 | 271 | 185 | B9 | ¹ | š | ı | š | Й | Ή | ¹ | đ | น | ¹ | ṗ | ¹ | č | |||
1011 1010 | 272 | 186 | BA | º | ş | ē | К | Ί | ÷ | º | š | บ | ŗ | ẃ | º | ș | |||
1011 1011 | 273 | 187 | BB | » | ť | ğ | ģ | Л | ؛ | » | ŧ | ป | » | Ṡ | » | ||||
1011 1100 | 274 | 188 | BC | ¼ | ź | ĵ | ŧ | М | Ό | ¼ | ž | ผ | ¼ | ỳ | Œ | ||||
1011 1101 | 275 | 189 | BD | ½ | ˝ | ½ | Ŋ | Н | ½ | ― | ฝ | ½ | Ẅ | œ | |||||
1011 1110 | 276 | 190 | BE | ¾ | ž | ž | О | Ύ | ¾ | ū | พ | ¾ | ẅ | Ÿ | |||||
1011 1111 | 277 | 191 | BF | ¿ | ż | ŋ | П | ؟ | Ώ | ¿ | ŋ | ฟ | æ | ṡ | ¿ | ż | |||
1100 0000 | 300 | 192 | C0 | À | Ŕ | À | Ā | Р | ΐ | À | Ā | ภ | Ą | À | |||||
1100 0001 | 301 | 193 | C1 | Á | С | ء | Α | Á | ม | Į | Á | ||||||||
1100 0010 | 302 | 194 | C2 | Â | Т | آ | Β | Â | ย | Ā | Â | ||||||||
1100 0011 | 303 | 195 | C3 | Ã | Ă | Ã | У | أ | Γ | Ã | ร | Ć | Ã | Ă | |||||
1100 0100 | 304 | 196 | C4 | Ä | Ф | ؤ | Δ | Ä | ฤ | Ä | |||||||||
1100 0101 | 305 | 197 | C5 | Å | Ĺ | Ċ | Å | Х | إ | Ε | Å | ล | Å | Ć | |||||
1100 0110 | 306 | 198 | C6 | Æ | Ć | Ĉ | Æ | Ц | ئ | Ζ | Æ | ฦ | Ę | Æ | |||||
1100 0111 | 307 | 199 | C7 | Ç | Į | Ч | ا | Η | Ç | Į | ว | Ē | Ç | ||||||
1100 1000 | 310 | 200 | C8 | È | Č | È | Č | Ш | ب | Θ | È | Č | ศ | Č | È | ||||
1100 1001 | 311 | 201 | C9 | É | Щ | ة | Ι | É | ษ | É | |||||||||
1100 1010 | 312 | 202 | CA | Ê | Ę | Ê | Ę | Ъ | ت | Κ | Ê | Ę | ส | Ź | Ê | ||||
1100 1011 | 313 | 203 | CB | Ë | Ы | ث | Λ | Ë | ห | Ė | Ë | ||||||||
1100 1100 | 314 | 204 | CC | Ì | Ě | Ì | Ė | Ь | ج | Μ | Ì | Ė | ฬ | Ģ | Ì | ||||
1100 1101 | 315 | 205 | CD | Í | Э | ح | Ν | Í | อ | Ķ | Í | ||||||||
1100 1110 | 316 | 206 | CE | Î | Ю | خ | Ξ | Î | ฮ | Ī | Î | ||||||||
1100 1111 | 317 | 207 | CF | Ï | Ď | Ï | Ī | Я | د | Ο | Ï | ฯ | Ļ | Ï | |||||
1101 0000 | 320 | 208 | D0 | Ð | Đ | Đ | а | ذ | Π | Ğ | Ð | ะ | Š | Ŵ | Ð | ||||
1101 0001 | 321 | 209 | D1 | Ñ | Ń | Ñ | Ņ | б | ر | Ρ | Ñ | Ņ | ั | Ń | Ñ | Ń | |||
1101 0010 | 322 | 210 | D2 | Ò | Ň | Ò | Ō | в | ز | Ò | Ō | า | Ņ | Ò | |||||
1101 0011 | 323 | 211 | D3 | Ó | Ķ | г | س | Σ | Ó | ำ | Ó | ||||||||
1101 0100 | 324 | 212 | D4 | Ô | д | ش | Τ | Ô | ิ | Ō | Ô | ||||||||
1101 0101 | 325 | 213 | D5 | Õ | Ő | Ġ | Õ | е | ص | Υ | Õ | ี | Ő | ||||||
1101 0110 | 326 | 214 | D6 | Ö | ж | ض | Φ | Ö | ึ | Ö | |||||||||
1101 0111 | 327 | 215 | D7 | × | з | ط | Χ | × | Ũ | ื | × | Ṫ | × | Ś | |||||
1101 1000 | 330 | 216 | D8 | Ø | Ř | Ĝ | Ø | и | ظ | Ψ | Ø | ุ | Ų | Ø | Ű | ||||
1101 1001 | 331 | 217 | D9 | Ù | Ů | Ù | Ų | й | ع | Ω | Ù | Ų | ู | Ł | Ù | ||||
1101 1010 | 332 | 218 | DA | Ú | к | غ | Ϊ | Ú | ฺ | Ś | Ú | ||||||||
1101 1011 | 333 | 219 | DB | Û | Ű | Û | л | Ϋ | Û | Ū | Û | ||||||||
1101 1100 | 334 | 220 | DC | Ü | м | ά | Ü | Ü | |||||||||||
1101 1101 | 335 | 221 | DD | Ý | Ŭ | Ũ | н | έ | İ | Ý | Ż | Ý | Ę | ||||||
1101 1110 | 336 | 222 | DE | Þ | Ţ | Ŝ | Ū | о | ή | Ş | Þ | Ž | Ŷ | Þ | Ț | ||||
1101 1111 | 337 | 223 | DF | ß | п | ί | ‗ | ß | ฿ | ß | |||||||||
1110 0000 | 340 | 224 | E0 | à | ŕ | à | ā | р | ـ | ΰ | א | à | ā | เ | ą | à | |||
1110 0001 | 341 | 225 | E1 | á | с | ف | α | ב | á | แ | į | á | |||||||
1110 0010 | 342 | 226 | E2 | â | т | ق | β | ג | â | โ | ā | â | |||||||
1110 0011 | 343 | 227 | E3 | ã | ă | ã | у | ك | γ | ד | ã | ใ | ć | ã | ă | ||||
1110 0100 | 344 | 228 | E4 | ä | ф | ل | δ | ה | ä | ไ | ä | ||||||||
1110 0101 | 345 | 229 | E5 | å | ĺ | ċ | å | х | م | ε | ו | å | ๅ | å | ć | ||||
1110 0110 | 346 | 230 | E6 | æ | ć | ĉ | æ | ц | ن | ζ | ז | æ | ๆ | ę | æ | ||||
1110 0111 | 347 | 231 | E7 | ç | į | ч | ه | η | ח | ç | į | ็ | ē | ç | |||||
1110 1000 | 350 | 232 | E8 | è | č | è | č | ш | و | θ | ט | è | č | ่ | č | è | |||
1110 1001 | 351 | 233 | E9 | é | щ | ى | ι | י | é | ้ | é | ||||||||
1110 1010 | 352 | 234 | EA | ê | ę | ê | ę | ъ | ي | κ | ך | ê | ę | ๊ | ź | ê | |||
1110 1011 | 353 | 235 | EB | ë | ы | ً | λ | כ | ë | ๋ | ė | ë | |||||||
1110 1100 | 354 | 236 | EC | ì | ě | ì | ė | ь | ٌ | μ | ל | ì | ė | ์ | ģ | ì | |||
1110 1101 | 355 | 237 | ED | í | э | ٍ | ν | ם | í | ํ | ķ | í | |||||||
1110 1110 | 356 | 238 | EE | î | ю | َ | ξ | מ | î | ๎ | ī | î | |||||||
1110 1111 | 357 | 239 | EF | ï | ď | ï | ī | я | ُ | ο | ן | ï | ๏ | ļ | ï | ||||
1111 0000 | 360 | 240 | F0 | ð | đ | đ | ȑ | ِ | π | נ | ğ | ð | ๐ | š | ŵ | ð | đ | ||
1111 0001 | 361 | 241 | F1 | ñ | ń | ñ | ņ | ё | ّ | ρ | ס | ñ | ņ | ๑ | ń | ñ | ń | ||
1111 0010 | 362 | 242 | F2 | ò | ň | ò | ō | ђ | ْ | ς | ע | ò | ō | ๒ | ņ | ò | |||
1111 0011 | 363 | 243 | F3 | ó | ķ | ѓ | σ | ף | ó | ๓ | ó | ||||||||
1111 0100 | 364 | 244 | F4 | ô | є | τ | פ | ô | ๔ | ō | ô | ||||||||
1111 0101 | 365 | 245 | F5 | õ | ő | ġ | õ | ѕ | υ | ץ | õ | ๕ | ő | ||||||
1111 0110 | 366 | 246 | F6 | ö | і | φ | צ | ö | ๖ | ö | |||||||||
1111 0111 | 367 | 247 | F7 | ÷ | ї | χ | ק | ÷ | ũ | ๗ | ÷ | ṫ | ÷ | ś | |||||
1111 1000 | 370 | 248 | F8 | ø | ř | ĝ | ø | ј | ψ | ר | ø | ๘ | ų | ø | ű | ||||
1111 1001 | 371 | 249 | F9 | ù | ů | ù | ų | љ | ω | ש | ù | ų | ๙ | ł | ù | ||||
1111 1010 | 372 | 250 | FA | ú | њ | ϊ | ת | ú | ๚ | ś | ú | ||||||||
1111 1011 | 373 | 251 | FB | û | ű | û | ћ | ϋ | û | ๛ | ū | û | |||||||
1111 1100 | 374 | 252 | FC | ü | ќ | ό | ü | ü | |||||||||||
1111 1101 | 375 | 253 | FD | ý | ŭ | ũ | § | ύ | LRM | ı | ý | ż | ý | ę | |||||
1111 1110 | 376 | 254 | FE | þ | ţ | ŝ | ū | ў | ώ | RLM | ş | þ | ž | ŷ | þ | ț | |||
1111 1111 | 377 | 255 | FF | ÿ | ˙ | џ | ÿ | ĸ | ’ | ÿ |
Alla posizione 0xA0 c'è sempre lo spazio indivisibile (non breaking space) e alla 0xAD quasi sempre il tratto d'unione (soft hyphen), che è visualizzato per la sillabazione. Gli altri caratteri vuoti possono essere non assegnati oppure il sistema non è in grado di visualizzarli.
Ci sono nuove aggiunte per le versioni ISO/IEC 8859-7:2003 e ISO/IEC 8859-8:1999. LRM (left-to-right mark), marcatore da sinistra a destra (U+200E) e RLM (right-to-left mark), marcatore da destra a sinistra (U+200F), sono usati per la visualizzazione bidirezionale.
Rapporto con Unicode e UCS
A partire dal 1991, il Consorzio Unicode ha collaborato con la ISO per sviluppare parallelamente lo standard Unicode e lo Universal Character Set (UCS o ISO/IEC 10646). Tali standard erano stati creati allo scopo di unificare, tra gli altri, la collezione di caratteri offerta dalle codifiche ISO 8859 assegnando a ciascun carattere un codice numerico univoco, inizialmente a 16 bit. Successivamente il modello fu esteso associando ad ogni carattere un generico identificatore numerico (code point) e delegando a specifiche codifiche (ad esempio l'UTF-8) il compito di associare sequenze di bit ai code point.
Le edizioni più recenti dell'ISO 8859 sono espresse come mappe di corrispondenza tra le 256 possibili codifiche esprimibili con l'uso di un singolo byte e caratteri della collezione Unicode, rendendo di fatto ogni singola variante dell'ISO 8859 uno specifico sistema di codifica per un sotto-insieme estremamente ridotto (256 elementi) del set Unicode; in particolare i primi 256 caratteri Unicode/UCS coincidono con i 256 caratteri dell'ISO-8859-1.
I set di caratteri a singolo byte, tra cui le parti dell'ISO 8859 e loro varianti, godettero di estremo favore per tutti gli anni novanta, avendo il vantaggio di essere estremamente diffusi e di poter essere implementati più facilmente: la corrispondenza diretta tra un byte ed un carattere è semplice e generalmente adeguata per qualsiasi applicazione che necessiti di supportare una singola lingua.
A mano a mano che il costo, in termini di risorse di calcolo, di usare più byte per carattere iniziò a diminuire, i linguaggi di programmazione e i sistemi operativi affiancarono il supporto nativo per Unicode ai sistemi di codifica più tradizionali. Con il progressivo diffondersi di sistemi con supporto per Unicode, l'uso delle codifiche ISO 8859 e di altre codifiche proprietarie divenne sempre meno comune; benché residui dei sistemi di codifica a singolo byte siano ancora ben presenti in molti software ed apparecchiature hardware, la maggior parte dei sistemi moderni usa internamente Unicode e si avvale di tabelle di conversione per ricodificare, se necessario, da o verso altre codifiche.
Uno degli usi in cui non è stato soppiantato da Unicode è la codifica dei messaggi Usenet, il cui protocollo è stato pensato per le codifiche a sette bit. Per la lingua italiana si utilizza ISO-8859-1 oppure ISO-8859-15, ma sono adatti anche ISO-8859-3 e ISO-8859-9.
Stato dello sviluppo
Lo standard ISO/IEC 8859 era mantenuto dal Joint Technical Committee 1, Subcommittee 2, Working Group 3 (ISO/IEC JTC 1/SC 2/WG 3). Nel giugno del 2004 il WG 3 fu sciolto e la manutenzione fu trasferita al SC 2. Attualmente lo standard non viene più aggiornato, poiché l'unico gruppo di lavoro rimasto del SC 2, il WG 2, è interamente dedicato allo sviluppo dello standard ISO/IEC 10646.
Collegamenti esterni
- Le versioni pubblicate di ciascuna parte dell'ISO/IEC 8859 sono disponibili, a pagamento, presso l'ISO catalogue site and from the ANSI eStandards Store Archiviato il 16 gennaio 2005 in Internet Archive.
- Le versioni in PDF delle bozze finali di alcune parti dell'ISO/IEC 8859, così come realizzate per la revisione e la pubblicazione dall'ISO/IEC JTC 1/SC 2/WG 3 sono disponibili presso il sito del WG 3:
- ISO/IEC 8859-1:1998 - 8-bit single-byte coded graphic character sets, Part 1: Latin alphabet No. 1 (bozza del 12 febbraio 1998, pubblicata il 15 aprile 1998)
- ISO/IEC 8859-4:1998 - 8-bit single-byte coded graphic character sets, Part 4: Latin alphabet No. 4 (bozza del 12 febbraio 1998, pubblicata il 1º luglio 1998)
- ISO/IEC 8859-7:1999 - 8-bit single-byte coded graphic character sets, Part 7: Latin/Greek alphabet (bozza del 10 giugno 1999; sostituita dall'ISO/IEC 8859-7:2003, pubblicata il 10 ottobre 2003)
- ISO/IEC 8859-10:1998 - 8-bit single-byte coded graphic character sets, Part 10: Latin alphabet No. 6 (bozza del 12 febbraio 1998, pubblicata il 15 luglio 1998)
- ISO/IEC 8859-11:1999 - 8-bit single-byte coded graphic character sets, Part 11: Latin/Thai character set (bozza del 22 giugno 1999; sostituita dall'ISO/IEC 8859-11:2001, pubblicata il 15 dicembre 2001)
- ISO/IEC 8859-13:1998 - 8-bit single-byte coded graphic character sets, Part 13: Latin alphabet No. 7 (bozza del 15 aprile 1998, pubblicata il 15 ottobre 1998)
- ISO/IEC 8859-15:1998 - 8-bit single-byte coded graphic character sets, Part 15: Latin alphabet No. 9 (bozza del 1º agosto 1997; sostituita dall'ISO/IEC 8859-15:1999, pubblicata il 15 marzo 1999)
- ISO/IEC 8859-16:2000 - 8-bit single-byte coded graphic character sets, Part 16: Latin alphabet No. 10 (bozza del 15 novembre 1999; sostituita dall'ISO/IEC 8859-16:2001, pubblicata il 15 luglio 2001)
- Gli standard ECMA, che nelle intenzioni corrispondono esattamente agli ISO/IEC 8859, possono essere reperiti presso:
- Standard ECMA-94: 8-Bit Single Byte Coded Graphic Character Sets - Latin Alphabets No. 1 to No. 4 seconda edizione (giugno 1986)
- Standard ECMA-113: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Cyrillic Alphabet terza edizione (dicembre 1999)
- Standard ECMA-114: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Arabic Alphabet seconda edizione (dicembre 2000)
- Standard ECMA-118: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Greek Alphabet (dicembre 1986)
- Standard ECMA-121: 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Hebrew Alphabet seconda edizione (dicembre 2000)
- Standard ECMA-128: 8-Bit Single-Byte Coded Graphic Character Sets - Latin Alphabet No. 5 seconda edizione (dicembre 1999)
- Standard ECMA-144: 8-Bit Single-Byte Coded Character Sets - Latin Alphabet No. 6 terza edizione (dicembre 2000)
- Tabelle di conversione da ISO/IEC 8859-1 a Unicode
V · D · M | |
---|---|
Liste: Lista di standard ISO · Lista di latinizzazioni ISO · Lista di standard IEC Categorie: Standard ISO · Protocolli OSI | |
1-9999 | 1 · 2 · 3 · 4 · 5 · 9 · 16 · 31 · 128 · 140 (-5 · -7) · 216 · 217 · 226 · 228 · 233 · 259 · 269 · 302 · 306 · 428 · 639 (-1, -2, -3, -5, -6) · 646 · 690 · 717 · 732 · 746 · 843 · 1000 · 1007 · 1073-1 · 1413 · 1745 · 2014 · 2015 · 2022 · 2108 · 2145 · 2281 · 2709 · 2711 · 2788 · 3029 · 3103 · 3166 (-1, -2, -3) · 3297 · 3307 · 3534 (-1, -2) · 3602 · 3864 · 3901 · 3977 · 4031 · 4157 · 4217 · 5218 · 5775 · 5776 · 5964 · 6166 · 6344 · 6346 · 6425 · 6429 · 6438 · 6523 · 6709 · 7001 · 7002 · 7010 · 7098 · 7185 · 7498 · 7736 · 7810 · 7811 · 7812 · 7813 · 7816 · 8000 · 8217 · 8571 · 8583 · 8601 · 8632 · 8652 · 8807 · 8820-5 · 8859 (-1, -2, -3, -4, -5, -6, -7, -8, -9, -10, -11, -12, -13, -14, -15, -16) · 9000 · 9075 · 9126 · 9241 · 9362 · 9407 · 9506 · 9529 · 9594 · 9660 · 9897 · 9899 (:1999) · 9945 · 9984 · 9985 · 9995 |
10000-19999 | 10005 · 10006 · 10007 · 10012 · 10118-3 · 10160 · 10161 · 10165 · 10179 · 10206 · 10303 (-11, -21, -22, -238, -28) · 10383 · 10487 · 10585 · 10589 · 10646 · 10664 · 10668 · 10746 · 10861 · 10957 · 10962 · 10967 · 11073 · 11170 · 11179 · 11404 · 11544 · 11783 · 11784 · 11785 · 11801 · 11898 · 11940 · 11941 · 11941 · 11992 · 12006 · 12052 · 12182:1998 · 12207 · 12234-2 · 13239 · 12354-3 · 13211-1 · 13216 · 13250 · 13346 · 13399 · 13406-2 · 13407 · 13450 · 13485 · 13490 · 13567 · 13568 · 13584 · 13616 · 14000 · 14001 · 14031 · 14396 · 14443 · 14496 (-10, -14) · 14644 · 14649 · 14651 · 14698 · 14698-2 · 14750 · 14882 · 14908 · 14971 · 15022 · 15189 · 15288 · 15291 · 15292 · 15408 · 15444 · 15445 · 15438 · 15504 · 15511 · 15686 · 15693 · 15706 (-2) · 15707 · 15836 · 15897 · 15919 · 15924 · 15926 · 15926 WIP · 15930 · 15948 · 16023 · 16262 · 16684 · 16750 · 16949 · 17024 · 17025 · 17369 · 17799 · 18000 · 18004 · 18014 · 18092 · 18181 · 18245 · 18629 · 18916 · 19005 · 19011 · 19092 (-1, -2) · 19101 · 19105 · 19106 · 19107 · 19108 · 19109 · 19111 · 19112 · 19113 · 19114 · 19115 · 19116 · 19117 · 19118 · 19119 · 19123 · 19125 (-1, -2) · 19128 · 19131 · 19133 · 19135 · 19137 · 19439 · 19501:2005 · 19752 · 19757 · 19770 · 19775-1 |
20000+ | 20000 · 20022 · 20700 · 20922 · 21000 · 21047 · 21500 · 21827:2002 · 22000 · 22301 · 23008 (-2, -12) · 23270 · 23271 · 23360 · 23950 · 24014 · 24613 · 25178 · 26000 · 26300 · 26324 · 27000 series · 27000 · 27001 (:2013) · 27002 · 27003 · 27004 · 27005 · 27006 · 27007 · 27032 · 27729 · 27799 · 29500 · 31000 · 32000 · 37001 · 38500 · 39001 · 42010 · 44001 · 45001 · 50001 · 80000 |
Vedi anche: voci che iniziano per "ISO" |
V · D · M | |
---|---|
IEC standard | IEC 60027 · IEC 60034 · IEC 60038 · IEC 60062 · IEC 60063 · IEC 60068 · IEC 60112 · IEC 60228 · IEC 60269 · IEC 60297 · IEC 60309 · IEC 60320 · IEC 60364 · IEC 60446 · IEC 60559 · IEC 60601 · IEC 60870 (IEC 60870-5 · IEC 60870-6) · IEC 60906-1 · IEC 60908 · IEC 60929 · IEC 60958 (AES3 · S/PDIF) · IEC 61030 · IEC 61131 (IEC 61131-3 · IEC 61131-9) · IEC 61158 · IEC 61162 · IEC 61334 · IEC 61346 · IEC 61355 · IEC 61360 · IEC 61400 · IEC 61499 · IEC 61508 · IEC 61511 · IEC 61784 · IEC 61850 · IEC 61851 · IEC 61883 · IEC 61960 · IEC 61968 · IEC 61970 · IEC 62014-4 · IEC 62026 · IEC 62056 · IEC 62061 · IEC 62196 · IEC 62262 · IEC 62264 · IEC 62304 · IEC 62325 · IEC 62351 · IEC 62365 · IEC 62366 · IEC 62379 · IEC 62386 · IEC 62455 · IEC 62680 · IEC 62682 · IEC 62700 · IEC 63110 · IEC 63119 |
ISO/IEC standard | ISO/IEC 646 · ISO/IEC 2022 · ISO/IEC 4909 · ISO/IEC 5218 · ISO/IEC 6429 · ISO/IEC 6523 · ISO/IEC 7810 · ISO/IEC 7811 · ISO/IEC 7812 · ISO/IEC 7813 · ISO/IEC 7816 · ISO/IEC 7942 · ISO/IEC 8613 · ISO/IEC 8632 · ISO/IEC 8652 · ISO/IEC 8859 · ISO/IEC 9126 · ISO/IEC 9293 · ISO/IEC 9592 · ISO/IEC 9593 · ISO/IEC 9899 · ISO/IEC 9945 · ISO/IEC 9995 · ISO/IEC 10021 · ISO/IEC 10116 · ISO/IEC 10165 · ISO/IEC 10179 · ISO/IEC 10646 · ISO/IEC 10967 · ISO/IEC 11172 · ISO/IEC 11179 · ISO/IEC 11404 · ISO/IEC 11544 · ISO/IEC 11801 · ISO/IEC 12207 · ISO/IEC 13250 · ISO/IEC 13346 · ISO/IEC 13522-5 · ISO/IEC 13568 · ISO/IEC 13818 · ISO/IEC 14443 · ISO/IEC 14496 · ISO/IEC 14882 · ISO/IEC 15288 · ISO/IEC 15291 · ISO/IEC 15408 · ISO/IEC 15444 · ISO/IEC 15445 · ISO/IEC 15504 · ISO/IEC 15511 · ISO/IEC 15693 · ISO/IEC 15897 · ISO/IEC 15938 · ISO/IEC 16262 · ISO/IEC 17024 · ISO/IEC 17025 · ISO/IEC 18000 · ISO/IEC 18004 · ISO/IEC 18014 · ISO/IEC 19752 · ISO/IEC 19757 · ISO/IEC 19770 · ISO/IEC 19788 · ISO/IEC 20000 · ISO/IEC 21000 · ISO/IEC 21827 · ISO/IEC 23000 · ISO/IEC 23003 · ISO/IEC 23008 · ISO/IEC 23270 · ISO/IEC 23360 · ISO/IEC 24707 · ISO/IEC 24727 · ISO/IEC 24744 · ISO/IEC 24752 · ISO/IEC 26300 · ISO/IEC 27000 · ISO/IEC 27001 · ISO/IEC 27002 · ISO/IEC 27040 · ISO/IEC 27032 · ISO/IEC 29119 · ISO/IEC 33001 · ISO/IEC 38500 · ISO/IEC 42010 · ISO/IEC80000 |