Codurile de caractere din tabelul de coduri ASCII sunt cunoscute. Codificare ASCII (cod standard american pentru schimbul de informații) - codificare de bază a textului pentru alfabetul latin

Suprapunere de caractere

Caracterul BS (backspace) permite imprimantei să imprime un caracter peste altul. ASCII prevedea adăugarea de diacritice la litere în acest fel, de exemplu:

  • a BS "→ á
  • a BS ` → à
  • a BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → с

Notă: în fonturi vechi, apostroful „ a fost desenat înclinat spre stânga, iar tildele ~ a fost deplasată în sus, astfel încât să se potrivească doar cu rolul unui acut și al unei tilde deasupra.

Dacă același simbol este suprapus peste un simbol, efectul este îndrăzneţ, iar dacă un caracter de subliniere este suprapus, atunci se obține text subliniat.

  • a BS a → A
  • aBS_→ A

Notă: Acesta este folosit, de exemplu, în sistemul de ajutor pentru om.

Variante naționale ASCII

Standardul ISO 646 (ECMA-6) prevede posibilitatea de a plasa simboluri naționale @ [ \ ] ^ ` { | } ~ . Pe lângă asta, la fața locului # poate fi postat £ , și pe loc $ - ¤ . Acest sistem este potrivit pentru limbile europene unde sunt necesare doar câteva caractere suplimentare. Versiunea ASCII fără caractere naționale se numește US-ASCII sau „Versiune de referință internațională”.

Ulterior, s-a dovedit a fi mai convenabil să folosești codificări pe 8 biți (pagini de cod), în care jumătatea inferioară a tabelului de coduri (0-127) este ocupată de caractere US-ASCII, iar jumătatea superioară (128-255) prin caractere suplimentare, inclusiv un set de caractere naționale. Astfel, jumătatea superioară a tabelului ASCII, înainte de adoptarea pe scară largă a Unicode, a fost folosită în mod activ pentru a reprezenta caractere localizate, litere ale limbii locale. Lipsa unui standard unificat pentru plasarea caracterelor chirilice în tabelul ASCII a cauzat multe probleme cu codificările (KOI-8, Windows-1251 și altele). Alte limbi cu scripturi non-latine au suferit, de asemenea, de a avea mai multe codificări diferite.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOM EOA EOM EQT W.R.U. RU CLOPOT BKSP HT LF VT FF CR ASA DE SI.
1. DC 0 DC 1 DC 2 DC 3 DC 4 ERR SINCRONIZARE L.E.M. S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. GOL ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A B C D E F G H eu J K L M N O
B. P Q R S T U V W X Y Z [ \ ]
C.
D.
E. A b c d e f g h i j k l m n o
F. p q r s t u v w X y z ESC DEL

Pe acele computere în care unitatea minimă de memorie adresabilă a fost un cuvânt de 36 de biți, au fost utilizate inițial caractere de 6 biți (1 cuvânt = 6 caractere). După trecerea la ASCII, astfel de computere au început să conțină fie 5 caractere de șapte biți (1 bit a rămas în plus), fie 4 caractere de nouă biți într-un cuvânt.

Codurile ASCII sunt, de asemenea, folosite pentru a determina ce tastă este apăsată în timpul programării. Pentru o tastatură QWERTY standard, tabelul de coduri arată astfel:

Dec Hex Simbol Dec Hex Simbol
000 00 specialist. NOP 128 80 Ђ
001 01 specialist. DECI H 129 81 Ѓ
002 02 specialist. STX 130 82
003 03 specialist. ETX 131 83 ѓ
004 04 specialist. EOT 132 84
005 05 specialist. ENQ 133 85
006 06 specialist. ACK 134 86
007 07 specialist. BEL 135 87
008 08 specialist. B.S. 136 88
009 09 specialist. TAB 137 89
010 0Aspecialist. LF 138 8AЉ
011 0Bspecialist. VT 139 8B‹ ‹
012 0Cspecialist. FF 140 8CЊ
013 0Dspecialist. CR 141 8 DЌ
014 0Especialist. ASA DE 142 8EЋ
015 0Fspecialist. SI. 143 8FЏ
016 10 specialist. DLE 144 90 ђ
017 11 specialist. DC1 145 91
018 12 specialist. DC2 146 92
019 13 specialist. DC3 147 93
020 14 specialist. DC4 148 94
021 15 specialist. N.A.K. 149 95
022 16 specialist. SYN 150 96
023 17 specialist. ETB 151 97
024 18 specialist. POATE SA 152 98
025 19 specialist. E.M. 153 99
026 1Aspecialist. SUB 154 9Aљ
027 1Bspecialist. ESC 155 9B
028 1Cspecialist. FS 156 9Cњ
029 1Dspecialist. G.S. 157 9Dќ
030 1Especialist. R.S. 158 9Eћ
031 1Fspecialist. NE 159 9Fџ
032 20 ambreiaj SP (Spațiu) 160 A0
033 21 ! 161 A1 Ў
034 22 " 162 A2ў
035 23 # 163 A3Ћ
036 24 $ 164 A4¤
037 25 % 165 A5Ґ
038 26 & 166 A6¦
039 27 " 167 A7§
040 28 ( 168 A8Eu
041 29 ) 169 A9©
042 2A* 170 A.A.Є
043 2B+ 171 AB«
044 2C, 172 A.C.¬
045 2D- 173 ANUNȚ­
046 2E. 174 A.E.®
047 2F/ 175 A.F.Ї
048 30 0 176 B0°
049 31 1 177 B1±
050 32 2 178 B2І
051 33 3 179 B3і
052 34 4 180 B4ґ
053 35 5 181 B5µ
054 36 6 182 B6
055 37 7 183 B7·
056 38 8 184 B8e
057 39 9 185 B9
058 3A: 186 B.A.є
059 3B; 187 BB»
060 3C< 188 B.C.ј
061 3D= 189 BDЅ
062 3E> 190 FIѕ
063 3F? 191 B.F.ї
064 40 @ 192 C0 A
065 41 A 193 C1 B
066 42 B 194 C2 ÎN
067 43 C 195 C3 G
068 44 D 196 C4 D
069 45 E 197 C5 E
070 46 F 198 C6 ȘI
071 47 G 199 C7 Z
072 48 H 200 C8 ȘI
073 49 eu 201 C9 Y
074 4AJ 202 C.A. LA
075 4BK 203 C.B. L
076 4CL 204 CC M
077 4DM 205 CD N
078 4EN 206 C.E. DESPRE
079 4FO 207 CF P
080 50 P 208 D0 R
081 51 Q 209 D1 CU
082 52 R 210 D2 T
083 53 S 211 D3 U
084 54 T 212 D4 F
085 55 U 213 D5 X
086 56 V 214 D6 C
087 57 W 215 D7 H
088 58 X 216 D8 SH
089 59 Y 217 D9 SCH
090 5AZ 218 D.A. Kommersant
091 5B[ 219 D.B. Y
092 5C\ 220 DC b
093 5D] 221 DD E
094 5E^ 222 DE YU
095 5F_ 223 DF eu
096 60 ` 224 E0 A
097 61 A 225 E1 b
098 62 b 226 E2 V
099 63 c 227 E3 G
100 64 d 228 E4 d
101 65 e 229 E5 e
102 66 f 230 E6 și
103 67 g 231 E7 h
104 68 h 232 E8 Și
105 69 i 233 E9 th
106 6Aj 234 E.A. La
107 6Bk 235 E.B. l
108 6Cl 236 E.C. m
109 6Dm 237 ED n
110 6En 238 E.E. O
111 6Fo 239 E.F. P
112 70 p 240 F0 R
113 71 q 241 F1 Cu
114 72 r 242 F2 T
115 73 s 243 F3 la
116 74 t 244 F4 f
117 75 u 245 F5 X
118 76 v 246 F6 ts
119 77 w 247 F7 h
120 78 X 248 F8 w
121 79 y 249 F9 sch
122 7Az 250 FA. ъ
123 7B{ 251 FB s
124 7C| 252 F.C. b
125 7D} 253 FD uh
126 7E~ 254 F.E. Yu
127 7FSpecialist. DEL 255 FF eu

Tabel de coduri de caractere ASCII Windows.
Descrierea caracterelor speciale (de control).

Trebuie remarcat faptul că caracterele de control ale tabelului ASCII au fost utilizate inițial pentru a asigura schimbul de date prin telemașină, introducerea datelor de pe bandă perforată și pentru controlul simplu al dispozitivelor externe.
În prezent, majoritatea managerilor caractere ASCII mesele nu mai suportă această sarcină și pot fi folosite în alte scopuri.
Cod Descriere
NUL, 00Nul, gol
SOH, 01Începutul titlului
STX, 02Începutul textului, începutul textului.
ETX, 03Sfârșitul textului, sfârșitul textului
EOT, 04Sfârșitul transmisiei
ENQ, 05Întreba. Vă rugăm să confirmați
ACK, 06Confirmare. confirm
BEL, 07Bell, sună
BS, 08Backspace, întoarceți un caracter înapoi
TAB, 09Filă, filă orizontală
LF, 0ALine Feed, line feed.
În prezent, în majoritatea limbajelor de programare este notat ca \n
VT, 0BFilă verticală, tabulare verticală.
FF, 0CFeed de formulare, feed de pagini, pagină nouă
CR, 0DÎntoarcere cu cărucior, întoarcere cu cărucior.
În prezent, în majoritatea limbajelor de programare este notat cu \r
deci,0EShift Out, schimbați culoarea benzii de cerneală din dispozitivul de imprimare
SI,0FSchimbați, întoarceți înapoi culoarea benzii de cerneală din dispozitivul de imprimare
DLE, 10Data Link Escape, comutarea canalului la transmisia de date
DC1, 11
DC2, 12
DC3, 13
DC4, 14
Controlul dispozitivului, simboluri de control al dispozitivului
NAK, 15Confirmare negativă, nu confirm.
SYN, 16Sincronizare. Simbol de sincronizare
ETB, 17Sfârșitul blocului de text, sfârșitul blocului de text
CAN, 18Anulare, anulare a unei transmise anterior
EM, 19Sfârșitul Mediului
SUB, 1AÎnlocuitor, înlocuitor. Plasat în locul unui simbol al cărui sens a fost pierdut sau corupt în timpul transmiterii
ESC, 1BSecvență de control de evacuare
FS, 1CSeparator de fișiere, separator de fișiere
GS, 1DSeparator de grup
RS, 1ESeparator de înregistrări, separator de înregistrări
SUA, 1FSeparator de unități
DEL, 7FȘtergeți, ștergeți ultimul caracter.

După cum știți, un computer stochează informații binar, reprezentându-l ca o succesiune de unu și zerouri. Pentru a traduce informații într-o formă convenabilă pentru percepția umană, fiecare secvență unică de numere este înlocuită cu simbolul său corespunzător atunci când este afișată.

Unul dintre sistemele de corelare a codurilor binare cu caracterele tipărite și de control este

La nivelul de dezvoltare actual tehnologia calculatoarelor utilizatorului nu i se cere să cunoască codul fiecărui personaj specific. in orice caz înțelegere generală modul în care se realizează codarea este extrem de util, iar pentru unele categorii de specialiști chiar necesar.

Crearea ASCII

Codificarea a fost dezvoltată inițial în 1963 și apoi actualizată de două ori pe parcursul a 25 de ani.

În versiunea originală, tabelul de caractere ASCII includea 128 de caractere mai târziu a apărut o versiune extinsă, în care au fost salvate primele 128 de caractere, iar caracterele lipsă anterior au fost atribuite codurilor cu al optulea bit implicat.

Pentru multi ani această codificare a fost cel mai popular din lume. În 2006, Latin 1252 a ocupat poziția de lider, iar de la sfârșitul lui 2007 până în prezent, Unicode a deținut ferm poziția de lider.

Reprezentarea computerizată a ASCII

Fiecare caracter ASCII are propriul cod, format din 8 caractere reprezentând un zero sau unul. Numărul minim din această reprezentare este zero (opt zerouri în sistem binar), care este codul primului element din tabel.

Două coduri din tabel au fost rezervate pentru comutarea între standardul US-ASCII și varianta sa națională.

După ce ASCII a început să includă nu 128, ci 256 de caractere, s-a răspândit o variantă de codificare, în care versiunea originala tabelul a fost stocat în primele 128 de coduri cu al 8-lea bit zero. Caracterele scrise naționale au fost stocate în jumătatea superioară a tabelului (pozițiile 128-255).

Utilizatorul nu trebuie să cunoască codurile de caractere ASCII direct. Pentru dezvoltator software De obicei, este suficient să cunoașteți numărul elementului din tabel pentru a calcula, dacă este necesar, codul acestuia folosind sistemul binar.

Limba rusă

După ce a dezvoltat codificări pentru limbile scandinave, chineză, coreeană, greacă etc., la începutul anilor '70, a început să creeze propria sa versiune. Uniunea Sovietică. Curând, a fost dezvoltată o versiune a unei codificări pe 8 biți numită KOI8, păstrând primele 128 de coduri de caractere ASCII și alocând același număr de poziții pentru literele alfabetului național și caractere suplimentare.

Înainte de introducerea Unicode, KOI8 domina segmentul rus al internetului. Au existat opțiuni de codare atât pentru alfabetul rus, cât și pentru cel ucrainean.

Probleme ASCII

Deoarece numărul de elemente chiar și în tabelul extins nu a depășit 256, nu a existat nicio posibilitate de a găzdui mai multe scripturi diferite într-o singură codificare. În anii 90, problema „crocozyabr” a apărut pe Runet, când textele tastate cu caractere ASCII rusești erau afișate incorect.

Problema a fost că diferitele coduri ASCII nu se potriveau între ele. Să ne amintim că în pozițiile 128-255 ar putea exista diverse semne, iar la schimbarea unei codificări chirilice cu alta, toate literele textului au fost înlocuite cu altele având un număr identic într-o versiune diferită a codificării.

Starea curenta

Odată cu apariția Unicode, popularitatea ASCII a început să scadă brusc.

Motivul pentru aceasta constă în faptul că noua codificare a făcut posibilă găzduirea caracterelor din aproape toate limbile scrise. În acest caz, primele 128 de caractere ASCII corespund acelorași caractere în Unicode.

În 2000, ASCII era cea mai populară codare de pe Internet și era folosită pe 60% din paginile web indexate de Google. Până în 2012, ponderea acestor pagini a scăzut la 17%, iar Unicode (UTF-8) a luat locul celei mai populare codări.

Deci ASCII este parte importantă povestiri tehnologia Informatiei, cu toate acestea, utilizarea sa în viitor pare nepromițătoare.

[Codări pe 8 biți: ASCII, KOI-8R și CP1251] Primele tabele de codificare create în Statele Unite nu au folosit al optulea bit dintr-un octet. Textul a fost reprezentat ca o secvență de octeți, dar al optulea bit nu a fost luat în considerare (a fost folosit în scopuri oficiale).

Tabelul a devenit un standard general acceptat ASCII(Codul American Standard pentru Schimbul de Informații). Primele 32 de caractere ale tabelului ASCII (de la 00 la 1F) au fost folosite pentru caracterele care nu se imprimă. Au fost concepute pentru a controla un dispozitiv de imprimare etc. Restul - de la 20 la 7F - sunt caractere obișnuite (printabile).

Tabelul 1 - Codificare ASCII

DecHexoctCharDescriere
0 0 000 nul
1 1 001 începutul direcției
2 2 002 începutul textului
3 3 003 sfârşitul textului
4 4 004 sfârşitul transmisiei
5 5 005 Anchetă
6 6 006 recunoaște
7 7 007 clopot
8 8 010 backspace
9 9 011 filă orizontală
10 A 012 linie nouă
11 B 013 filă verticală
12 C 014 pagina noua
13 D 015 retur transport
14 E 016 schimbă afară
15 F 017 schimbă în
16 10 020 evadare legaturii de date
17 11 021 controlul dispozitivului 1
18 12 022 controlul dispozitivului 2
19 13 023 controlul dispozitivului 3
20 14 024 controlul dispozitivului 4
21 15 025 recunoaștere negativă
22 16 026 inactiv sincron
23 17 027 sfârşitul trans. bloc
24 18 030 Anulare
25 19 031 sfârşitul mediei
26 1A 032 substitui
27 1B 033 evadare
28 1C 034 separator de fișiere
29 1D 035 separator de grup
30 1E 036 separator de înregistrări
31 1F 037 separator de unitate
32 20 040 spaţiu
33 21 041 !
34 22 042 "
35 23 043 #
36 24 044 $
37 25 045 %
38 26 046 &
39 27 047 "
40 28 050 (
41 29 051 )
42 2A 052 *
43 2B 053 +
44 2C 054 ,
45 2D 055 -
46 2E 056 .
47 2F 057 /
48 30 060 0
49 31 061 1
50 32 062 2
51 33 063 3
52 34 064 4
53 35 065 5
54 36 066 6
55 37 067 7
56 38 070 8
57 39 071 9
58 3A 072 :
59 3B 073 ;
60 3C 074 <
61 3D 075 =
62 3E 076 >
63 3F 077 ?
DecHexoctChar
64 40 100 @
65 41 101 A
66 42 102 B
67 43 103 C
68 44 104 D
69 45 105 E
70 46 106 F
71 47 107 G
72 48 110 H
73 49 111 eu
74 4A 112 J
75 4B 113 K
76 4C 114 L
77 4D 115 M
78 4E 116 N
79 4F 117 O
80 50 120 P
81 51 121 Q
82 52 122 R
83 53 123 S
84 54 124 T
85 55 125 U
86 56 126 V
87 57 127 W
88 58 130 X
89 59 131 Y
90 5A 132 Z
91 5B 133 [
92 5C 134 \
93 5D 135 ]
94 5E 136 ^
95 5F 137 _
96 60 140 `
97 61 141 A
98 62 142 b
99 63 143 c
100 64 144 d
101 65 145 e
102 66 146 f
103 67 147 g
104 68 150 h
105 69 151 i
106 6A 152 j
107 6B 153 k
108 6C 154 l
109 6D 155 m
110 6E 156 n
111 6F 157 o
112 70 160 p
113 71 161 q
114 72 162 r
115 73 163 s
116 74 164 t
117 75 165 u
118 76 166 v
119 77 167 w
120 78 170 X
121 79 171 y
122 7A 172 z
123 7B 173 {
124 7C 174 |
125 7D 175 }
126 7E 176 ~
127 7F 177 DEL

După cum este ușor de văzut, doar în această codificare scrisori, și cele care sunt folosite în engleză. Există, de asemenea, simboluri aritmetice și alte simboluri de serviciu. Dar nu există nici litere rusești, nici măcar latine speciale pentru germană sau franceză. Acest lucru este ușor de explicat - codificarea a fost dezvoltată special ca standard american. Pe măsură ce computerele au început să fie folosite în întreaga lume, alte caractere au trebuit să fie codificate.

Pentru a face acest lucru, s-a decis să se folosească al optulea bit din fiecare octet. Acest lucru a făcut să fie disponibile încă 128 de valori (de la 80 la FF) care ar putea fi folosite pentru a codifica caractere. Primul dintre tabelele de opt biți este „ASCII extins” ( ASCII extins) - a inclus diverse variante de caractere latine utilizate în unele limbi ale Europei de Vest. Conținea și alte simboluri suplimentare, inclusiv pseudografice.

Caracterele pseudografice permit, doar prin afișare caractere text, oferă o imagine de grafică. Folosind pseudografice, de exemplu, un program de control funcționează Fișiere FAR Administrator.

Nu existau litere rusești în tabelul ASCII extins. Rusia (fosta URSS) și alte țări și-au creat propriile codificări care au făcut posibilă reprezentarea unor caractere „naționale” specifice în fișiere text pe 8 biți - litere latine ale limbilor poloneză și cehă, chirilice (inclusiv litere rusești) și alte alfabete.

În toate codificările care au devenit răspândite, primele 127 de caractere (adică valoarea octetului cu al optulea bit egal cu 0) sunt aceleași cu ASCII. Deci, un fișier ASCII funcționează în oricare dintre aceste codificări; scrisori în limba engleză sunt prezentate în mod egal.

Organizare ISO(International Standardization Organization) a adoptat un grup de standarde ISO 8859. Definește codificări pe 8 biți pentru grupuri diferite limbi. Deci, ISO 8859-1 este un tabel ASCII extins pentru SUA și Europa de Vest. Și ISO 8859-5 este un tabel pentru alfabetul chirilic (inclusiv rus).

Cu toate acestea, din motive istorice, codarea ISO 8859-5 nu a prins rădăcini. În realitate, pentru limba rusă sunt folosite următoarele codificări:

Pagina de cod 866 ( CP866), alias „DOS”, alias „codare GOST alternativă”. Folosit pe scară largă până la mijlocul anilor 90; folosit acum într-o măsură limitată. Practic nu este folosit pentru distribuirea de texte pe Internet.
- KOI-8. Dezvoltat în anii 70-80. Este un standard general acceptat pentru transmiterea mesajelor e-mail în Internetul rusesc. De asemenea, utilizat pe scară largă în sisteme de operare Familia Unix, inclusiv Linux. Se numește versiunea KOI-8, concepută pentru rusă KOI-8R; Există versiuni pentru alte limbi chirilice (de exemplu, KOI8-U este o versiune pentru limba ucraineană).
- Pagina de cod 1251, CP1251,Windows-1251. Dezvoltat de Microsoft pentru a sprijini limba rusă în Windows.

Principalul avantaj al CP866 a fost păstrarea caracterelor pseudo-grafice în aceleași locuri ca în ASCII extins; prin urmare, cei străini puteau lucra fără schimbări programe text, de exemplu, celebrul Norton Commander. CP866 este acum utilizat pentru programele Windows care rulează în ferestre text sau în modul text pe ecran complet, inclusiv FAR Manager.

Texte în CP866 anul trecut sunt destul de rare (dar este folosit pentru a codifica numele fișierelor rusești în Windows). Prin urmare, ne vom opri mai detaliat asupra altor două codificări - KOI-8R și CP1251.



După cum puteți vedea, în tabelul de codificare CP1251, literele rusești sunt aranjate în ordine alfabetică (cu excepția, însă, a literei E). Datorită acestei locații programe de calculator Este foarte ușor de sortat alfabetic.

Dar în KOI-8R ordinea literelor rusești pare aleatorie. Dar de fapt nu este.

În multe programe mai vechi, al 8-lea bit a fost pierdut la procesarea sau transmiterea textului. (Acum, astfel de programe sunt practic „disparute”, dar la sfârșitul anilor 80 - începutul anilor 90 erau răspândite). Pentru a obține o valoare de 7 biți dintr-o valoare de 8 biți, doar scădeți 8 din cifra cea mai semnificativă; de exemplu, E1 devine 61.

Acum comparați KOI-8R cu tabelul ASCII (Tabelul 1). Veți descoperi că literele rusești sunt plasate în corespondență clară cu cele latine. Dacă al optulea bit dispare, literele rusești mici se transformă în litere latine mari, iar literele rusești mari se transformă în litere latine. Deci, E1 în KOI-8 este „A” rusesc, în timp ce 61 în ASCII este „a” latin.

Deci, KOI-8 vă permite să mențineți lizibilitatea textului rusesc atunci când al 8-lea bit este pierdut. „Salut tuturor” devine „pRIWET WSEM”.

ÎN În ultima vremeȘi ordinea alfabetului Dispunerea caracterelor în tabelul de codificare și lizibilitatea cu pierderea celui de-al 8-lea bit și-au pierdut importanța decisivă. Al optulea bit in calculatoare moderne nu se pierde în timpul transmiterii sau procesării. Și sortarea alfabetică se face ținând cont de codificare, și nu simpla comparatie coduri (Apropo, codurile CP1251 nu sunt complet aranjate alfabetic - litera E nu este la locul ei).

Datorită faptului că există două codificări comune, atunci când lucrați cu Internetul (e-mail, navigarea pe site-uri web), uneori puteți vedea un set de litere fără sens în loc de text rusesc. De exemplu, „EU SUNT SBYUFEMHEL”. Acestea sunt doar cuvintele „cu respect”; dar au fost codificate în codificare CP1251, iar computerul a decodat textul folosind tabelul KOI-8. Dacă aceleași cuvinte, dimpotrivă, ar fi codificate în KOI-8, iar computerul ar decoda textul conform tabelului CP1251, rezultatul ar fi „U HCHBTSEOYEN”.

Uneori se întâmplă ca un computer să descifreze literele în limba rusă folosind un tabel care nu este destinat limbii ruse. Apoi, în loc de litere rusești, apare un set de simboluri fără sens (de exemplu, litere latine ale limbilor est-europene); ele sunt adesea numite „crocozybras”.

În cele mai multe cazuri programe moderne face față cu determinarea codificărilor documentelor de pe Internet ( e-mailuriși pagini Web) în mod independent. Dar uneori „raușesc”, apoi puteți vedea secvențe ciudate de litere rusești sau „krokozyabry”. De regulă, într-o astfel de situație, pentru a afișa text real pe ecran, este suficient să selectați codarea manual în meniul programului.

Pentru acest articol au fost folosite informații de pe pagina http://open-office.edusite.ru/TextProcessor/p5aa1.html.

Material preluat de pe site:

Unicode (Unicode în engleză) este un standard de codificare a caracterelor. Mai simplu spus, acesta este un tabel de corespondență între caracterele textului ( , litere, elemente de punctuație) coduri binare. Calculatorul înțelege doar succesiunea de zerouri și unu. Pentru ca acesta să știe exact ce ar trebui să afișeze pe ecran, este necesar să atribuie fiecărui caracter propriul său număr unic. În anii optzeci, caracterele erau codificate într-un octet, adică opt biți (fiecare bit este un 0 sau 1). Astfel, s-a dovedit că un tabel (aka codificare sau set) poate găzdui doar 256 de caractere. Acest lucru poate să nu fie suficient chiar și pentru o singură limbă. Prin urmare, au apărut multe codificări diferite, confuzia cu care a dus adesea la apariția unor farfurii ciudate pe ecran în loc de text care poate fi citit. Necesar standard unic, ceea ce a devenit Unicode. Cea mai folosită codificare este UTF-8 (Unicode Transformation Format), care utilizează 1 până la 4 octeți pentru a reprezenta un caracter.

Simboluri

Caracterele din tabelele Unicode sunt numerotate numere hexazecimale. De exemplu, chirilic majusculă M este desemnat U+041C. Aceasta înseamnă că se află la intersecția rândului 041 și coloanei C. Puteți să-l copiați pur și simplu și apoi să-l lipiți undeva. Pentru a nu scotoci printr-o listă de mai mulți kilometri, ar trebui să folosiți căutarea. Când accesați pagina cu simboluri, veți vedea numărul său Unicode și cum este scris în diferite fonturi. Puteți introduce semnul în sine în bara de căutare, chiar dacă în schimb este desenat un pătrat, măcar pentru a afla ce a fost. De asemenea, pe acest site există seturi speciale (și aleatorii) de același tip de icoane, colectate din diferite secțiuni, pentru ușurință în utilizare.

Standardul Unicode este internațional. Include personaje din aproape toate scenariile lumii. Inclusiv cele care nu mai sunt folosite. Hieroglife egiptene, rune germanice, scriere mayașă, cuneiforme și alfabete ale statelor antice. Sunt prezentate, de asemenea, denumiri ale greutăților și măsurilor, notația muzicală și conceptele matematice.

Consorțiul Unicode în sine nu inventează caractere noi. Acele icoane care își găsesc utilizarea în societate sunt adăugate pe tabele. De exemplu, semnul rublei a fost folosit în mod activ timp de șase ani înainte de a fi adăugat la Unicode. Pictogramele Emoji (emoticons) au fost, de asemenea, utilizate pe scară largă în Japonia înainte de a fi incluse în codificare. Si aici mărci comerciale, iar siglele companiei nu sunt adăugate deloc. Chiar și cele atât de comune ca măr măr sau steag Windows. Până în prezent, aproximativ 120 de mii de caractere sunt codificate în versiunea 8.0.