Схема кодирования ASCII. Универсальная система кодирования (код ASCII)

Наложение символов

Благодаря символу BS (возврат на шаг) на принтере можно печатать один символ поверх другого. В ASCII было предусмотрено добавление таким образом диакритики к буквам, например:

  • a BS " → á
  • a BS ` → à
  • a BS ^ → â
  • o BS / → ø
  • c BS , → ç
  • n BS ~ → ñ

Примечание : в старых шрифтах апостроф " рисовался с наклоном влево, а тильда ~ была сдвинута вверх, так что они как раз подходили на роль акута и тильды сверху.

Если на символ накладывается тот же символ, то получается эффект жирного шрифта, а если на символ накладывается подчёркивание, то получается подчёркнутый текст.

  • a BS a → a
  • a BS _ → a

Примечание : это используется, например, в справочной системе man .

Национальные варианты ASCII

Стандарт ISO 646 (ECMA-6) предусматривает возможность размещения национальных символов на месте @ [ \ ] ^ ` { | } ~ . В дополнение к этому, на месте # может быть размещён £ , а на месте $ - ¤ . Такая система хорошо подходит для европейских языков, где нужны лишь несколько дополнительных символов. Вариант ASCII без национальных символов называется US-ASCII, или «International Reference Version».

Впоследствии оказалось удобнее использовать 8-битные кодировки (кодовые страницы), где нижнюю половину кодовой таблицы (0-127) занимают символы US-ASCII, а верхнюю (128-255) - дополнительные символы, включая набор национальных символов. Таким образом, верхняя половина таблицы ASCII до повсеместного внедрения Юникода активно использовалась для представления локализированных символов, букв местного языка. Отсутствие единого стандарта размещения кириллических символов в таблице ASCII доставляло множество проблем с кодировками (КОИ-8 , Windows-1251 и другие). Другие языки с нелатинской письменностью тоже страдали из-за наличия нескольких разных кодировок.

.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
0. NUL SOM EOA EOM EQT WRU RU BELL BKSP HT LF VT FF CR SO SI
1. DC 0 DC 1 DC 2 DC 3 DC 4 ERR SYNC LEM S 0 S 1 S 2 S 3 S 4 S 5 S 6 S 7
2.
3.
4. BLANK ! " # $ % & " ( ) * + , - . /
5. 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
6.
7.
8.
9.
A. @ A B C D E F G H I J K L M N O
B. P Q R S T U V W X Y Z [ \ ]
C.
D.
E. a b c d e f g h i j k l m n o
F. p q r s t u v w x y z ESC DEL

На тех компьютерах, где минимально адресуемой единицей памяти было 36-битное слово, поначалу использовали 6-битные символы (1 слово = 6 символов). После перехода на ASCII на таких компьютерах в одном слове стали размещать либо 5 семибитных символов (1 бит оставался лишним), либо 4 девятибитных символа.

ASCII-коды используются также для определения нажатой клавиши при программировании. Для стандартной QWERTY-клавиатуры таблица кодов выглядит следующим образом:

Множество символов, с помощью которых записывается текст, называется алфавитом .

Число символов в алфавите – это его мощность .

Формула определения количества информации: N = 2 b ,

где N – мощность алфавита (количество символов),

b – количество бит (информационный вес символа).

В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным.

Т.к. 256 = 2 8 , то вес 1 символа – 8 бит.

Единице измерения 8 бит присвоили название 1 байт:

1 байт = 8 бит.

Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Каким же образом текстовая информация представлена в памяти компьютера?

Удобство побайтового кодирования символов очевидно, поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов – это вполне достаточное количество для представления самой разнообразной символьной информации.

Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу.

Понятно, что это дело условное, можно придумать множество способов кодировки.

Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.

Для разных типов ЭВМ используются различные таблицы кодировки.

Международным стандартом для ПК стала таблица ASCII (читается аски) (Американский стандартный код для информационного обмена).

Таблица кодов ASCII делится на две части.

Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).

Структура таблицы кодировки ASCII

Порядковый номер

Код

Символ

0 - 31

00000000 - 00011111

Символы с номерами от 0 до 31 принято называть управляющими.
Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.

32 - 127

00100000 - 01111111

Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.
Символ 32 - пробел, т.е. пустая позиция в тексте.
Все остальные отражаются определенными знаками.

128 - 255

10000000 - 11111111

Альтернативная часть таблицы (русская).
Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.
Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.

Первая половина таблицы кодов ASCII


Обращаю ваше внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.

Для букв русского алфавита также соблюдается принцип последовательного кодирования.

Вторая половина таблицы кодов ASCII


К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась еще в 70-ые годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.

От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 ("CP" означает "Code Page", "кодовая страница").

Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.

Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.

Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251.

С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode . Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.

Попробуем с помощью таблицы ASCII представить, как будут выглядеть слова в памяти компьютера.

Внутреннее представление слов в памяти компьютера

Иногда бывает так, что текст, состоящий из букв русского алфавита, полученный с другого компьютера, невозможно прочитать - на экране монитора видна какая-то "абракадабра". Это происходит оттого, что на компьютерах применяется разная кодировка символов русского языка.

19.12.13 23756

Для того, чтобы грамотно использовать ASCII , необходимо расширить знания в данной сфере и о возможностях кодирования.

Что это такое?

ASCII представляет собой кодировочную таблицу печатных символов (см. скриншот №1), набираемых на компьютерной клавиатуре, для передачи информации и некоторых кодов. Иными словами происходит кодирование алфавита и десятичных цифр в соответствующие символы, представляющие и несущие в себе необходимую информацию.

Кодировка ASCII была разработана в Америке, поэтому стандартная кодировочная таблица обычно включает в себя английский алфавит с цифрами, что в общей сложности составляет около 128 символов. Но тогда возникает справедливый вопрос: что делать, если необходима кодировка национального алфавита?

Для решения подобных вопросов были разработаны другие версии таблицы ASCII . Например, для языков с иноязычной структурой были или убраны буквы английского алфавита, или к ним добавлялись дополнительные символы в виде национального алфавита. Так, в кодировке ASCII могут присутствовать русские буквы для национального использования (см. скриншот №2).

Где применяется система кодировки ASCII?

Данная кодировочная система необходима не только для набора текстовой информации на клавиатуре. Она также используется в графике. Например, в программе ASCII Art Maker графические изображения различных расширений состоят из спектра символов кодировки ASCII (см. скриншот №3).

Как правило, подобные программы можно разделить на те, что выполняют функцию графических редакторов, инвертируя изображение в текст, и на те, что конвертируют изображение в ASCII -графику. Всем известный смайлик (или как его еще называют «улыбающееся человеческое лицо ») тоже является примером кодировочного символа.

Данный метод кодировки также может быть востребован во время написания или создания документа HTML. Например, вы вводите определённый и необходимый вам набор знаков, а при просмотре самой страницы на экран будет выведен символ, соответствующий данному коду.

Кроме всего прочего данный вид кодировки необходим при создании многоязычного сайта, потому что знаки, которые не входят в ту или иную национальную таблицу, нужно будет заменить ASCII кодами. Если читатель непосредственно связан с информационно-коммуникативными технологиями (ИКТ), то ему будет полезно ознакомиться и с такими системами как:

  1. Переносимый набор символов;
  2. Управляющие символы;
  3. EBCDIC;
  4. VISCII;
  5. YUSCII;
  6. Юникод;
  7. ASCII art;
  8. КОИ-8.

Свойства таблицы ASCII

Как и любая систематизированная программа, ASCII обладает своими характерными свойствами. Так, например, десятеричная система исчисления (цифры от 0 до 9) преобразуется в двоичную систему исчисления (т.е. каждая десятеричная цифра преобразуется в двоичную 288=1001000 соответственно).

Буквы, располагающиеся в верхних и нижних колонках, отличаются друг от друга лишь битом, что существенно снижает уровень сложности проверки и редактирование регистра.

При всех этих свойствах кодировка ASCII работает как восьми битная, хотя изначально предусматривалась как семи битная.

Применение ASCII в программах Microsoft Office:

В случае необходимости данный вариант кодирования информации может быть использован в Microsoft Notepad и Microsoft Office Word. В рамках этих приложений документ может быть сохранен в формате ASCII , но в этом случае при наборе текста невозможно будет использование некоторых функций.

В частности, будет недоступно выделение жирным и полужирным шрифтом, потому что кодирование сохраняет лишь смысл набранной информации, а не общий вид и форму. Добавить такие коды в документ вы можете с помощью следующих программных приложений.

В системе кодирования ASCII (American Standard Code for Information Interchange - стандартный код информационного обмена США) каждый символ представлен одним байтом, что позволяет закодировать 256 символов.

В ASCII имеется две таблицы кодирования - базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255. Этого хватит, чтобы выразить различными комбинациями восьми битов все символы английского и русского языков, как строчные, так и прописные, а также знаки препинания, символы основных арифметических действий и обще­принятые специальные символы, которые можно наблюдать на клавиатуре.

Первые 32 кода базовой таблицы, начиная с нулевого, отданы производителям аппаратных средств (в первую очередь производителям компьютеров и печатаю­щих устройств). В этой области размещаются так называемые управляющие коды, которым не соответствуют никакие символы языков, и, соответственно, эти коды не выводятся ни на экран, ни на устройства печати, но ими можно управлять тем, как производится вывод прочих данных. Начиная с кода 32 по код 127, размещены символы английского алфавита, знаки препинания, цифры, арифметические действия и вспомогательные символы, все их можно видеть на латинской части клавиатуры компьютера.

Вторая, расширенная часть отдана национальным системам кодирования. В мире существует много нелатинских алфавитов (арабский, еврейский, греческий и пр.), в число которых входит и кириллица. Кроме того, немецкая, французская, испанская раскладки клавиатуры отличаются от английской.

В английской части клавиатуры раньше было много стандартов, а теперь все они заменены на единый код ASCII. Для русской клавиатуры тоже существовало много стандартов: ГОСТ, ГОСТ-альтернативная, ISO (International Standard Organization - Между­народный институт стандартизации), но эти три стандарта фактически уже вымерли, хотя и могут где-то встретиться, в каких-то допотопных компьютерах или в компьютерных сетях.

Основная кодировка символов русского языка, которая используется в компьютерах с операционной системой Windows называется Windows-1251 , она была разработана для алфавитов кириллицы компанией Microsoft. Естественно, что в Windows-1251 закодировано абсолютное большинство компьютерных текстовых данных. Кстати кодировки с другим четырехзначным номером разработаны Microsoft для других распространенных алфавитов: арабского, японского и прочих.

Другая распространенная кодировка носит название КОИ-8 (код обмена информа­цией, восьмизначный) - ее происхождение относится ко временам действия Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня кодировка КОИ-8 имеет распространение в компьютерных сетях на терри­тории России и в российском секторе Интернета. Бывает так, что какой-то текст письма или еще чего-то не читается, это значит, что надо перейти из КОИ-8 в Windows-1251. 10

В 90-х годах крупнейшие производители программного обеспечения: Microsoft, Borland, та же Adobe приняли решение о необходимости разработки другой системы кодировки текста, в которой каждому символу будет отводиться не 1, а 2 байта. Она получила название Unicode , и в ней можно закодировать 65 536 символов этого поля достаточно для размещения в одной таблице национальных алфавитов для всех языков планеты. Большую часть Unicode (около 70%) занимают китайские иероглифы, в Индии имеется 11 различных национальных алфавитов, есть множество экзотических названий, например: письменность канадских аборигенов.

Поскольку на кодирования каждого символа в Unicode отводится не 8, а 16 разрядов, объем текстового файла увеличивается в 2 раза. Когда-то это было препятствием для введения 16-разрядной системы. а сейчас при гигабайтных винчестерах, сотнях мегабайт оперативной памяти, гигагерцных процессорах удвоение объемов текстовых файлов, которые по сравнению, например, с графикой занимают очень немного места, большого значения не имеет.

Кириллица занимает в Unicode места с 768 по 923 (основные знаки) и с 924 по 1023 (расширенная кириллица, различные малораспространенные, национальные буквы). Если программа не адаптирована под кириллицу Unicode, то возможен вариант, когда символы текста распознаются не как кириллица, а как расширенная латиница (коды с 256 по 511). И в этом случае вместо текста на экране появляется бессмысленный набор различных экзотических символов.

Такое возможно, если программа устаревшая, созданная до 1995 года. Или малораспространенная, о русификации которой никто не позаботился. Еще возможен вариант, когда установленная на компьютере ОС Windows не полностью настроена под кириллицу. В этом случае надо сделать соответствующие записи в реестре.

С помощью двоичною кода можно кодировать текстовую информацию, если каждому символу алфавита сопоставить определенное целое чис- ло. Восьми двоичных разрядов достаточно для кодирования 256 различных символов. Этого хватает, чтобы выразить различными комбинациями восьми битов все символы английского и русского языков, как строчные, так и прописные, а также знаки препина- ния, символы основных арифметических действий и некоторые общепринятые специальные символы.

Для того чтобы весь мир одинаково кодировал текстовые дан- ные, нужны единые таблицы кодирования, а это пока невозможно из-за противоречий между символами национальных алфавитов.

Институт стандартизации США ввел в действие систему коди- рования ASCII, в которой закреплены две таблицы кодирования: базовая и расширенная. Базовая таблица закрепляет значения ко- дов от 0 до 127, а расширенная таблица относится к символам с номерами от 128 до 255.

Базовая таблица еистемы ASCII содержит 128 кодов. Первые 32 кода базовой таблицы, начиная с нулевого, отданы производите- лям аппаратных средств. В этой области размешаются управля- ющие коды, которым не соответствуют никакие символы языков. С 32-го по 127-й код размешены коды символов английского ал- фавита, знаков препинания, арифметических действий и некото- рых вспомогательных символов.

Кодировка символов русского языка, известная как кодировка Windows-1251, была введена компанией Microsoft. Учитывая ши- рокое распространение операционных систем и других продуктов этой компании в России, она глубоко закрепилась и нашла ши- рокое распространение. Кодировка символов русского языка за- креплена в расширенной таблице кодирования системы ASCII с 192-го по 255-й код.

Большинство систем распознают 256 кодов: 128 стандартных и 128 дополнительных из расширенного набора символов.

Поскольку одному байту соответствует один символ, для пред- ставления строки из четырех символов необходимо 4 байт. Вот как выглядит, например, группа символов АI2В, состоящая из букв и цифр, в кодировке ASCII:

А вот как выглядит двоичное представление шести символов слова «binary»:

0100001∩ 01001001 01001110 ОIОООО∩1 01010010 01011001

В компьютерном тексте, в отличие от текста, напечатанного на пишущей машинке, «пробел» - это значащий символ и, как любой другой символ, он имеет соответствующее двоичное представле- ние. При автоматизированной обработке информации отсутствие или наличие пробела играет важную роль, иногда приводя к пу- танице и сбивая с толку пользователей-новичков.

Буквам верхнего и нижнего регистров соответствуют разные коды ASCII. Например, прописной букве D соответствует код 68, а строчной d - 100.

Для кодирования букв русского алфавита чаше всего на прак- тике используется кодировка Windows-1251, однако существуют и другие системы кодировки. Распространенной является коди- ровка КОИ-8 (код обмена информацией восьмизначный). Ее про- исхождение относится к временам действия Совета экономиче- ской взаимопомоши государств Восточной Европы. Сегодня ко- дировка КОИ-8 широко распространена в компьютерных сетях на территории России.

Международный стандарт, в котором предусмотрена кодиров- ка символов русского языка, называется ISO (International Standard Organization - Международный институт стандартизации). На практике данная кодировка используется редко.

Следует всегда помнить, что компьютеры - это только маши- ны, они не понимают единиц и нулей, зато они способны интер- претировать электрическое напряжение, воспринимая его нали- чие как I, а отсутствие - как 0. Эта технология и позволяет ком- пьютерам обрабатывать информацию.

Кодирование графических данных. Напечатанное на бумаге чер- но-белое графическое изображение состоит из мельчайших то- чек - пикселов (picture element - элемент изображения), образу- ющих характерный узор, называемый растром.

Растровое кодирование позволяет использовать двоичный код для представления графических данных, поскольку линейные ко- ординаты и индивидуальные свойства каждой точки (яркость) можно выразить с помошью целых чисел. Общепринятым на се- годняшний день считается представление черно-белых иллюстра- ций в виде комбинации точек с 256 градациями серого цвета. Сле- довательно, для кодирования яркости любой точки обычно дос- таточно 8-paзpяднoгo двоичного числа.

Цветные изображения формируются и соответствии с двоич- ным кодом цвета каждой точки, хранящимся в видеопамяти. Цвет- ные изображения могут иметь различную глубину цвета, задавае- мую количеством бит для кодирования цвета точки. Так, для глу- Г>пны цвета 8 количество отображаемых цветов составляет 2 х = 256.

Кодирование цветной i рафики 16-paзpядными двоичными чис- л:iмii называется режимом High Color.

Режим представления цветной графики с использованием 24 двоичных разрядов называется полноцветным (True Color).

Для кодирования цветных графических изображений применя- сiея принцип декомпозиции произвольного цвета на основные составляющие. Считается, что любой цвет, видимый человече- ским глазом, можно получить путем механического смешивания mix трех основных цветов: красного (Red), зеленого (Green) и синего (Blue). Такая система кодирования получила название RGB (но первым буквам основных цветов).

RGB-модель представления цвета приведена в табл. 1.1.

Каждому из основных цветов можно поставить в соответствие lонолнительный цвет, т.е. цвет, дополняющий основной цвет io белого. Как следует из табл. I. I, для любого из основных цве- го| дополнительным будет цвет, образованный суммой пары ос- lалыiых основных цветов. Соответственно дополнительными цве- i^!іми являются голубой (Cyan), пурпурный (Magenta) и желтый (Yellow).

Принцип декомпозиции произвольного цвета на составляю- щие компоненты можно применять не только для основных цве- ти, но и для дополнительных, т.е. любой цвет можно предста- iшrь в виде суммы голубой, пурпурной и желтой составляющих.


Такой метод кодирования цвета принят в полиграфии, но в поли- графии используется еше и четвертый цвет - черный (Black). Поэтому данная система кодирования обозначается четырьмя бук- вами CMYK (черный цвет обозначается по последней букве в на- звании цвета - буквой К, потому что буква В уже обозначает синий цвет). Для представления цветной графики в этой системе надо иметь 32 двоичных разряда. Такой режим также называется полноцветным.

Если уменьшить количество двоичных разрядов, используемых для кодирования цвета каждой точки, то можно сократить объем данных, но при этом диапазон кодируемых цветов заметно сокра- щается.

Качество изображения определяется разрешающей способнос- тью монитора, т.е. количеством точек в строке и строк растра. Обычно в мониторах используют разрешающую способность эк- рана 800x600, I 024x768 или I 280x960. Рассчитаем необходимый объем видеопамяти для одного из графических режимов, напри- мер разрешением I 024x768 и качеством цветопередачи 32 бит на точку. Необходимый объем видеопамяти составит:

З2хl 024x768 = 25 165 824 бит = 3 145 728 байт = 3072 Кбайт = = 3 Мбайт.