кодирование текстовой информации

Preview:

Citation preview

Представление текстовой (символьной) информации

на компьютере

12 Июль, 2013

преподаватель информатики Загороднева Е.А. СТГХСТ

Нолик, нолик, единичка, единичка, нолик, единичка….

Так поразительно просто оцифровываются наши чувства и мысли. Кто мы друг другу?

Приятные собеседники или любимые? Мы – это потоки электронов, несущихся в вечность…

(из Инета)

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Более 60% информации, представленной в компьютере, является текстовой информацией.Компьютер – это электронное устройство, поэтому оно способно точно реагировать только на два состояния – 1 (сигнал есть) и 0 (сигнала нет). При кодировании в компьютере используется двоичный код.

Считаем мощность компьютерного алфавита

33 русских прописных буквы 33 русских строчных букв 26 английских строчных букв 26 прописных английских букв 10 цифр + знаки препинания Скобки и т.п. символы (@, #, $, %, &…) Знаки математических операций Специальные символы (пробел, Enter…)

82256

2

=

= iN

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Считаем информационный вес символа

82256

2

=

= iN

Для кодирования 1 символа используется 1 байт

информации

N = 2i

N = 256256 = 28

i = 8 бит = 1 байт

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

ВЫВОД

Для представления текстовой информации в компьютере

применяется принцип двоичного кодирования

(для 1 символа необходимо 8 бит)

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Что потребуется для процесса кодирования?

— • —

— — —

— • • ?

Кодирование использовалось задолго до появления компьютеров. Например, с открытием телеграфа изобрели азбуку Морзе.

Для расшифровки слова потребуется кодовая таблица

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Историческая справка

ВЫВОД

Для кодирования нужны

общепринятые

кодовые таблицы

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Двоичное кодирование

Мощность компьютерного алфавита 256 символов, если нумерацию начать с нуля, то все символы имеют

номера от 0 до 255.

В кодовой таблице каждому символу в соответствие должен быть установлен уникальный двоичный код.

Таким образом, кодовая таблица состоит из 256 ячеек – удобно использовать таблицу 16 строк на 16

столбцов.

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Кодовая таблица

Столбцы и строки удобно пронумеровать цифрами шестнадцатеричной системы счисления, тогда каждой ячейке соответствует уникальное двузначное шестнадцатеричное число: первая цифра это номер строки, а вторая – номер столбца.

Перевести шестнадцатеричное число в двоичное или десятичное не трудно.

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Кодовая таблица

Всеобщая договоренность.

о том, какие именно символы разместить в соответствующих256-ти ячейках называется стандартом.

За размещение символов в ячейках с 0 по 127 отвечает международный стандарт, а в ячейках с 128 по 255 – это национальный стандарт

0 1 2 3 4 5 6 7 8 9 A B C D E F

0

1

2

3

4

5

6

7

8

9

A

B

C

D

E

F

Международный стандарт

Национальный стандарт

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Международный стандарт (первые 128 символов)

Отражён в Международной кодовой таблице ASCII

(angl. American Standard Code for Information Interchange ) –

Американский Стандартный Код Обмена Информацией.

Однобайтовая кодовая таблица ASCII едина для всех в мире.

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

ASCII

Коды с 0 по 32 являются специальными, то есть соответствует не символам, а операциям (ввод пробела, перевод строки и т.п.)

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Национальный стандартКоды с 128 по 255

Описан в национальных кодовых таблицах.

Каждая страна создаёт свои национальные таблицы кодов

Исторически было создано пять однобайтовых кодовых таблиц для русского языка: MS-DOS, Windows, КОИ–8, ISO, Mac

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

MS-DOS

Code Page 866 (CP866), она же “DOS”.

Широко применялась до середины 90-х годов, теперь используется ограниченно.

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Windows

Code Page 1251, CP1251, он же “Windows”.

Разработана компанией Microsoft для поддержки русского языкав системе Window.

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

КОИ – 8

КОИ-8 (код обмена информацией,8 битов) . Разработана в 70-80-е годы. Является общепринятым стандартом для передачи почтовых сообщений в российском Интернете.

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

ISO

Организация ISO (International Standardization Organization – Международная Организация по Стандартам) приняла группу стандартов для разных групп языков, в том числе и для кириллицы (включая русский язык).

Однако кодировка ISO не прижилась.

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Mac

Таблица Mac разработана для компьютеров работающих на операционной системе Macintosh производимых и продаваемых фирмой Apple.

В данной таблице указано расположение русских букв

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Тексты созданные в одной кодировке не будут правильно отображаться в другой

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Новый международный стандарт Unicode

i = 2 байта = 16 бит N = 2i = 216 = 65 535 символов

Для кодирования 1 символа используется 2 байта информации

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

В настоящее время потребности пользователей растут и им недостаточно 256 символов, наряду с русским и английским алфавитом желают использовать греческий, арабский и другие алфавиты, а также различные символы в идее смайликов и другие знаки. Поэтому распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два.

Опорный конспектТема: Представление текстовой информации на компьютере.

Компьютер различает вводимые символы по их уникальному двоичному коду (принцип двоичного кодирования).

Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Recommended