кодирование текстовой информации

Представление текстовой (символьной) информации

на компьютере

12 Июль, 2013

преподаватель информатики Загороднева Е.А. СТГХСТ

Нолик, нолик, единичка, единичка, нолик, единичка….

Так поразительно просто оцифровываются наши чувства и мысли. Кто мы друг другу?

Приятные собеседники или любимые? Мы – это потоки электронов, несущихся в вечность…

(из Инета)

12 Июль, 2013 преподаватель информатики Загороднева Е.А. СТГХСТ

Более 60% информации, представленной в компьютере, является текстовой информацией.Компьютер – это электронное устройство, поэтому оно способно точно реагировать только на два состояния – 1 (сигнал есть) и 0 (сигнала нет). При кодировании в компьютере используется двоичный код.

Считаем мощность компьютерного алфавита

33 русских прописных буквы 33 русских строчных букв 26 английских строчных букв 26 прописных английских букв 10 цифр + знаки препинания Скобки и т.п. символы (@, #, $, %, &…) Знаки математических операций Специальные символы (пробел, Enter…)

Считаем информационный вес символа

Для кодирования 1 символа используется 1 байт

информации

N = 2i

N = 256256 = 28

i = 8 бит = 1 байт

ВЫВОД

Для представления текстовой информации в компьютере

применяется принцип двоичного кодирования

(для 1 символа необходимо 8 бит)

Что потребуется для процесса кодирования?

— • —

— — —

— • • ?

Кодирование использовалось задолго до появления компьютеров. Например, с открытием телеграфа изобрели азбуку Морзе.

Для расшифровки слова потребуется кодовая таблица

Историческая справка

ВЫВОД

Для кодирования нужны

общепринятые

кодовые таблицы

Двоичное кодирование

Мощность компьютерного алфавита 256 символов, если нумерацию начать с нуля, то все символы имеют

номера от 0 до 255.

В кодовой таблице каждому символу в соответствие должен быть установлен уникальный двоичный код.

Таким образом, кодовая таблица состоит из 256 ячеек – удобно использовать таблицу 16 строк на 16

столбцов.

Кодовая таблица

Столбцы и строки удобно пронумеровать цифрами шестнадцатеричной системы счисления, тогда каждой ячейке соответствует уникальное двузначное шестнадцатеричное число: первая цифра это номер строки, а вторая – номер столбца.

Перевести шестнадцатеричное число в двоичное или десятичное не трудно.

Кодовая таблица

Всеобщая договоренность.

о том, какие именно символы разместить в соответствующих256-ти ячейках называется стандартом.

За размещение символов в ячейках с 0 по 127 отвечает международный стандарт, а в ячейках с 128 по 255 – это национальный стандарт

0 1 2 3 4 5 6 7 8 9 A B C D E F

Международный стандарт

Национальный стандарт

Международный стандарт (первые 128 символов)

Отражён в Международной кодовой таблице ASCII

(angl. American Standard Code for Information Interchange ) –

Американский Стандартный Код Обмена Информацией.

Однобайтовая кодовая таблица ASCII едина для всех в мире.

Коды с 0 по 32 являются специальными, то есть соответствует не символам, а операциям (ввод пробела, перевод строки и т.п.)

Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.

Национальный стандартКоды с 128 по 255

Описан в национальных кодовых таблицах.

Каждая страна создаёт свои национальные таблицы кодов

Исторически было создано пять однобайтовых кодовых таблиц для русского языка: MS-DOS, Windows, КОИ–8, ISO, Mac

MS-DOS

Code Page 866 (CP866), она же “DOS”.

Широко применялась до середины 90-х годов, теперь используется ограниченно.

Windows

Code Page 1251, CP1251, он же “Windows”.

Разработана компанией Microsoft для поддержки русского языкав системе Window.

КОИ – 8

КОИ-8 (код обмена информацией,8 битов) . Разработана в 70-80-е годы. Является общепринятым стандартом для передачи почтовых сообщений в российском Интернете.

Организация ISO (International Standardization Organization – Международная Организация по Стандартам) приняла группу стандартов для разных групп языков, в том числе и для кириллицы (включая русский язык).

Однако кодировка ISO не прижилась.

Таблица Mac разработана для компьютеров работающих на операционной системе Macintosh производимых и продаваемых фирмой Apple.

В данной таблице указано расположение русских букв

Тексты созданные в одной кодировке не будут правильно отображаться в другой

Новый международный стандарт Unicode

i = 2 байта = 16 бит N = 2i = 216 = 65 535 символов

Для кодирования 1 символа используется 2 байта информации

В настоящее время потребности пользователей растут и им недостаточно 256 символов, наряду с русским и английским алфавитом желают использовать греческий, арабский и другие алфавиты, а также различные символы в идее смайликов и другие знаки. Поэтому распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два.

Опорный конспектТема: Представление текстовой информации на компьютере.

Компьютер различает вводимые символы по их уникальному двоичному коду (принцип двоичного кодирования).

Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.

кодирование текстовой информации

Documents

кодирование информации

Кодирование графической информации

кодирование текстовой информации

КОДИРОВАНИЕ ИНФОРМАЦИИ

Кодирование текстовой информации

Двоичное кодирование графической информации

кодирование графической информации

двоичное кодирование графической информации

Кодирование и обработка информации

У27 - nsportal.ru · 2.7. Кодирование текстовой информации 65 2.8. Кодирование графической информации 69 2.9. Кодирование

Кодирование звуковой информации

обработка текстовой информации

кодирование звуковой информации

Сбор, анализ, обработка текстовой информации

2 кодирование информации

представление текстовой информации

Кодирование и декодирование информации

Кодирование информации

Кодирование информации

Кодирование текстовой информации 10 класс