Что собой представляет кодирование текстовой информации

Что собой представляет кодирование текстовой информации

УРОК "Кодирование текстовой информации"

Представление информации происходит в различных формах в процессе восприятия окружающей среды живыми организмами и человеком, в процессах обмена информацией между человеком и человеком, человеком и компьютером, компьютером и компьютером и так далее.

Кодирование — преобразование информации из одной формы представления (знаковой системы) в другую.

Декодирование — обратный процесс, когда из компьютерного кода знак преобразуется в его графическое изображение.

В процессе обмена информацией часто приходится производить операции кодирования и декодирования информации. При вводе знака алфавита в компьютер путем нажатия соответствующей клавиши на клавиатуре происходит кодирование знака, то есть преобразование его в компьютерный код.

При вводе в компьютер текстовой и числовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код.

Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает один байт.

Например, слово «МАМА» кодируется 32-разрядным двоичным числом:

МАМА ® 11101101 11100001 11101101 11100001

Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.

Средством кодирования служит таблица соответствия знаковых систем, которая устанавливает взаимно однозначное соответствие между знаками или группами знаков двух различных знаковых систем.

Пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы:

ASCII, КОИ-8

Unicode

1 символ — 1 байт

1 символ — 2 байта

ПРИМЕЧАНИЕ! В настоящее время широкое распространение получил новый международный стандарт Unicode , который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не N = 2 8 = 256 символов, а N = 2 16 = 65536 различных символов. Эту кодировку поддерживают последние версии платформы Microsoft Windows & Office (начиная с 1997 года).

Кодирование информации в ПК заключается в том, что каждому символу ставится в соответствие уникальный двоичный код. Таким образом, человек различает символы по их начертаниям, а компьютер — по их кодам.

Алфавит – это набор букв, символов препинания, цифр, пробел и т.п.

Полное число символов в алфавите называют мощностью алфавита

Например, мощность алфавита из русских букв = 33 буквы + 10 цифр + 11 знаков препинания, скобки, пробел = 54 символа

ПРИМЕР 1. Сколько места в памяти надо выделить для хранение предложения: Привет, Вася!

а) в КОИ-8 б) в UNICODE

Считаем все символы, включая знаки препинания (здесь 13 символов).

а) В кодировке КОИ-8 1 символ занимает 1 байт, следовательно V = k * i = 13 * 1 байт = 13 байт.

б) В кодировке UNICODE 1 символ занимает 2 байта , следовательно V = k * i = 13 * 2 байта = 26 байт.

Ответ: а) 13 байт б) 26 байт

ПРИМЕР 2 . Определите информационный объем документа в килобайтах, если известно, что в нем 32 страницы. На каждой странице по 64 строки и каждая строка содержит 56 символ, при этом 1 символ кодируется восьмибитовым способом. ( Ответ записать в виде целого числа.)

1) Считаем все символы: k = 64 строки * 56 символов * 32 страницы = 114 688 символов в документе

2) V = k * i = 114 688 * 1 байт

= 114 688 байт / 1024

Ответ: 112 Кбайт

Задача 3* . Сколько дискет объемом 1,4 Мбайт необходимо для хранения полной энциклопедии из 60 томов по 250 страниц, на каждой из которых две полосы по 80 строк из 45 знаков?

Решение: V = k * i

1) k = 80 строк * 45 знаков * 2 полосы * 250 страниц * 60 томов = 1 0 800000 0

2) 1 0 800 0 000 символов * 1 байт = 108000000 байт

3) 108000000 байт / 1024 = 105469 Кб / 1024 = 103 Мб

4) 103 Мб /1.4 Мб = 74 дискеты

а) Оцените информационный объем в КОИ-8 и Unicode сообщения: Без труда не вынешь рыбку из пруда!

б) Текст занимает полных 5 страниц. На каждой странице размещается 40 строк по 70 символов в строке. Какой объем памяти в КБ займет этот текст?

в) Вариант теста в кодировке Unicode имеет объем 20 Кбайт. На каждой странице теста 40 строк по 64 символа в каждой строке. Сколько страниц в тесте?

Текстовая информация состоит из символов: букв, цифр, знаков препинания и др. Одного байта достаточно для хранения 256 различных значений, что позволяет размещать в нем любой из алфавитно-цифровых символов. Первые 128 символов (занимающие семь младших бит) стандартизированы с помощью кодировки ASCII (American Standart Code for Information Interchange). Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255. Для кодировки русских букв используют различные кодовые таблицы (КОI-8R, СР1251, CP10007, ISO-8859-5):

Читайте также:  Смартфон асус зенфон макс про м1 характеристики

KOI8R — восьмибитовый стандарт кодирования букв кириллических алфавитов (для операционной системы UNIX). Разработчики KOI8R поместили символы русского алфавита в верхней части расширенной таблицы ASCII таким образом, что позиции кириллических символов соответствуют их фонетическим аналогам в английском алфавите в нижней части таблицы. Это означает, что из текста написанного в KOI8R, получается текст, написанный латинскими символами. Например, слова «дом высокий» приобретают форму «dom vysokiy»;

СР1251 – восьмибитовый стандарт кодирования, используемый в OS Windows;

CP10007 — восьмибитовый стандарт кодирования, используемый в кириллице операционной системы Macintosh (компьютеров фирмы Apple);

ISO-8859-5 – восьмибитовый код, утвержденный в качестве стандарта для кодирования русского языка.

Кодирование графической информации

Графическую информацию можно представлять в двух формах: аналоговой и дискретной. Живописное полотно, созданное художником, — это пример аналогового представления, а изображение, напечатанное при помощи принтера, состоящее из отдельных (элементов) точек разного цвета, — это дискретное представление.

Путем разбиения графического изображения (дискретизации) происходит преобразование графической информации из аналоговой формы в дискретную. При этом производится кодирование — присвоение каждому элементу графического изображения конкретного значения в форме кода. Создание и хранение графических объектов возможно в нескольких видах — в виде векторного, фрактального или растрового изображения. Отдельным предметом считается 3D (трехмерная) графика, в которой сочетаются векторный и растровый способы формирования изображений.

Векторная графика используется для представления таких графических изображений как рисунки, чертежи, схемы.

Они формируются из объектов — набора геометрических примитивов (точки, линии, окружности, прямоугольники), которым присваиваются некоторые характеристики, например, толщина линий, цвет заполнения.

Изображение в векторном формате упрощает процесс редактирования, так как изображение может без потерь масштабироваться, поворачиваться, деформироваться. При этом каждое преобразование уничтожает старое изображение (или фрагмент), и вместо него строится новое. Такой способ представления хорош для схем и деловой графики. При кодировании векторного изображения хранится не само изображение объекта, а координаты точек, используя которые программа каждый раз воссоздает изображение заново.

Основным недостатком векторной графики является невозможность изображения фотографического качества. В векторном формате изображение всегда будет выглядеть, как рисунок.

Растровая графика. Любую картинку можно разбить на квадраты, получая, таким образом, растр — двумерный массив квадратов. Сами квадраты — элементы растра или пиксели (picture’s element) — элементы картинки. Цвет каждого пикселя кодируется числом, что позволяет для описания картинки задавать порядок номеров цветов (слева направо или сверху вниз). В память записывается номер каждой ячейки, в которой хранится пиксель.

Рисунок в растровом формате

Каждому пикселю сопоставляются значения яркости, цвета, и прозрачности или комбинация этих значений. Растровый образ имеет некоторое число строк и столбцов. Этот способ хранения имеет свои недостатки: больший объём памяти, необходимый для работы с изображениями.

Объем растрового изображения определяется умножением количества пикселей на информационный объем одной точки, который зависит от количества возможных цветов. В современных компьютерах в основном используют следующие разрешающие способности экрана: 640 на 480, 800 на 600, 1024 на 768 и 1280 на 1024 точки. Яркость каждой точки и ее координаты можно выразить с помощью целых чисел, что позволяет использовать двоичный код для того чтобы обрабатывать графические данные.

В простейшем случае (черно-белое изображение без градаций серого цвета) каждая точка экрана может иметь одно из двух состояний — «черная» или «белая», то есть для хранения ее состояния необходим 1 бит. Цветные изображения формируются в соответствии с двоичным кодом цвета каждой точки, хранящимся в видеопамяти. Цветные изображения могут иметь различную глубину цвета, которая задается количеством битов, используемым для кодирования цвета точки. Наиболее распространенными значениями глубины цвета являются 8, 16, 24, 32, 64 бита.

Читайте также:  Как открыть дисковод на ноутбуке dell

Для кодирования цветных графических изображений произвольный цвет делят на его составляющие. Используются следующие системы кодирования:

HSB (H — оттенок (hue), S — насыщенность (saturation), B — яркость (brightness)),

RGB (Red — красный, Green — зелёный, Blue — синий) и

CMYK (Cyan — голубой, Magenta – пурпурный, Yellow — желтый и Black – черный).

Первая система удобна для человека, вторая — для компьютерной обработки, а последняя — для типографий. Использование этих цветовых систем связано с тем, что световой поток может формироваться излучениями, представляющими собой комбинацию "чистых" спектральных цветов: красного, зеленого, синего или их производных.

Фрактал – это объект, отдельные элементы которого наследуют свойства родительских структур. Поскольку более детальное описание элементов меньшего масштаба происходит по простому алгоритму, описать такой объект можно всего лишь несколькими математическими уравнениями. Фракталы позволяют описывать изображения, для детального представления которых требуется относительно мало памяти.

Рисунок в фрактальном формате

Трёхмерная графика (3D) оперирует с объектами в трёхмерном пространстве. Трёхмерная компьютерная графика широко используется в кино, компьютерных играх, где все объекты представляются как набор поверхностей или частиц. Всеми визуальными преобразованиями в 3D-графике управляют с помощью операторов, имеющих матричное представление.

Кодирование звуковой информации

Музыка, как и любой звук, является не чем иным, как звуковыми колебаниями, зарегистрировав которые, её можно достаточно точно воспроизвести. Для представления звукового сигнала в памяти компьютера, необходимо поступившие акустические колебания представить в цифровом виде, то есть преобразовать в последовательность нулей и единиц. С помощью микрофона звук преобразуется в электрические колебания, после чего можно измерить амплитуду колебаний через равные промежутки времени (несколько десятков тысяч раз в секунду), используя специальное устройство — аналого-цифровой преобразователь (АЦП). Для воспроизведения звука цифровой сигнал необходимо превратить в аналоговый с помощью цифро-аналогового преобразователя (ЦАП). Оба эти устройства встроены в звуковую карту компьютера. Указанная последовательность превращений представлена на рис. 2.6.[41].

Трансформация аналогового сигнала в цифровой и обратно

Каждое измерение звука записывается в двоичном коде. Этот процесс называется дискретизацией (семплированием), выполняемым с помощью АЦП.

Семпл (sample англ. образец) — это промежуток времени между двумя измерениями амплитуды аналогового сигнала. Кроме промежутка времени семплом называют также любую последовательность цифровых данных, которые получили путем аналого-цифрового преобразования. Важным параметром семплирования является частота — количество измерений амплитуды аналогового сигнала в секунду. Диапазон частоты дискретизации звука от 8000 до 48000 измерений за одну секунду.

Графическое представление процесса дискретизации

На качество воспроизведения влияют частота дискретизации и разрешение (размер ячейки, отведённой под запись значения амплитуды). Например, при записи музыки на компакт-диски используются 16-разрядные значения и частота дискретизации 44032 Гц.

На слух человек воспринимает звуковые волны, имеющие частоту в пределах от 16 Гц до 20 кГц (1 Гц — 1 колебание в секунду).

В формате компакт-дисков Audio DVD за одну секунду сигнал измеряется 96 000 раз, т.е. применяют частоту семплирования 96 кГц. Для экономии места на жестком диске в мультимедийных приложениях довольно часто применяют меньшие частоты: 11, 22, 32 кГц. Это приводит к уменьшению слышимого диапазона частот, а, значит, происходит искажение того, что слышно.

Кодирование текстовой, графической и звуковой информации

Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т.д.) для обработки на компьютере должна быть преобразована в числовую форму. Как правило, все числа в компьютере представляются с помощью нулей и единиц. Иными словами, компьютеры работают в двоичной системе счисления.

Кодирование информации – это процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.

Декодирование – преобразование данных из двоичного кода в форму, понятную человеку.

Читайте также:  Как восстановить пароль если номер заблокирован

Код — это набор условных обозначений (или сигналов) для записи (или передачи) некоторых заранее определенных понятий.

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Двои́чный код — это способ представления данных в виде кода, в котором каждый разряд принимает одно из двух возможных значений, обычно обозначаемых цифрами 0 и 1. Разряд в этом случае называется двоичным разрядом.

Кодирование числовой информации

Сходство в кодировании числовой и текстовой информации состоит в следующем: чтобы можно было сравнивать данные этого типа, у разных чисел (как и у разных символов) должен быть различный код. Основное отличие числовых данных от символьных заключается в том, что над числами кроме операции сравнения производятся разнообразные математические операции: сложение, умножение, извлечение корня, вычисление логарифма и пр. Правила выполнения этих операций в математике подробно разработаны для чисел, представленных в позиционной системе счисления.

Основная система счисления для представления чисел в компьютере – это двоичная позиционная система счисления.

Кодирование текстовой информации

При вводе текстовой информации с помощью клавиатуры компьютера каждый вводимый символ подвергается кодированию, т.е. преобразуется в числовой код. При выводе текстовой информации на устройство вывода (дисплей, принтер или плоттер) по числовому коду символа строится его изображение.

Традиционно для кодирования одного символа используется количество информации равное 1 байту. Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 256 различных символов. (2 8 = 256). Кодирование заключается в том, что каждому символу ставится в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).

Основная операция, производимая над отдельными символами текста – это сравнениесимволов. При сравнении символов наиболее важными аспектами являются уникальность кода для каждого символа и длина этого кода, а сам выбор принципа кодирования практически не имеет значения.

Присвоение символу конкретного кода – это вопрос соглашения, которое фиксируется кодовой таблицей. Важно, чтобы при кодировании и декодировании одного и того же текста использовалась одна и та же таблица.

Кодовая таблица(илитаблица кодировки) – это таблица, содержащая упорядоченный некоторым образом перечень кодируемых символов, в соответствии с которой происходит преобразование символа в его двоичный код и обратно.

В таких таблицах каждому символу присваивается определенный числовой код в шестнадцатеричной или десятичной системе счисления, т.е. кодовые таблицы отражают соответствие между изображениями символов и числовыми кодами и предназначены для кодирования и декодирования текстовой информации. Присвоение символу определенного числового кода является результатом соглашения между соответствующими организациями разных стран. В настоящее время нет единой универсальной кодовой таблицы, удовлетворяющей буквам национальных алфавитов разных стран.

Чаще всего используют кодировки, в которых на символ отводится 8 бит (8-битные) или 16 бит (16-битные). Современные кодовые таблицы включают в себя международную и национальную части, т.е. содержат буквы латинского и национального алфавитов, цифры, знаки арифметических операций и препинания, математические и управляющие символы, символы псевдографики. В настоящее время для кодировки русских букв используют пять различных кодовых таблиц (КОИ — 8, СР1251, СР866, Мас, ISO), причем тексты, закодированные при помощи одной таблицы, не будут правильно отображаться в другой

Наиболее популярные таблицы перекодировки: ДКОИ-8, ASCII, CP1251, Unicode. Основным отображением кодирования символов является код ASCII.

Рассмотрим таблицу кодов ASCII.

Таблица ASCII разделена на две части. Первая – стандартная – содержит коды от 0 до 127. Вторая – расширенная – содержит символы с кодами от 128 до 255. Первые 32 кода отданы производителям аппаратных средств и называются они управляющие, т.к. эти коды управляют выводом данных. Им не соответствуют никакие символы. Коды с 32 по 127 соответствуют символам английского алфавита, знакам препинания, цифрам, арифметическим действиям и некоторым вспомогательным символам. Коды расширенной части таблицы ASCII отданы под символы национальных алфавитов, символы псевдографики и научные символы.

Ссылка на основную публикацию
Что делать если отключился звук на компьютере
Мы зарегистрировали подозрительный трафик, исходящий из вашей сети. С помощью этой страницы мы сможем определить, что запросы отправляете именно вы,...
Фотографии купе в поезде
Интересный фотоотчет о поездке на одном из первых рейсов двухэтажных поездов. Смотрим далее, как все устроено внутри таких двухэтажных вагонов...
Фотография с самым большим разрешением в мире
Представляем вашему вниманию нашу подборку самых больших фотографий в мире. Для их просмотра вам будет необходим FlashPlayer. Его можно скачать...
Что делать если полетели драйвера видеокарты
Распространенная ошибка в Windows 7 и реже в Windows 10 и 8 — сообщение «Видеодрайвер перестал отвечать и был успешно...
Adblock detector