Почему информацию нужно измерять?
Информация, как и любой другой объект или явление, обладает свойствами, которые можно измерить. Мы измеряем длину в метрах, массу в килограммах, время в секундах. Для измерения информации также нужна своя единица.
Зачем это нужно?
Чтобы определить, сколько места займёт информация в памяти компьютера.
Чтобы оценить время, необходимое для передачи информации по каналу связи.
Чтобы сравнивать между собой разные объемы данных.
Но как измерить то, что нельзя потрогать? Существуют два принципиально разных подхода.
2. Содержательный (вероятностный) подход
Этот подход рассматривает информацию с точки зрения ее новизны и полезности для человека, получающего сообщение.
Ключевая идея: Количество информации в сообщении зависит от того, насколько оно неожиданно (вероятно) для получателя.
Пример:
Сообщение «Завтра будет солнце» летним утром несёт мало информации (высокая вероятность события).
Сообщение «Завтра будет метель» летним утром несёт очень много информации (низкая вероятность события).
Единица измерения: Бит (от англ. binary digit — двоичная цифра) — это количество информации, содержащееся в сообщении, которое уменьшает неопределенность знаний в два раза.
Формула Шеннона:
Американский учёный Клод Шеннон предложил формулу для вычисления количества информации i в сообщении о событии, имеющем вероятность p:
i = log₂(1/p)
Эту же формулу можно записать как:
i = -log₂(p)
Пример расчета:
Пусть вероятность того, что вы вытянете из колоды карт даму пик, равна p = 1/36.
Количество информации в сообщении «Выпала дама пик» будет:
i = log₂(36) ≈ 5.17 бит.
Проблема подхода: Этот подход субъективен. Одно и то же сообщение для одного человека может быть информативным, а для другого — нет. Его сложно использовать для объективных технических расчетов.
3. Алфавитный (объёмный) подход
Этот подход отказывается от рассмотрения содержания информации и ориентируется исключительно на её объем. Он универсален и идеально подходит для применения в вычислительной технике.
Ключевая идея: Измерить размер любого текста, хранящегося или передаваемого в закодированном виде, можно подсчитав количество символов в нём и зная «вес» одного символа.
Алфавит — это вся совокупность символов, используемых в языке (буквы, цифры, знаки препинания, спецсимволы).
Мощность алфавита (N) — это количество символов в алфавите.
Основная формула: Связывает мощность алфавита N и количество информации i, которое несёт один символ этого алфавита:
N = 2ⁱ
Отсюда:
i = log₂(N)
Единицы измерения:
1 бит — минимальная единица измерения.
1 байт = 8 бит — основная единица. Один символ в большинстве компьютерных кодировок (кроме Unicode) весит 1 байт.
Производные единицы: Килобайт (КБ), Мегабайт (МБ), Гигабайт (ГБ) и т.д. (в информатике используются коэффициенты, кратные 1024, а не 1000).
Пример расчета:
Алфавит русского языка: Допустим, он содержит 32 буквы + 4 знака препинания (.,!?) + 10 цифр + пробел. Итого N ≈ 47 символов.
Найдём, сколько информации несёт 1 символ: i = log₂(47) ≈ 5.55 бит.
Округляем в большую сторону для удобства кодирования. Поэтому в кодировках (например, Windows-1251, KOI8-R) под один символ отводится 1 байт = 8 бит.
Сколько места займёт слово «ИНФОРМАТИКА»?
В слове 11 символов.
️ 1 символ = 1 байт.
Общий объем информации: 11 символов * 1 байт = 11 байт.
Заключение и выводы
Существуют два подхода к измерению информации: содержательный и алфавитный.
Содержательный подход связывает количество информации с уменьшением неопределённости знания и использует формулу Шеннона.
Алфавитный подход не considers содержание, а измеряет информацию как размер данных. Он является основным в информатике.
Минимальной единицей измерения является бит. На практике чаще используется байт.
Алфавитный подход позволяет легко рассчитать информационный объем любого сообщения.