Question 1

Что такое энтропия Шеннона?

Accepted Answer

Энтропия Шеннона — математическая мера среднего информационного содержания (или неопределённости) источника сообщений. Определяется как H = −Σ p_i·log₂(p_i), где p_i — вероятность каждого символа, и показывает минимальное число бит, необходимое для кодирования одного символа. Клод Шеннон ввёл её в статье 1948 года «Математическая теория связи», основав область теории информации.

Question 2

Почему энтропия измеряется в битах?

Accepted Answer

Использование логарифма по основанию 2 даёт энтропию в битах, поскольку каждый бит представляет двоичный выбор. Один бит разрешает неопределённость подбрасывания честной монеты. Формулировка через log₂ напрямую показывает минимальное число двоичных разрядов для кодирования каждого символа. Натуральные логарифмы дают энтропию в «натах», что используется в физике и машинном обучении.

Question 3

Какова связь между энтропией и сжатием данных?

Accepted Answer

Теорема Шеннона о кодировании источника доказывает, что ни один алгоритм сжатия без потерь не может сжать данные ниже H бит на символ в среднем. Кодирование Хаффмана и арифметическое кодирование приближаются к этому теоретическому пределу. Разница между несжатым размером и H·N (где N — длина сообщения) представляет максимально достижимое сжатие.

Question 4

Какова энтропия английского текста?

Accepted Answer

Энтропия английского текста составляет приблизительно 4,7 бит на символ при учёте частот отдельных букв, но снижается до 1,0–1,5 бит при учёте структуры слов, грамматики и контекста. Шеннон оценил это через эксперименты, где люди предсказывали следующий символ. Максимум для 26 букв составляет log₂(26) ≈ 4,7 бит, так что английский использует примерно 25% своей теоретической ёмкости.

Энтропия Шеннона: измерение информационного содержания

Формула

Частые вопросы

Источники

Энтропия Шеннона: измерение информационного содержания

Формула

Частые вопросы

Источники

Другие симуляции: Теория информации

Исследователь пропускной способности канала

Симулятор сжатия данных

Симулятор коррекции ошибок