Энтропия Шеннона: измерение информационного содержания
Формула
H = -\sum_{i=1}^{N} p_i \cdot \log_2(p_i)H_{\max} = \log_2(N)\text{Redundancy} = 1 - \frac{H}{H_{\max}}H \leq \bar{L} < H + 1 \quad \text{(Huffman bound)} Частые вопросы
Что такое энтропия Шеннона?
Энтропия Шеннона — математическая мера среднего информационного содержания (или неопределённости) источника сообщений. Определяется как H = −Σ p_i·log₂(p_i), где p_i — вероятность каждого символа, и показывает минимальное число бит, необходимое для кодирования одного символа. Клод Шеннон ввёл её в статье 1948 года «Математическая теория связи», основав область теории информации.
Почему энтропия измеряется в битах?
Использование логарифма по основанию 2 даёт энтропию в битах, поскольку каждый бит представляет двоичный выбор. Один бит разрешает неопределённость подбрасывания честной монеты. Формулировка через log₂ напрямую показывает минимальное число двоичных разрядов для кодирования каждого символа. Натуральные логарифмы дают энтропию в «натах», что используется в физике и машинном обучении.
Какова связь между энтропией и сжатием данных?
Теорема Шеннона о кодировании источника доказывает, что ни один алгоритм сжатия без потерь не может сжать данные ниже H бит на символ в среднем. Кодирование Хаффмана и арифметическое кодирование приближаются к этому теоретическому пределу. Разница между несжатым размером и H·N (где N — длина сообщения) представляет максимально достижимое сжатие.
Какова энтропия английского текста?
Энтропия английского текста составляет приблизительно 4,7 бит на символ при учёте частот отдельных букв, но снижается до 1,0–1,5 бит при учёте структуры слов, грамматики и контекста. Шеннон оценил это через эксперименты, где люди предсказывали следующий символ. Максимум для 26 букв составляет log₂(26) ≈ 4,7 бит, так что английский использует примерно 25% своей теоретической ёмкости.
Источники
- [object Object]
- [object Object]
- [object Object]