Entropía de Shannon: Midiendo el Contenido de Información
Fórmula
H = -\sum_{i=1}^{N} p_i \cdot \log_2(p_i)H_{\max} = \log_2(N)\text{Redundancy} = 1 - \frac{H}{H_{\max}}H \leq \bar{L} < H + 1 \quad \text{(Huffman bound)} Preguntas frecuentes
¿Qué es la entropía de Shannon?
La entropía de Shannon es una medida matemática del contenido de información promedio (o incertidumbre) en una fuente de mensajes. Definida como H = -Σ p_i·log₂(p_i), donde p_i es la probabilidad de cada símbolo, cuantifica el número mínimo de bits necesarios por símbolo para codificar mensajes de esa fuente. Claude Shannon la introdujo en su artículo de 1948 'A Mathematical Theory of Communication', fundando el campo de la teoría de la información.
¿Por qué se mide la entropía en bits?
El uso del logaritmo en base 2 da la entropía en bits porque cada bit representa una elección binaria. Un bit resuelve la incertidumbre de un lanzamiento de moneda justo. La formulación con log₂ indica directamente el número mínimo de dígitos binarios necesarios para codificar cada símbolo en promedio. Usar logaritmos naturales da la entropía en 'nats', utilizados en física y aprendizaje automático.
¿Cuál es la relación entre entropía y compresión de datos?
El teorema de codificación de fuente de Shannon demuestra que ningún algoritmo de compresión sin pérdida puede comprimir datos por debajo de H bits por símbolo en promedio. La codificación Huffman y la codificación aritmética se acercan a este límite teórico. La diferencia entre el tamaño sin comprimir y H·N (donde N es la longitud del mensaje) representa la compresión máxima alcanzable.
¿Cuánta entropía tiene el texto en español?
El texto en español tiene aproximadamente 4,7 bits por carácter al considerar las frecuencias de letras individuales, pero baja a unos 1,0-1,5 bits por carácter al tener en cuenta la estructura de las palabras, la gramática y el contexto. Shannon estimó esto mediante experimentos donde humanos predecían el siguiente carácter. El máximo para 27 letras sería log₂(27) ≈ 4,75 bits, por lo que el español utiliza aproximadamente el 25% de su capacidad teórica.
Fuentes
- [object Object]
- [object Object]
- [object Object]