Shannon-Entropie: Informationsgehalt messen
Formel
H = -\sum_{i=1}^{N} p_i \cdot \log_2(p_i)H_{\max} = \log_2(N)\text{Redundancy} = 1 - \frac{H}{H_{\max}}H \leq \bar{L} < H + 1 \quad \text{(Huffman bound)} Häufige Fragen
Was ist die Shannon-Entropie?
Die Shannon-Entropie ist ein mathematisches Maß für den durchschnittlichen Informationsgehalt (oder die Unsicherheit) einer Nachrichtenquelle. Definiert als H = -Σ p_i·log₂(p_i), wobei p_i die Wahrscheinlichkeit jedes Symbols ist, quantifiziert sie die minimale Anzahl von Bits, die pro Symbol zur Codierung von Nachrichten dieser Quelle benötigt werden. Claude Shannon führte sie 1948 in seiner Arbeit «A Mathematical Theory of Communication» ein und begründete damit die Informationstheorie.
Warum wird Entropie in Bits gemessen?
Die Verwendung des Logarithmus zur Basis 2 ergibt die Entropie in Bits, weil jedes Bit eine binäre Entscheidung darstellt. Ein Bit löst die Unsicherheit eines fairen Münzwurfs auf. Die log₂-Formulierung sagt direkt, wie viele Binärziffern mindestens zur Codierung jedes Symbols im Durchschnitt benötigt werden. Bei natürlichem Logarithmus erhält man die Entropie in «Nats», verwendet in Physik und maschinellem Lernen.
Welche Beziehung besteht zwischen Entropie und Datenkompression?
Shannons Quellencodierungstheorem beweist, dass kein verlustfreier Kompressionsalgorithmus Daten im Durchschnitt unter H Bit pro Symbol komprimieren kann. Huffman-Codierung und arithmetische Codierung nähern sich dieser theoretischen Grenze an. Die Differenz zwischen unkomprimierter Größe und H·N (wobei N die Nachrichtenlänge ist) stellt die maximal erreichbare Kompression dar.
Wie viel Entropie hat englischer Text?
Englischer Text hat ungefähr 4,7 Bit pro Zeichen bei Betrachtung der Einzelbuchstabenhäufigkeiten, sinkt aber auf etwa 1,0–1,5 Bit pro Zeichen unter Berücksichtigung von Wortstruktur, Grammatik und Kontext. Shannon schätzte dies durch Experimente, bei denen Menschen das nächste Zeichen vorhersagten. Das Maximum für 26 Buchstaben wäre log₂(26) ≈ 4,7 Bit, sodass Englisch nur etwa 25 % seiner theoretischen Kapazität nutzt.
Quellen
- [object Object]
- [object Object]
- [object Object]