Datenkompression: Von Huffman-Codes zur Shannon-Grenze
Formel
\text{Compressed size} \geq N \cdot H \text{ bits}\text{Compression ratio} = \frac{\text{Original size}}{\text{Compressed size}}H \leq \bar{L} < H + 1 \quad \text{(single-symbol Huffman)}\frac{H}{k} \leq \bar{L}_k < \frac{H}{k} + \frac{1}{k} \quad \text{(block-}k\text{ Huffman)} Häufige Fragen
Wie funktioniert Huffman-Codierung?
Huffman-Codierung weist häufigeren Symbolen kürzere Binärcodes und seltenen Symbolen längere Codes zu. Der Algorithmus baut einen Binärbaum von unten auf: Die beiden Knoten mit der geringsten Häufigkeit werden wiederholt zusammengeführt, bis ein einziger Baum entsteht. Symbole an flachen Blättern erhalten kurze Codes, tiefe Blätter lange Codes. Das Ergebnis ist ein präfixfreier Code — kein Codewort ist Präfix eines anderen — der die erwartete Codelänge für die gegebene Häufigkeitsverteilung minimiert.
Was ist Shannons Quellencodierungstheorem?
Shannons Quellencodierungstheorem (rauschfreies Codierungstheorem) besagt, dass eine Quelle mit Entropie H Bit pro Symbol nicht verlustfrei unter H Bit pro Symbol im Durchschnitt komprimiert werden kann. Umgekehrt kann sie mit ausreichend langen Blockcodes beliebig nahe an H komprimiert werden. Damit wird die Entropie als fundamentale Grenze der verlustfreien Kompression etabliert.
Warum kann man zufällige Daten nicht komprimieren?
Wahrhaft zufällige Daten haben maximale Entropie — jedes Symbol ist gleich wahrscheinlich und es gibt keine Muster. Da die Entropie log₂(N) für N gleich wahrscheinliche Symbole beträgt, entspricht die komprimierte Größe der Originalgröße. Nach dem Schubfachprinzip muss jedes Kompressionsverfahren, das manche Eingaben verkürzt, andere verlängern. Bei gleichverteilten Zufallsdaten ist keine Eingabe wahrscheinlicher als eine andere, sodass keine systematische Kompression möglich ist.
Was ist der Unterschied zwischen verlustfreier und verlustbehafteter Kompression?
Verlustfreie Kompression (Huffman, LZ77, DEFLATE) bewahrt jedes Bit der Originaldaten — die dekomprimierte Ausgabe ist identisch mit der Eingabe. Verlustbehaftete Kompression (JPEG, MP3, H.264) verwirft als wahrnehmungsunwichtig erachtete Informationen und erreicht deutlich höhere Kompressionsraten auf Kosten der Wiedergabetreue. Shannons Quellencodierungstheorem regelt die verlustfreie Kompression; die Rate-Distortion-Theorie die verlustbehaftete.
Quellen
- [object Object]
- [object Object]
- [object Object]