Huffman

Es un método general de codificación y compresión diseñado para minimizar el número medio de bits necesarios para transmitir un símbolo cuando se debe transmitir varias copias independientes y estadísticamente equivalentes de dicho símbolo. Este método determina cómo los distintos valores del símbolo deben representarse como cadenas binarias.

Supongamos que tenemos que enviar el símbolo X que puede tomar valores {x₁,...x_n} con probabilidad {p₁,...,p_n}. La idea es reservar palabras cortas para los valores más frecuentes de X. Este método no requiere usar ningún tipo de separador entre los valores.

Ejemplo:

x₁ (0.5)

x₂ (0.3)

x₃ (0.15)

x₄ (0.05)

Si se usan 00, 01, 10 y 11 necesitaremos siempre 2 bits para el valor de X.
Si se usan las palabras 0,10,110,111 necesitaremos como término medio 1.7 bits (menos de 2).

El código del ejemplo es de longitud variable, pero no se requiere usar ningún tipo de separador entre los valores.

x₃ x₁ x₄ x₃ x₃ x₂ = 110011111011010 Sólo puede decodificarse correctamente.

La razón es que siempre puede reconocer el final de una palabra porque ninguna otra palabra es el principio de otra dada. Un código con esta propiedad se denomina código prefijo. El código Huffman es el código prefijo que requiere el mínimo número medio de bits por símbolo.

Para derivar el código Huffman se hacen las siguientes operaciones:

Escoger los dos símbolos x_i, x_j con probabilidad más pequeña.
Se las reemplaza por y_i0 e y_i1.
Se borra x_i y x_j de la lista y se añade y_i con probabilidad p_i+p_j.
Volver al paso 1 hasta terminar con todos los símbolos.

El código queda definido por el camino desde C a cada nodo. La convención para escribir el código de Huffman final es:

Huffman Encoding

../compresión de datos/Huffman Encoding