Upload
xavi272
View
220
Download
0
Embed Size (px)
Citation preview
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 1/62
3.3.2 Funcionamiento del MPEG
MPEG.
MPEG son las siglas de Moving Picture Experts Group (Grupo de expertos en
imágenes en movimiento), es un grupo de la ISO y la familia de estándares de
compresión y de formatos de archivo de video digital.
A finales de los 80 se empezó a notar cierta necesidad en la industria
multimedia de conseguir un formato que permitiera grabar pistas de audio y video en
formato digital y con una compresión equiparable al formato, ya por entoncesutilizado, JPEG para la grabación y compresión de imágenes.
En respuesta a esta necesidad, en Mayo de 1988 se realizo la primera reunión
del MPEG en Ottawa Canadá, bajo la dirección de ISO (International Estandards
Organization) e IEC (international Electrotechnical Communication) con el fin de
unificar criterios y desarrollar estándares internacionales de compresión,
descompresión, procesamiento y codificación de imágenes animadas y datos de
audio.
Mediante la fijación de una serie de estándares, el grupo MPEG admitió
distintos formatos de compresión por parte de empresas e individuos particulares para
ser revisados. El modelo de verificación utilizado explicaba, sencillamente, el
funcionamiento del codificador y el decodificador.
Tras algunas pruebas, se llegó a los estándares MPEG-1 y MPEG-2 que hoyen día se han convertido en los utilizados genéricamente para audio y video. MPEG-1
fue aprobado en 1992 y facilitaba la codificación de audio en tres capas distintas.
MPEG-2, fue anunciado en 1994 como el nuevo estándar de codificación y video que
permitía señales de videos entrelazados, audio en multicanal, Dolby 5.1, codificación
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 2/62
de audio en frecuencias más bajas (lo que suponía aún más compresión que su
predecesor MPEG-1).
El formato MPEG es dependiente de la zona geográfica en la que seautilizado. Por lo tanto, el formato PAL es utilizado en Europa, mientas que
el NTSC es el formato americano. Sin embargo, existen dispositivos multizona que
son compatibles con ambos PAL y NTSC. Si el video MPEG que utilizarás está en 25
FPS, debes convertirlo al formato PAL, y si está en 23.976 o 29.976FPS, deberás
utilizar el formato NTSC. La conversión al formato equivocado puede causar
desincronización audio/video u otro tipo de inconvenientes. El video MPEG
convertido puede ser grabado como un CD de datos normales, pero para poder verlo
en un DVD de mesa o dispositivo portátil, debe ser grabado con uno de los estándares
de VCD. La estructura de un VCD es muy distinta a la de un CD de datos común, por
lo que se deben utilizar programas especiales para grabar VCD, tales como el Nero.
La metodología de compresión MPEG se considera asimétrica ya que el
codificador es más complejo que el decodificador. El codificador tiene que ser
algorítmico o adaptativo, mientras que el decodificador es sencillo y lleva acciones
fijas. Esto se considera una ventaja en aplicaciones tales como la radiodifusión, donde
el número de codificadores costosos y complejos es pequeño, pero el número de
descodificadores simples y de bajo costo es grande. El enfoque de la estandarización
de MPEG es novedoso, porque no es el codificador el que está estandarizado, pero si
la forma que un decodificador interpreta la cadena de bits. La ventaja de estandarizar
el decodificador es que a través del tiempo los algoritmos de codificación pueden ser
mejorados, y los decodificadores compatibles pueden seguir funcionando.
El MPEG utiliza Códec (codificadores-decodificadores) de compresión con
bajas pérdidas de sonido usando códecs de transformación.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 3/62
En los códecs de transformación con bajas pérdidas, las muestras tomadas de
imagen y sonido son troceadas en pequeños fragmentos y solamente las diferencias
con estas imágenes reconstruidas y algún extra necesario para llevar a cabo la
predicción es almacenado. MPEG solamente normaliza el formato del flujo binario yel descodificador. El codificador no está normalizado en ningún sentido, pero hay
implementaciones de referencia, para los miembros que producen flujos binarios
válidos.
MPEG-1: VCD, MPEG-2: DVD; MPEG-3: HDTV, MPEG-4: DIVX, XVID.
MPEG – 1
Es el nombre de un grupo de estándares de codificación de audio y vídeo
normalizados por el grupo MPEG (Moving Pictures Experts Group). MPEG-1
vídeo se utiliza en el formato Video CD. La calidad de salida con la tasa de
compresión usual usada en VCD es similar a la de un cassette vídeo VHS doméstico.
Para el audio, el grupo MPEG definió el MPEG-1 audio layer 3 más conocido
como MP3.
MPEG-1 está conformado por diferentes partes:
1. Sincronización y transmisión simultánea de vídeo y audio.
2. Códec de compresión para señales de vídeo no entrelazadas (progresivas).
3. Códec de compresión para señales de audio con control sobre la tasa de
compresión. El estándar define tres capas (layers en inglés), o niveles decomplejidad de la codificación de audio MPEG.
MP1 o MPEG-1 Parte 3 Capa 1 (MPEG-1 Audio Layer 1).
MP2 o MPEG-1 Parte 3 Capa 2 (MPEG-1 Audio Layer 2).
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 4/62
MP3 o MPEG-1 Parte 3 Capa 3 (MPEG-1 Audio Layer 3).
4. Procedimientos para verificar la conformidad.
5. Software de referencia.
Está diseñado para comprimir VHS de vídeo y CD de audio digital de calidad
de hasta 1.5 Mbit/s (26:1 y 6:1 relaciones de compresión respectivamente), sin
pérdida de calidad excesiva.
MPEG-2
El estándar MPEG-2 es una extensión del estándar MPEG-1. Para una
imagen de televisión estándar (704 x 576 pixels) y un frame rate (velocidad a la cual
las imágenes salen en la decodificación) típico de 25Hz, MPEG-2 esta diseñado para
proporcionar televisión de alta calidad con un bit rate entre 4-9Mb/s. MPEG-2 fue
diseñado para proporcionar codificación de vídeo de alta calidad apropiado para
transmisión sobre redes de computadores. De hecho MPEG-2 es el principal
protocolo de compresión utilizado sobre conexiones DBS. Este estándar de
compresión de vídeo y audio es capaz de explotar redundancias espaciales y
temporales, consiguiendo ratios de compresión de hasta 200:1 y además siendo capaz
de codificar una fuente de vídeo y/o audio con casi cualquier nivel de calidad.
Principios de codificación
Una secuencia de vídeo tiene tres tipos de redundancia que un esquema de
codificación necesita explotar en orden de conseguir una muy buena compresión:
Espacial
Temporal
Psicovisual
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 5/62
Las redundancias espaciales y temporales ocurren porque los valores de los
pixels no son completamente independientes si no que están correlados con los
valores de los pixels vecinos, tanto en espacio como en tiempo (es decir, dentro de
una misma trama o con las tramas anterior y/o posterior). Por ello diremos que susvalores pueden ser predichos en cierta medida. Por otra parte, la redundancia
psicovisual tiene que ver con las limitaciones físicas del ojo humano, que tiene una
limitada respuesta para fijarse en los detalles espaciales y es menos sensitivo al
distinguir detalles en las esquinas o los cambios rápidos. Por tanto, el proceso de
codificación puede ser capaz de minimizar el bit-rate mientras se mantiene constante
la calidad a la que le ojo humano ve la imagen decodificada.
El sistema de compresión MPEG-2 (al igual que MPEG-1) utiliza la
Transformada Discreta del Coseno (DCT) y codificación entrópica para transformar
un bloque de pixels en códigos de longitud variable (VLC). Los bloques son la
mínima unidad de codificación en el algoritmo MPEG.
Están compuestos de pixels de 8x8 y pueden ser de tres tipos: luminancia (Y),
componente rojo de la crominancia Cr y el componente azul de la crominancia Cb.
Mediante la DCT los bloques adquieren la forma de VLC, que no son más que la
representación de de los coeficientes cuantificados de la DCT.
Los codificadores MPEG-2 producen tres tipos de de imágenes: intra-frame (o
imágenes I), imágenes interframe causales (o imágenes P) e
imágenes interframbidireccionales (o imágenes B). La relación entre estos tres tipos
de tramas se puede ver en la siguiente figura:
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 6/62
Las imágenes I: Se codifican como si fuesen imágenes fijas utilizando la
norma JPEG, por tanto, para decodificar una imagen de este tipo no hacen falta otras
imágenes de la secuencia, sino sólo ella misma. No se considera la redundancia
temporal (compresión intraframe). Se consigue una moderada compresión explotando
únicamente la redundancia espacial. Una imagen I siempre es un punto de acceso en
el flujo de bits de vídeo. Son las imágenes más grandes.
Las imágenes P: Están codificadas como predicción de de la imagen I ó P
anterior usando un mecanismo de compensación de movimiento. Para decodificar una
imagen de este tipo se necesita, además de ella misma, la I ó P anterior. El proceso de
codificación aquí explota tanto la redundancia espacial como la temporal.
Las imágenes B: Se codifican utilizando la I ó P anterior y la I ó P siguiente
como referencia para la compensación y estimación de movimiento. Para
decodificarlas hacen falta, además de ellas mismas, la I ó P anterior y la I ó P
siguiente. Estas imágenes consiguen los niveles de compresión más elevados y por
tanto son las más pequeñas.
Existen otro tipo de imágenes llamadas imágenes intraframe de baja
resolución (o imágenes D) que son de las mismas características que las I pero con
menos resolución. Se usan en aplicaciones que no necesitan gran calidad, como el
avance rápido.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 7/62
Las imágenes desde una imagen I hasta la siguiente forman un grupo
de imágenes (GOP). Los componentes de un GOP están dibujados en la siguiente
figura:
Las imágenes son generadas por el codificador MPEG-2 generando en primer
lugar los bloques 8x8, de luminancia o crominancia. Los bloques de luminancia secombinan en grupos de cuatro, los cuales, cuando se combinan con la información
asociada de crominancia para la correspondiente región de la imagen forman
macrobloques, que son de 16x16 pixels.
Los macrobloques adyacentes son agrupados en un slice. Una imagen está
compuesta por un número de slices precedidos por una cabecera de imagen. De igual
forma, un slice está compuesto de un número de macrobloques precedidos de una
cabecera de slice. Cada macrobloque también comienza con una cabecera, que
contiene información de la ubicación del macrobloque MB adress, y vectores de
movimiento utilizados en predicción con compensación de movimiento. En el primer
macrobloque de cada slice, el MB adress y el vector de movimiento son codificados
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 8/62
absolutamente. En cada uno de los restantes macrobloques del slice, estos pares
metros son codificados diferencialmente con respecto a los correspondientes valores
del macrobloque inmediatamente anterior.
El nivel de sistema de MPEG-2 (Systems Layer) describe un método estándar
para multiplexar y demultiplexar secuencias de media (audio, vídeo y secuencias de
datos) y un mecanismo, que utilizando sellos temporales consigue mantener una
sincronización entre varias secuencias dentro de la red.
El nivel de sistema de MPEG-2 permite que varias secuencias de audio y
vídeo se combinen para formar una única secuencia de salida. El MPEG Systems
Layer puede adquirir dos formas:
Secuencia de Programa (PS: Program stream): Esta basado en la estructura de
multiplexación establecida por el MPEG-1 y pretende que se utilice para un canal de
vídeo, y audio y datos asociados. Está optimizado para su uso en aplicaciones de
multimedia y es compatible con MPEG-1.
Secuencia de Transporte (TS: Transport Stream): Este tipo de multiplexación
es nuevo del MPEG-2. Consiste en pequeños paquetes de transporte de longitud fija,
cada uno de exactamente 188 bytes de tamaño con 4 bytes de información de
cabecera. El TS está pensado para el transporte de media donde los errores o
pérdidas de bits son más frecuentes. Puede soportar multiples programas ejecutados
simultáneamente.
Con el fin de generar cualquiera de las dos multiplexaciones, una secuencia devídeo se fragmenta en una cadena de imágenes codificadas, denominadas unidades de
acceso. Una unidad de acceso de MPEG representa una imagen I, P ó B codificada y
es variable en tamaño, dependiendo del nivel de compresión conseguido para la
imagen. Una sucesión de unidades de acceso de vídeo de longitud variable se
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 9/62
denomina secuencia elemental de vídeo. La secuencia elemental de vídeo se convierte
en una secuencia elemental de paquetes (PES: Packetized Elementary Stream)
agrupando datos sucesivos de un número de secuencias elementales formando la
carga útil de una cadena de paquetes. Se añade además una cabecera a cada paquete.Los PES pueden ser de cualquier tamaño hasta 64 KB. Las secuencias de PES pueden
almacenarse o transmitirse tal como son, aunque habitualmente son convertidas en
secuencias de transporte o secuencias de programa.
En redes híbridas se utiliza por norma general la secuencia de transporte. Los
paquetes de PES se cargan en los paquetes de transporte de forma que el primer byte
de un paquete PES es el primer byte de carga útil del paquete de transporte y que un
único paquete de transporte puede llevar datos de un PES.
La secuencia de transporte proporciona las siguientes funciones:
Multiplex orientado a paquetes: Proporciona la capacidad de multiplexar
varias secuencias de entrada (p.ej. audio, vídeo, o datos privados) en un único canal
de salida.
Silenciador de errores: Proporciona ciertas características que asisten al
decodificador que recibe datos erróneos que habían sido introducidos en la
transmisión o en el almacenamiento.
Sincronización: Se consigue utilizando sellos temporales que pueden ser
utilizados para la gestión del buffer y para la sincronización entre secuencias.
Sincronización entre secuencias elementales
En el receptor, un demultiplexador separa los paquetes de una secuencia de
transporte o de una secuencia de programa en las secuencias elementales. Las
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 10/62
unidades de acceso de cada secuencia elemental son almacenadas en unos buffers
FIFO esperando a ser decodificadas. Se usan sellos temporales cuando un
decodificador debe decodificar una unidad de acceso en particular.
Existe un reloj muy preciso tanto en el multiplexador como en el receptor. Los
sellos temporales son insertados en las unidades de acceso en el multiplexador y
especifican el tiempo exacto en el cual la unidad de acceso ser decodificada en el
receptor. Por lo tanto, el multiplexador crear sellos temporales basados en el tiempo
actual más un pequeño offset que permitaun determinado retardo en la transmisión.
Dos sellos temporales, el sello presentation video-conferencingtime
stamp (PTS) y el decoder time stamp (DTS), están incluidos en la cabecera del
paquete de PES. Éstos indican al decodificador cuando mostrar la información
decodificada al usuario y cuando decodificar la información de los buffers de
decodificación, respectivamente. Los relojes entre el codificador y el decodificador
deben estar también sincronizados. Esta tarea se lleva a cabo a través de la utilización
de referencias del reloj de programa (PCR: Program Clock References). Un PCR
puede ser insertado en un paquete de TS (de transporte) en un campo justo después de
su cabecera. Los PCRs son insertados en intervalos regulares para mantener la
sincronización entre el codificador y el decodificador.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 11/62
3.4 Aplicaciones MPEG-2
3.4.1 Diferencia entre MPEG-1/ MPEG-2/ MPEG-3
DIFERENCIAS SEMEJANZAS CARACTERISTICAS
MPEG1 -MPEG2 MAYOR
CALIDAD, CON
MAYOR ANCHO
DE BANDA
-MPEG2 Y
MPGE4 SON
APROPIADOS
PARA VIDEOS Y
MPGE1 Y
MPEG3 PARAAUDIO
-COMPRESORES
DE IMAGENES
-SINTONIZACION
AUTOMATICA
DIGITAL
MPEG2 -MPEG3
PROPUESTA
ESTANDAR
PARA LA TV DE
ALTA
RESOLUCION
MPEG3 -MPEG4 MUY
BAJO ANCHO DE
BANDA Y
RESOLUCION
MPEG4 -MPEG1
INTRODUCIR
VIDEO EN UN
CD-ROM
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 12/62
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 13/62
3.4.2 Estimación y compensación de movimiento.
Estimación De Movimiento
Estimación de movimiento es el proceso a partir del cual se obtienen
los vectores de movimiento (VM) de cada macro bloque (MB) de la imagen a
codificar respeto una (o más) imágenes de referencia. La estimación de movimiento
es una parte muy importante del proceso de codificación de vídeo y se utiliza en
estándares y códecs tan populares como la familia de MPEG‟s (MPEG-1, MPEG-
2, MPEG-4), el último H.264/MPEG-4 AVC.
La codificación de vídeo trata de representar secuencias de imágenes con el
menor número de bits posible. Por eso, los métodos de codificación de vídeo aplican
tanto codificación Intraimagen como Interimagen. Con el primer tipo se intenta
eliminar la redundancia espacial dentro de cada cuadro (frame), mientras que con la
codificación Inter explotamos la redundancia temporal de la secuencia a codificar. La
estimación y compensación de movimiento son los métodos que permiten este tipo de
codificación.
La imagen se divide en bloques (a menudo cuadrados de unos cuántos píxeles,
por ejemplo 4x4) y estos se agrupan formando MB (macro bloque). Cómo hemos
dicho la estimación de movimiento nos permite obtener los VM (vectores de
movimiento) de cada MB. La aplicación de estos vectores por crear la nueva imagen
(imagen compensada) se denomina compensación de movimiento que, junto con el
cálculo de la imagen error entre la imagen compensada y la imagen original que
queremos codificar, es el que, en la gran mayoría de códecs, se envía aldecodificador.
La estimación de movimiento es un proceso con una alta complejidad de
cálculo y a menudo representa 2/3 del coste computacional en la codificación de
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 14/62
vídeo. Como siempre, nos encontraremos con un compromiso de “Rate-distorsion”,
es decir tiempo de procesado y medida fichero respecto calidad del vídeo
comprimido. Esto hace que, actualmente, muchas de las investigaciones dentro el
campo de la codificación de vídeo se centre en buscar algoritmos que puedan realizarmás eficientemente la estimación de movimiento.
Compensación De Movimiento
La compensación de movimiento es una técnica manejada en
la codificación de vídeo, su principal objetivo consiste en eliminar la redundancia
temporal existente entre las imágenes que componen una secuencia, con el fin de
aumentar la compresión.
El proceso se basa en un algoritmo que examina la sucesión de fotogramas
consecutivos, generalmente muy similares entre sí, para analizar y estimar el
movimiento entre los dos. Si el sistema detecta que una región de la imagen ya ha
aparecido anteriormente, codifica la posición que ocupa en el fotograma actual en
lugar de volver a codificar toda la región. De este modo, la predicción de la imagen
actual vendrá dada por la compensación de movimiento basándose en las imágenes
anteriores.
Codificador basado en detección de movimiento
Hay varias técnicas para eliminar la redundancia temporal en una secuencia de
imágenes, pero la mayoría actúa bajo el siguiente esquema:
Cada imagen se divide en bloques, generalmente de 8 x 8 o de 16 x 16 píxeles.
Por cada bloque de la imagen, se genera una predicción, buscando donde se
encontraban estos bloques en la imagen anterior (compensación de
movimiento).
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 15/62
Se resta la predicción al bloque de la imagen actual.
Se aplica una DCT a la diferencia entre la predicción y el bloque actual.
Se cuantifican los coeficientes DCT, eliminando las componentes de altas
frecuencias y se codifican en un código, generalmente no-uniforme.
En caso de que no hubiera fotograma previo o hubiera mucha diferencia, se
codifica el bloque de nuevo en lugar de la diferencia de la predicción.
Normalmente los bloques se agrupan en macrobloques MB para reducir el
coste computacional: bloques más grandes significa que hay menos bloques a prever.
Realmente la predicción (compensación de movimiento) se realiza sobre losmacrobloques: se calcula el vector de movimiento de cada elemento dentro del
macrobloque. Así, para cada fotograma se guardan:
El resultado de aplicar la DCT y la cuantificación a cada bloque diferencia.
Los vectores de movimiento de los elementos de dentro los macrobloques.
Se aplica un filtro a la DCT para eliminar las componentes de alta frecuencia
y aumentar la compresión.
Tratamiento de los fotogramas
La compresión anterior se puede aplicar a los fotogramas de dos maneras:
Compresión intrafotograma: La DCT se aplica a bloques de la imagen
original pero no se hace ninguna predicción sobre el movimiento (la
compresión es similar a las imágenes JPEG). Se denominan fotogramas I.
Esta compresión es útil si la compensación de movimiento no proporciona
una buena predicción.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 16/62
Compresión no-intrafotograma: La DCT se aplica a los bloques de la
imagen diferencia y se calcula la predicción de movimiento. Se generarán dos
tipos de fotogramas: los P y los B.
Acceso a una secuencia de imágenes
Si sólo se codificaran las predicciones, no se podría tener un acceso aleatorio
puesto que para acceder a una determinada imagen haría falta calcular las
predicciones de todas las anteriores. Por otro lado un error en un fotograma se
propagaría a todos los posteriores. Por eso se combinan tres tipos de fotogramas en la
secuencia:
Fotogramas I (intra): Se codifican aisladamente, sin referencia a otros
fotogramas, como si fueran imágenes estáticas. Sirven por permitir un acceso
aleatorio e impedir la propagación de errores.
Fotogramas P (predictivos): Se codifican aplicando compensación de movimiento
al último fotograma I o P (el que sea más reciente). Los fotogramas I y P se
denominan fotogramas de anclaje.
Fotogramas B (bidireccionalmente predictivos): Se codifican aplicando
compensación de movimiento a los dos fotogramas de anclaje más recientes en el
pasado y en el futuro. Con la predicción bidireccional se suele conseguir una mejor
relación de compresión que con predicciones basadas sólo en el pasado: es posible
que un bloque del fotograma actual no aparezca en un fotograma pasado pero sí en
uno de futuro. Sólo se pueden crear después de que se hayan creado los fotogramas I
y P. También toleran más error porque no se usan para hacer otras predicciones.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 17/62
Agrupación de fotogramas: GOP
Generalmente los fotogramas se agrupan en un Grupo de Fotogramas o GOP
(Group Of Pictures). Se trata de la unidad de acceso aleatorio más pequeña. Un GOPestá formado por:
Un fotograma I (el primero).
Uno o varios fotogramas P.
Varios fotogramas B intercalados.
Usualmente en un GOP encontramos 12 fotogramas, pero el codificador puede cambiarlo dinámicamente. En el caso de detectar un cambio de escena, forzará
un fotograma I que dará inicio a un nuevo *GOP.
Teniendo en cuenta que para formar un fotograma P necesitamos un I y que
para formar los B necesitamos tener los I y los P, podemos ordenar la secuencia de
fotogramas desde dos puntos de vista diferentes:
Orden de visualización, como lo ve el usuario.
Orden de bitstream, como se generan los fotogramas.
En la siguiente tabla se ve el orden en que el usuario verá los fotogramas,
junto con el orden en el que son creados y enviados:
Orden de visualización
I B B P B B P B B P B B I
1 2 3 4 5 6 7 8 9 10 11 12 13
Orden de bitstream
I P B B P B B P B B I B B
1 4 2 3 7 5 6 10 8 9 13 11 12
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 18/62
Backward vs. Forward
Es importante diferenciar entre estimación / compensación
Backward y estimación / compensación Forward, así como entender porque losmétodos de compresión de vídeo usan el primer caso. Esta clasificación diferencia en
cuál de las dos imágenes (referencia y a codificar) se definen los MB de los cuales
queremos buscar los vectores de movimiento que les corresponden.
Hablaremos de estimación Forward sí definimos los MB en la imagen
referencia. Calculamos los VM a partir de la imagen referencia. Para cada MB de la
imagen referencia buscamos dónde ha ido a parar en la imagen actual (a codificar) y,
a partir de la nueva posición, extraemos los VM. Puede que algunos MB, o píxeles,
de la imagen referencia no aparezcan en la original y que por lo tanto identificamos
una misma zona de la imagen a codificar como la más parecida a más de un MB de la
imagen referencia (1). Por generar la imagen compensada cogeremos cada MB de la
de referencia y lo colocaremos en la nueva posición que le corresponde según los VM
que hemos calculado. Si nos encontramos con (1) algunos píxeles de la imagen
compensada se sobrescribirán y otros quedarán sin definir generando “agujeros”. Este
problema no pasa si aplicamos estimación Backward, que define los MB en la imagen
a codificar y busca dónde se encontraban (o se encontrarán) en la de referencia.
Calculamos los VM a partir imagen actual. De esta manera, para llenar cada MB de la
imagen compensada iremos a buscar dónde se encontraba en la imagen de referencia
y copiaremos todos los píxeles. Aquí lo único que hacemos es llenar MB según los
VM que hemos encontrado y por lo tanto no habrá ningún píxel sin definir. Es por
esta razón que los estándares de codificación de vídeo utilizan la estimación
Backward en lugar de la Forward.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 19/62
Esquema representativo estimación/compensación fordward.
Esquema representativo estimación/compensación backward.
3.4.3 Transformada PCT
Codificación por transformada: Las técnicas de codificación por
transformada, transforman la información a otro dominio donde los datos están
mucho más descorrelados que en el dominio espacial, y la información se acumula en
un pequeño número de muestras. E un método que se utiliza para reducir la
redundancia espacial de las imágenes. Para ello se transforma la imagen a otrodominio, en el cual, sólo unos pocos de los coeficientes contengan la mayor parte de
la información, y los otros coeficientes tengan valores despreciables. En el nuevo
dominio, la imagen tendrá u a representación mucho más compacta, y podrá ser
representada básicamente por unos pocos coeficientes de la transformada. Las
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 20/62
transformadas rápidas más comunes que son utilizadas para realizar esta
transformación y que representa un buen comportamiento de compactación son, la
transformación de Karhunen loeve (KLT), transformada de Fourier Discreta (DFT),
transformada discreta de coseno (DCT), y transformada de Walsh Hadamard, entreotras.
Transformada DCT: Elegida por la mayoría de los estándar establecidos ya
que contiene coeficientes reales solamente, es una transformada rápida, y tiene una
excelente compactación de la energía y des-correlación de los datos entre otras
propiedades.
Es una transformada basada en la Transformada de Fourier discreta, pero
utilizando únicamente números reales.
La Transformada de coseno discreto expresa una secuencia finita de varios
puntos como resultado de la suma de distintas señales sinusoidales (con distintas
frecuencias y amplitudes). Como la [Transformada Discreta de Fourier] (DFT) la
DCT trabaja con una serie de números finitos, pero mientras la DCT solo trabaja con
cosenos la DFT lo hace con exponenciales complejas.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 21/62
Concentración de energía de una DCT-II bidimensional comparada con una
DFT.
Formalmente la transformada de coseno discreta es una función lineal e
invertible del dominio real R N al dominio real R N, que también se puede entender de
forma equivalente a una matriz de NxN posiciones.También existe la DCT multidimensional, que se puede considerar como la
multiplicación separable de varias DCT. Por ejemplo la DCT de dos dimensiones es
una transformada normal calculada por cada fila y columna.
Características útiles para la compresión de imágenes.
La DCT tiene una buena capacidad de compactación de la energía al dominio
transformado, es decir, que la transformada de coseno discreta consigue
concentrar la mayor parte de la información en pocos coeficientes
transformados tal y como muestra la imagen.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 22/62
La transformación es independiente de los datos. El algoritmo aplicado no
varía con los datos que recibe, como si sucede en otros algoritmos de
compresión.
Hay fórmulas para el cálculo rápido del algoritmo, como podría ser
la FFT para la DFT.
Produce pocos errores en los límites de los bloques imagen. La minimización
de los errores a los bloques imagen permite reducir el efecto de bloque en la
imágenes reconstruidas.
Tiene una interpretación frecuencial de los componentes transformados. La
capacidad de interpretar los coeficientes en el punto de vista frecuencial
permite aprovechar al máximo la capacidad de compresión.
Definición Formal
Formalmente, la transformada de coseno discreta es una función lineal
invertible de R N en R N o equivalente una NxN matriz cuadrada. Las variantes más
usadas son la DCT-I y la DCT-II. La DCT-III se conoce popularmente como la IDCT
(transformada inversa). Cada una de estas posibles variaciones es debida a la
periodicidad y el tipo de simetría aplicada a las muestras originales.
DCT-I
DCT-II
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 23/62
DCT-III
DCT-IV
Un codificador basado en DCT, realizará un cambio de dominios, realizando
una transformación bidimensional DCT a un bloque de imagen 8 x 8 pixels. Una
DCT bidimensional se obtiene haciendo una DCT unidimensional tanto en las filas
como en las columnas de la matriz.
Una DCT bidimensional, se multiplica cada pixel del bloque de entrada por
términos que representan ondas coseno muestreadas de varias frecuencias espaciales.
Se obtiene un determinado coeficiente de la DCT cuando se suma el resultado de
multiplicar cada pixel de entra del bloque. La DCT es separable, en el sentido de que
la DCT bidimensional puede obtenerse efectuando separadamente la computación en
cada dimensión. Un problema que surge con esta transformada es que está basada en
el coseno, que es una función trascendente. Para calcular la transformada con
absoluta precisión se necesita un número finito de operaciones. Se hace entonces
necesario truncar la serie, y se debe indicar un método que asegure la precisión de la
transformada al calcularla. Por esta razón, se puede introducir errores (de valor
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 24/62
despreciable) en la aplicación de la DCT e ICDT, que haga que el resultado de la
IDCT sea ligeramente diferente al valor original antes de aplicar la DCT.
La matriz resultante de la DCT está formada por valores que dividen loscolores de la imagen en frecuencias que van desde la más baja, que representan los
elementos más sensitivos para el ojo humano (cambios lentos), en la esquina superior
izquierda, a la más alta, que representan áreas menos sensitivas para el ojo (cambios
rápidos), en la esquina inferior derecha. Puesto que las frecuencias más comunes de
una imagen son las componentes de baja frecuencia, el valor de la esquina superior
izquierda indica el valor del color dominante, que corresponde a la componente de
continua (DC) del bloque, que en el caso de la luminancia, tendrá un valor unipolar
(solamente positivo), siendo por definición el doble de la media de os 64 pixels.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 25/62
3.4.4 Cuantificación
MPEG-1 utiliza sólo dos matrices de cuantificación para los coeficientes
DCT, una para bloques intra y otra para bloques inter. En MPEG-1, las matrices de
cuantificación sólo pueden ser cambiadas en el nivel de cuadro. Para los formatos
4:2:2 y 4:4:4, el Mpeg-2 permite una codificación más eficiente debido al uso de
diferentes matices de cuantificación para las componentes de luminancia y
crominancia. De este modo se pueden utilizar dos matrices para la componente de
luminancia (una para bloques intra y otra para bloques inter) y otras dos para las
componentes de crominancia. La cuantificación de los coeficientes AC es igual a
como lo hace el MPEG-1. Tanto en MPEG-1 como en MPEG-2, el factor de escala Q
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 26/62
(o MQUANT) puede ser cambiado a nivel de macrobloque, para obtener un caudal
constante de bits a la salida del codificador.
3.4.5 Codificación RLE y FUMAN
Run Length Encoding (RLE)
La compresión RLE o Run-length encoding es una forma muy simple
de compresión de datos en la que secuencias de datos con el mismo valor
consecutivas son almacenadas como un único valor más su recuento. Esto es más útil
en datos que contienen muchas de estas "secuencias"; por ejemplo, gráficos sencillos
con áreas de color plano, como iconos y logotipos.
Por ejemplo, considera una pantalla que contiene texto en negro sobre un
fondo blanco. Habría muchas secuencias de este tipo con píxeles blancos en los
márgenes vacíos, y otras secuencias de píxeles negros en la zona del texto.
Supongamos una única línea (o scanline), con N representando las zonas en negro y B
las de blanco:
Si aplicamos la codificación run-length a esta línea, obtendríamos lo
siguiente:
Interpretado esto como 12 letras B, 1 letra N, 12 letras B, 3 letras N, etc. El
código run-length representa el original de 67 caracteres en tan sólo 16. Esto quiere
decir que la línea original pesa 67 bytes y la cadena codificada pesa sólo 16 bytes.
Esta codificación traducida a binario, cuyo principio es el mismo, se utiliza para el
BBBBBBBBBBBBNBBBBBBBBBBBBNNNBBBBBBBBBBBBBBBBBBBBBBBBNBBBBBBBBBBBBBB
12B1N12B3N24B1N14B
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 27/62
almacenamiento de imágenes. Incluso ficheros de datos binarios pueden ser
comprimidos utilizando este método. El primer byte contiene un número que
representa el número de veces que el carácter está repetido. El segundo byte contiene
al propio carácter. En otros casos se codifican en un solo byte: 1 bit (0 o 1) y 7 bits para especificar el número de caracteres consecutivos.
La codificación run-length realiza una compresión de datos sin pérdidas y es
muy utilizado en imágenes de 8 bits indexadas (en un principio fue utilizado para
imágenes en blanco y negro). No funciona tan bien en imágenes donde varía
constantemente el color de los pixels como fotografías, aunque JPEG lo utiliza de
forma efectiva en los coeficientes que quedan después de transformar y cuantificar
bloques de imágenes. Posteriormente ha formado la base de otros sistemas de
compresión como por ejemplo el CCITT grupo 3 – 1D.
En realidad, la compresión RLE está regida por reglas particulares que
permiten que se ejecute la compresión cuando sea necesario y que se deje la cadena
como está cuando la compresión genere pérdida. Las reglas son las siguientes:
Si se repiten tres o más elementos consecutivamente, se utiliza el método de
compresión RLE.
De lo contrario, se inserta un carácter de control (00) seguido del número de
elementos de la cadena no comprimida y después la última.
Si el número de elementos de la cadena es extraño, se agrega el carácter de
control (00) al final.
Finalmente, se definen los caracteres de control específicos según el código:
Un final de línea (00 01)
El final de la imagen (00 00)
Un desplazamiento de puntero sobre la imagen de XX columnas e YY
filas en la dirección de lectura (00 02 XX YY ).
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 28/62
Por lo tanto, no tiene sentido utilizar la compresión RLE excepto para datos
con diversos elementos repetidos de forma consecutiva, en imágenes particulares con
áreas grandes y uniformes. Sin embargo, la ventaja de este método es que es de fácil
implementación. Existen alternativas en las que la imagen está codificada en bloquesde píxeles, en filas o incluso en zigzag.
Codificación Huffman
El algoritmo de Huffman es un algoritmo para la construcción de códigos de
Huffmann, desarrollado por David A. Huffmann en 1952 y descrito en “A Method for
the Construction of Minimum-Redundancy Codes”.
Este algoritmo toma un alfabeto de n símbolos, junto con sus frecuencias de
aparición asociadas, y produce un código de Huffman para ese alfabeto y esas
frecuencias.
Descripción:
El algoritmo consiste en la creación de un árbol binario que tiene cada uno de
los símbolos por hoja, y construido de tal forma que siguiéndolo desde la raíz a cada
una de sus hojas se obtiene el código Huffman asociado.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 29/62
Se crean varios árboles, uno por cada uno de los símbolos del alfabeto,
consistiendo cada uno de los árboles en un nodo sin hijos, y etiquetado cada
uno con su símbolo asociado y su frecuencia de aparición.
Se toman los dos árboles de menor frecuencia, y se unen creando un nuevo
árbol. La etiqueta de la raíz será la suma de las frecuencias de las raíces de los
dos árboles que se unen, y cada uno de estos árboles será un hijo del nuevo
árbol. También se etiquetan las dos ramas del nuevo árbol: con un 0 la de la
izquierda, y con un 1 la de la derecha.
Se repite el paso 2 hasta que sólo quede un árbol.
Con este árbol se puede conocer el código asociado a un símbolo, así como
obtener el símbolo asociado a un determinado código.
Para obtener el código asociado a un símbolo se debe proceder del siguiente
modo:
1. Comenzar con un código vacío.
2. Iniciar el recorrido del árbol en la hoja asociada al símbolo.
3. Comenzar un recorrido del árbol hacia arriba.
4. Cada vez que se suba un nivel, añadir al código la etiqueta de la rama que se
ha recorrido.
5. Tras llegar a la raíz, invertir el código.
6. El resultado es el código Huffman deseado.
Para obtener un símbolo a partir de un código se debe hacer así:
1. Comenzar el recorrido del árbol en la raíz de éste.
2. Extraer el primer símbolo del código a descodificar.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 30/62
3. Descender por la rama etiquetada con ese símbolo4. Volver al paso 2 hasta
que se llegue a una hoja, que será el símbolo asociado al código.
En la práctica, casi siempre se utiliza el árbol para obtener todos los códigosde una sola vez; luego se guardan en tablas y se descarta el árbol.
Ejemplo de uso:
La tabla describe el alfabeto a codificar, junto con las frecuencias de sus
símbolos. En el gráfico se muestra el árbol construido a partir de este alfabeto
siguiendo el algoritmo descrito.
Árbol para construir el código Huffman del ejemplo
Símbolo Frecuencia A0, 15 B0, 30 C0, 20 D0, 05 E0, 15 F0, 05 G0, 10.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 31/62
Se puede ver con facilidad cuál es el código del símbolo E: subiendo por el
árbol se recorren ramas etiquetadas con 1, 1 y 0; por lo tanto, el código es 011. Para
obtener el
Código de D se recorren las ramas 0, 1, 1 y 1, por lo que el código es 1110.
La operación inversa también es fácil de realizar: dado el código 10 se
recorren desde la Raíz las ramas 1 y 0, obteniéndose el símbolo C. Para descodificar
010 se recorren las ramas 0, 1 y 0, obteniéndose el símbolo A.
Limitaciones
Para poder utilizar el algoritmo de Huffman es necesario conocer de antemano
las frecuencias de aparición de cada símbolo, y su eficiencia depende de lo próximas
a las frecuencias reales que sean las estimadas. Algunas implementaciones del
algoritmo de Huffman son adaptativas, actualizando las frecuencias de cada símbolo
conforme recorre el texto.
La eficiencia de la codificación de Huffman también depende del balance que
exista entre los hijos de cada nodo del árbol, siendo más eficiente conforme menor
sea la diferencia de frecuencias entre los dos hijos de cada nodo. Ejemplos:
• La codificación binaria es un caso particular de la codificación de Huffman
que ocurre cuando todos los símbolos del alfabeto tienen la misma frecuencia. Se
tiene pues que la codificación binaria es la más eficiente para cualquier número de
símbolos equiprobables.
• El algoritmo de Huffman aplicado sobre un alf abeto de dos símbolos
asignará siempre un 1 al primero y un 0 al segundo, independientemente de la
frecuencia de aparición de dichos símbolos.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 32/62
En este caso nunca se realiza compresión de los datos, mientras que otros
algoritmos sí podrían conseguirlo.
Una manera de resolver este problema consiste en agrupar los símbolos en palabras antes de ejecutar el algoritmo. Por ejemplo, si se tiene la cadena de longitud
64
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AA
AAAAAAAAAAAAAAB
El algoritmo de Huffman aplicado únicamente a los símbolos devuelve el
código:
1111111111111111111111111111111111111111111111111111111111111110
También de longitud 64. Sin embargo, si antes de utilizar el algoritmo, se
agrupan los símbolos en las palabras "AA", "AB" y "B" (que se codifican como 1, 01
y 00), el algoritmo devuelve la siguiente cadena:
111111111111111111111111111111101
Que tiene longitud 32, la mitad que si no se hubiera agrupado. Si observa el
árbol de Huffman, se puede comprobar que la diferencia de frecuencias entre las
ramas del árbol es menor que en el caso anterior.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 33/62
3.4.6 Codificación CBR
CBR (Constant Bit Rate)
Cuando hablamos de códecs, la codificación con tasa de bits constante implica
que la tasa de salida del codificador de los datos es constante. CBR es muy útil para
flujo de datos multimedia con canales de capacidad limitada. Sin embargo, CBR no
es la mejor opción para almacenaje ya que no asignará suficientes bits para las
secciones “complicadas” (resultantes de la degradación de la calidad) y por el
contrario gastará bits innecesarios en secciones “simples”.
Muchos esquemas de codificación, como por ejemplo, la codificación
Huffman producen códigos de longitud variable lo que dificulta el uso de un CBR.
Esto se arregla parcialmente variando la cuantificación y por tanto la calidad y se
consigue solucionar el problema por completo usando bits de relleno (padding). Otra
estrategia consiste en almacenar la tasa de bits en un buffer y liberar la información
con una tasa de bits constante. Método conocido como leacky bucket.
El proceso opuesto es el bitrate variable: VBR. El VBR aplica una
cuantificación no uniforme a diferencia del CBR, por lo que tiene en cuenta si en la
señal hay zonas con mayor o menor densidad de información y por tanto no
cuantifica toda la señal por igual.
La mayoría de codificadores de video, incluido el MPEG-2, son controlados
de acuerdo al esquema de codificación CBR (Constant Bit Rate), donde el caudal
generado por la señal de video codificada se mantiene constante a un valor prefijadocon anterioridad, mediante el ajuste dinámico del de factor de cuantificación Q. La
codificación CBR ha sido motivada hasta la fecha, debido a que las tecnologías de
comunicación, tales como la RDSI, y también las tecnologías de almacenamiento,
como los CD-ROM, sólo son capaces de trabajar a un caudal constante. Un
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 34/62
codificador CBR trabaja de la siguiente manera: los bits producidos por el codificador
son almacenados en un buffer, el cual es drenado al caudal constante deseado. El
estado de ocupación del buffer es controlado a través del factor de cuantificación Q,
el cual se selecciona en cada instante conforme al contenido o actividad de la escena,al objetivo de caudal deseado, y a aquél que minimice el retardo sufrido por el video
en dicho buffer (es decir, minimice el estado de ocupación del buffer). En
codificación CBR, la calidad de vídeo varía de acuerdo con el contenido de la
secuencia, ya que el factor de cuantificación se varía para alcanzar un caudal de salida
constante independientemente de la complejidad de la escena. El buffer introduce un
retardo en la señal de vídeo, que interesa que sea lo más mínimo posible. De este
modo, el caudal constante debe ser seleccionado acorde al tipo de contenido se la
secuencia, de forma que puedan reunirse los requisitos de la aplicación.
El esquema de codificación CBR donde el caudal generado por la señal de
vídeo codificada se mantiene constante a un nivel predeterminado, mediante el ajuste
dinámico del factor de cuantificación.
En codificación CBR, la calidad de vídeo varía de acuerdo con el contenido de
la secuencia, ya que el factor de cuantificación se varía para alcanzar el caudal de
salida constante independientemente de la complejidad de la escena.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 35/62
La figura muestra el diagrama de bloques de un codificador CBR MPEG-2.Para generar un caudal constante, el flujo de bits generado por el codificador es
introducido en un buffer, el cual es drenado al caudal constante deseado en la
aplicación. Para mantener este drenaje del buffer a un caudal constante, se debe
realizar un control sobre la cuantificación, con el objetivo de tener en cuenta las
diferentes complejidades que tendrán las escenas de una secuencia de vídeo. El
algoritmo para dicho control, es el estándar MPEG-2, recomendado por el ISO.
Básicamente, este algoritmo de control asigna una cantidad fija de bits a cada GOP
(Group Of Pictures o grupo de imágenes) en función del caudal constante deseado.
Este retardo se hace posteriormente a nivel de imagen y de macrobloque.
Posteriormente, en función de la diferencia entre los bits realmente generado y los
previamente estimados (diferencia entre el estado de ocupación del buffer estimado y
real) y de la complejidad del macrobloque, el algoritmo genera un nuevo valor de Q,
que será utilizado para el siguiente macrobloque que se codifique. El algoritmo
intenta minimizar el estado de ocupación del buffer, para minimizar el retardo
introducido en la señal de vídeo. En el estándar MPEG el valor máximo para Q es
112, cuando la cuantificación no es lineal y 62 para el caso en el que sí lo es.
Típicamente las imágenes tipo I utilizan una cuantificación lineal, y las imágenes P y
B una cuantificación no lineal.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 36/62
El retardo introducido por el buffer está en función de ocupación del mismo y
del caudal al que es drenado, es decir:
3.4.7 Codificación VBR
VBR (Variable Bit Rate)
VBR son las siglas de variable bitrate („tasa de bits variable‟). Es un término
usado en telecomunicación que se refiere a la tasa de bits utilizados en la codificación
de audio o vídeo.
La tasa de bits es la relación de bits por segundo que consume un fichero de
audio o de vídeo. Este método de compresión consigue una mayor calidad de sonido
o video para un tamaño de archivo determinado, en contraste con CBR.
Su objetivo es obtener un nivel más consistente en la calidad de videocomparado al de la codificación CBR. En la codificación VBR se deben ajustar los
parámetros de codificación para obtener un nivel de calidad deseado. El esquema de
codificación VBR más utilizado en la literatura hoy en día, es la codificación VBR en
lazo abierto (OL-VBR), en la cual el factor de cuantificación Q se mantiene constante
para toda la duración de la secuencia. Con codificación OL-VBR, una escena
compleja es codificada utilizando un mayor número de bits, de este modo, la calidad
es cuasi-constante y menos variable en el tiempo que la obtenida con la codificación
CBR.
La siguiente figura muestra el diagrama de bloques de un codificador OL-
VBR MPEG-2. En dicho esquema, el factor de cuantificación es prefijado con
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 37/62
anterioridad (parámetro de codificación) y se mantiene constante para la secuencia de
vídeo. No existe lazo de realimentación entre la salida producida y la cuantificación.
Con codificación OL-VBR, una escena compleja se codifica utilizando un
mayor número de bits; de este modo, la calidad es más consistente que para el caso
CBR. La salida de caudal es variable y dependerá del contenido y complejidad de la
secuencia, así como del patrón de codificación del estándar MPEG-2, se debeseleccionar apropiadamente el factor Q.
A la salida del codificador, en la mayoría de las aplicaciones con OL-VBR
MPEG-2, se sitúa un buffer para absorber las variaciones del caudal producidas en la
codificación, dentro de una imagen. De esta manera, el caudal permanece constante
dentro del período de una imagen (es decir, 33 ms para 30 fps y 41.6 ms para 24 fps),
y varía de imagen a imagen.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 38/62
Tasa de bits variable en sonido
Por ejemplo, si en una canción hay un fragmento en el que hay silencio, de
poco sirve otorgar una cantidad grande de bits; lo que se estaría haciendo es aumentarinnecesariamente el tamaño del archivo final. Por otra parte, en fragmentos de una
canción donde la complejidad del sonido sea elevada, se otorga una tasa de bits
mayores, porque de lo contrario puede que la tasa de bits no llegue a ser suficiente
para que se produzca una audición correcta.
Así pues, y resumiendo, lo que hace el VBR es otorgar la tasa de
bits necesaria a cada parte del fichero, ya sea de audio o de vídeo, consiguiendo una
calidad mayor en ficheros de un tamaño reducido.
Si los archivos son codificados en VBR, el codificador asigna densidades de
bits (tasa de bits) que varían según la complejidad de la onda de audio a lo largo del
archivo. Para las partes con pocos instrumentos o sin sonido alguno asigna
densidades de bits menores, y para las partes con muchos tipos de sonidos asigna
densidades mayores. Por ende, para un mismo criterio de compresión en VBR, dos
archivos de igual duración pueden resultar ser de tamaños muy dispares, ya que la
compresión en ambos difiere.
Tasa de bits variable en video
Lo mismo se puede aplicar a los vídeos. Hay escenas en las que la cámara está
fija, hay poca luz y poco movimiento. Y hay otras escenas donde la cámara se mueve,
hay disparos, explosiones, etc. Lo que haría el VBR en este caso es ahorrar tasa de bits de la escena lenta para aplicarlo después a la escena rápida y conseguir así que
esta última se vea lo mejor posible.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 39/62
3.4.7 Imagen I, P y B
Las imágenes I, P y B son las que resultan de la compresión de la señal
de vídeo en los estándares ITU-T o MPEG. Estas imágenes atienden a los siguientestipos:
Las imágenes I: Son las que se codifican por sí mismas.
Las imágenes P: Son las predichas por extrapolación.
Las imágenes B: Son las predichas por interpolación.
En los estándares de compresión de video, como ITU-T o MPEG, se utilizan
estos tipos de imágenes para comprimir los datos. De hecho, en lugar de codificar
cada imagen que compone el video, uno puede codificar una imagen totalmente y
después las diferencias entre esta imagen y las imágenes * siguientes, explotando así
la redundancia en las imágenes que siguen.
Por ejemplo, en una secuencia de video con un segundo plano fijo, podemos
representar solo las partes que se mueven, para no codificar cada vez el segundo
plano que no cambia y ganar así mucho en capacidades de compresión.
En estos tipos de algoritmos, se codifican algunas imágenes por sí mismas y
se predicen las otras. Las imágenes son divididas en macrobloques (en general de 16
X 16 píxeles) y siguen el concepto de compensación de movimientos para la
predicción: por cada macrobloque de una imagen que queremos codificar a partir deuna imagen de referencia (que puede ser una anterior o una posterior), se busca donde
está en la imagen de referencia, y se define un vector de movimiento que va a dar el
movimiento relativo entre los dos macrobloques que se corresponden.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 40/62
Por supuesto, entre dos imágenes, no se pueden encontrar siempre
macrobloques todos completamente idénticos y se utiliza una técnica de comparación
entre los macrobloques para buscar los que son los más correlacionados entre ellos.
Se puede predecir una imagen a partir de la imagen de referencia y los
vectores de movimiento, así obtenemos la diferencia entre ésta imagen predicha y la
imagen original que queremos codificar.
Entonces, solo se puede enviar las imágenes codificadas por sí mismas, las
matrices de vectores de movimiento, y las diferencias entre las imágenes de
referencia y las otras para codificar todo el vídeo.
Las imágenes I (INTRA): Pueden ser codificadas por el formato JPEG además de
otros, se utilizan para decodificar las otras imágenes que componen el vídeo y pueden
ser utilizadas como puntos de acceso aleatorio para empezar a decodificar los videos
a partir de cualquier momento. En general, la codificación de estas imágenes ocupa
más espacio que las otras.
Es una imagen codificada sin referencia a ninguna imagen anterior, sino
referida exclusivamente a ella misma.
Puede ser generada por el codificador para crear un punto de acceso aleatorio,
es decir, un punto que permita al decodificador empezar la decodificación
adecuadamente en referencia a esa marca (localización de imagen).
Típicamente, requieren mayor número de bits para su codificación que el otrotipo de imágenes (B, P).
Estas imágenes son frecuentemente utilizadas como punto de referencia para
la descodificación de otras imágenes. Períodos de refresco de
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 41/62
aproximadamente medio segundo se usan típicamente en aplicaciones de
'broadcast' de televisión digital y en almacenamiento en DVD. Por otra parte,
períodos de refresco superiores al anterior pueden ser utilizados en medios
como sistemas de videoconferencia, donde es muy habitual el envío de lasimágenes I (intra).
La codificación de las imágenes I es muy parecida a la que se utiliza en JPEG.
La diferencia radica en las tablas de cuantificación y en los procedimientos
que se utilizan para realizar cambios sobre las escalas de cuantificación.
Las imágenes P (Predicted): Son las imágenes predichas con referencia a unaimagen que puede ser de tipo I o P anterior en el tiempo, así que necesitan la
decodificación de la imagen de referencia antes de poder ser decodificadas.
La codificación de las imágenes P es algo más compleja que las imágenes
intra-trama, pues debe realizarse la estimación de movimiento y decidir cuál es la
forma más eficiente de codificar un macrobloque en función de los resultados
obtenidos. En este apartado definiremos los distintos tipos de macrobloques que
puede producirse en la codificación de las imágenes P. Una de las primeras
peculiaridades de las imágenes P es que puede saltarse la codificación de
algunos macrobloques (skipped macroblock). Esto ocurre cuando
el procesador considera que no es necesario codificar un macrobloque, puesto que la
información que contiene puede aproximarse con suficiente precisión.
Además de los macrobloques skipped es posible tener 7 tipos adicionales que
se denotan como predmc, pred-c, pred-m, intra-d, pred-mcq, pred-cq e intra-q. Lasabreviaturas que se utilizan para identificar los posibles tipos de macrobloque
corresponden a:
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 42/62
Pred: Macrobloque codificado utilizando predicción. La codificación no es intra-
trama.
m: Macrobloque codificado utilizando compensación de movimiento forward.Se transmite el vector de movimiento asociado.
c: Como mínimo se transmite la información de error asociada a uno de los
bloques que forman el macrobloque.
d: Se utiliza el cuantificador por defecto.
q: Se realiza un cambio en la escala del cuantificador.
skipped: Macrobloques que no son transmitidos.
La misión del codificador es elegir entre las distintas posibilidades de
codificar un macrobloque, aquella que proporcione la mejor opción. Generalmente,
las decisiones no son evidentes y deben probarse varias posibilidades antes de llegar a
una decisión. Las matrices de cuantificación utilizadas en el caso de realizar
codificación mediante predicción tienen un paso de cuantificación uniforme para
todos los coeficientes. Esto es debido a que el contenido frecuencial de las señales de
error no muestra ninguna preferencia para concentrar su energía en
unas frecuencias particulares y en principio todos los coeficientes tienen la misma
importancia en la reconstrucción de las imágenes.
Las imágenes B (Bi-predicted / Bi-directional): Son las imágenes predichas con
referencia a dos imágenes que pueden ser de tipo I o P, una anterior y una posterior,
así que necesitan la decodificación de las dos imágenes de referencia así como
la reordenación de las imágenes para poder ser descodificadas.
Las imágenes B requieren decodificación previa de otras imágenes de la
secuencia para ser descodificadas correctamente.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 43/62
Pueden contener datos de imagen cómo vectores de desplazamiento, o
también combinaciones de los dos elementos.
Incluyen algunos modos de predicción que obtienen la predicción de una
región en movimiento (por ejemplo, un macroblock o una región de área
menor) llevando a cabo un promediado de las predicciones obtenidas usando
dos regiones de referencia previamente descodificadas.
En estándares de codificación más antiguos (cómo MPEG-2), las imágenes B
no se utilizan nunca cómo referencias para la predicción de otras imágenes.
Como resultado, una codificación con menos calidad (resultado de lautilización de menos bits) puede ser utilizada en las imágenes B, ya que la
pérdida de detalle no perjudicará la calidad de la predicción de las imágenes
subsiguientes.
En H.264, hay la opción de utilizarlas o no cómo referencias para la
decodificación de otras imágenes (a discreción del codificador).
En estándares de codificación más antiguos (cómo MPEG-2), se utilizan
exactamente dos imágenes previamente codificadas cómo referencias durante
la codificación, y solo se requiere una de esas dos imágenes para preceder la
imagen B en el monitor y la otra para seguirla.
En H.264, se puede utilizar una, dos o más imágenes previamente
descodificadas cómo referencias durante la codificación, y pueden tener
cualquier orden de reproducción arbitrario, relativo a la imagen/es utilizadas
para su predicción. Típicamente, se requieren menos bits para codificar una
imagen B que con las I o P.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 44/62
Algunos macrobloques de las imágenes P o B pueden ser codificados por sí
mismos para refrescarlos y para evitar errores demasiado importantes que se pueden
producir si hay muchas imágenes predichas entre la imagen I anterior y la imagen
actual.
Secuencia de imágenes: Los vectores inferiores indican las referencias
predictivas que hay entre ellas. El ejemplo muestra una ordenación IBBPBBPBBI, ya
que permite establecer lazos de predicción bastante usuales.
3.4.8 Video entrelazado
3.4.9 Niveles y Perfiles de MPEG-2
La norma MPEG-2, con sus diferentes técnicas de compresión y codificación
suele considerarse como un conjunto de instrumentos o herramientas. De este
conjunto puede extraerse los instrumentos necesarios para casa aplicacióndeterminada. De la gama completa de instrumentos se ha definido cinco subconjuntos
a los que se denomina Perfiles. Éstos tiene una complejidad progresiva, y cada uno de
ellos añade instrumentos adicionales al Perfil precedente. Quiere esto decir que cada
perfil adicional puede ejercer más funciones que el anterior, pero también necesitará
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 45/62
más área de silicio y por consiguiente su precio será más elevado para el usuario. La
entrada de todos los sistemas es vídeo en componentes, pero de los cinco perfiles, los
cuatro primeros codifican la señal de diferencia de color en líneas secuenciales, como
el SECAM, es decir, R-Y en una línea, B-Y en la siguiente y así sucesivamente.
El perfil simple es el que tiene menos instrumentos. Utiliza compensación de
movimiento y transformada de coseno discreta.
El Perfil Principal tiene todos los instrumentos del Perfil Simple y además la
predicción bidireccional. Para la misma velocidad binaria dará una calidad de imagen
mejor que el Perfil simple. Un decodificador de perfil principal decodificará
imágenes codificadas de acuerdo a los perfiles principal y simple. Este tipo de
compatibilidad con perfiles de menos complejidad se aplica a todos los sucesivos
perfiles.
El perfil jerárquico o de capas también conocido como SNR Scalability
Profile, en donde SNR representa las iniciales de Signal-to-Noise Radio (relación
señal/ruido). Le llamaremos perfiles de jerarquía n RSR. Tiene todos los instrumentos
del perfil principal y además la capacidad de separar los datos en dos partes, que
pueden considerarse como una señal de base y una señal de realce o mejora. La
primera es una versión de la imagen con un relación señal/ruido reducida, pero que
solo necesita una fracción de la velocidad binaria de la señal completa. Cuando se
codifican conjuntamente las señales de base y de realce, aumenta la relación
señal/ruido de la imagen hasta el máximo posible y se obtiene la misma calidad que
con el Perfil Principal (para la misma velocidad binaria). Cada una de las señales
utiliza una parte de la velocidad binaria total, y ambas tienen la misma resoluciónespacial. Esta posibilidad de dividir los datos no exige una mayor velocidad binaria, y
tiene interesantes aplicaciones. La señal de base puede hacerse más resistente a
errores que la señal de realce, de forma que cuando exista la posibilidad de perder
información, esta se produzca en la señal de realce y no en la señal de base. Esto se
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 46/62
pude conseguir, por ejemplo, en la transmisión de vídeo sobre redes ATM, donde la
información puede enviarse con dos niveles diferentes de prioridad. Además, ene le
sado de que no se pueda transmitir el flujo con la velocidad binaria, podría
transmitirse una versión de menor velocidad.
El Perfil de Jerarquía Espacial (spatial Scalable Profile, en la terminología del
MPEG-2), tiene todos los instrumentos del anterior más un segundo método para
dividir los datos. En este perfil, la imagen codificada puede dividirse de acuerdo con
la resolución (número de elementos por línea que pueden distinguirse). Una parte de
la señal dividida puede ser decodificada para dar una imagen con menor resolución
que la correspondiente a la imagen original. Cuando se decodifican conjuntamente las
partes en que se ha dividido la señal se obtiene una imagen que tiene la misma
resolución que la original. Aquí también tenemos una señal de base y una señal de
realce, cada una de la cuales utiliza una parte de la velocidad binaria total. Este perfil,
a diferencia del anterior, tiene el inconveniente de que para dar la misma calidad que
el perfil Principal, necesita una velocidad binaria superior en un 10 a 15%. Como en
el Perfil anterior, la capa de base puede hacerse más resistente y difundir una señal de
menor resolución que cubra mayor superficie, en condiciones de recepción más
deficientes.
El Perfil Alto consta de todos los instrumentos del Perfil anterior más la
capacidad para codificar señales de diferencia de color en líneas simultáneas. Aunque
a velocidades binarias bajas la calidad se resiente, a velocidades altas, normales en
aplicaciones de este Perfil, la posibilidad de codificación de diferencias de color en
líneas simultáneas supone una mejora de calidad. Este perfil es el sistema de más
complejidad y mejores prestaciones, diseñado para las aplicaciones más exigentes enlas que la velocidad binaria no constituye un problema.
Conjuntamente con los cinco perfiles, se han definido cuatro Niveles que
corresponden al formato de imagen utilizado a la entrada. Para el nivel bajo el
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 47/62
formato de entrada es igual a 352 muestras por 288 líneas. Al nivel principal
corresponde el formato de imagen de la recomendación 601 (720 muestras por 576
líneas). El Nivel Alto - 1440 al que corresponde una entrada de televisión de alta
definición con 1440 muestras por 1152 líneas. El cuarto nivel es el Nivel Alto al quecorresponde una entrada de alta definición con 1920 muestras por 1152 líneas.
Los decodificadores para cualquier determinado nivel, pueden también
utilizarse para los niveles inferiores. Sin embargo, no podrán decodificar los niveles
superiores a menos que, como parte de estos, exista una capa de resolución más baja.
No todas las combinaciones de niveles y perfiles resultan útiles o necesarias y hasta la
fecha sólo se ha demostrado interés por once de las 20 posibles combinaciones. Se les
llama puntos de conformidad del MPEG-2 y cada uno puede operarse una gama de
velocidades binarias.
En la siguiente figura se han representado los perfiles y niveles del MPEG-2
con indicación de sus características más sobresalientes. Los once cuadros en los que
se ha señalado la velocidad binaria son los puntos de conformidad. Los valores
de pixels (o muestras) y líneas se refieren al área activa de la imagen. Los valores de
las líneas corresponden a los sistemas de 25 Hz de frecuencia de trama. Para el caso
de 30 Hz, el número de líneas sería 240 para el Nivel Bajo, 480 para el Principal y
1080 para los niveles Alto-1440 y Alto. Los sistemas MPEG-2 permiten exploración
progresiva o entrelazada a frecuencias de 50 ó 60 Hz. En cada punto de conformidad
existe un límite máximo de muestras de luminancia.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 48/62
Dentro de los perfiles, una larga variación de desempeños es posible. Por otra
parte los niveles son un conjunto de derivaciones impuestas para los perfiles. La
combinación de un perfil y un nivel produce una arquitectura muy bien definida para
una cadena particular de bit. Los perfile limitan la sintaxis (por ejemplo los
algoritmos), mientras los niveles limitan los parámetros (velocidad de muestreo,
dimensiones de las tramas, velocidad binaria codificada, etc.).
Niveles: proveen un rango de cualidades potenciales, definen los máximos y
mínimos para la resolución de la imagen, muestras Y por segundo (luminancia), el
número de capas de audio y vídeo soportados por los perfiles escalados, y la máxima
velocidad binaria por perfil. A continuación una explicación resumida de cada uno de
ellos:
Nivel Bajo: tiene un formato de entrada el cual es un cuarto de la imagen
definida en el registro ITU-R 601.
Nivel Principal: Tiene una trama de entrada completa definida en el registro
ITU-R 601.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 49/62
Nivel Alto 1440: Tiene un formato de alta definición con 1440 muestras por
línea.
Nivel Alto: Tiene un formato de alta definición con 1920 muestras por línea(para aplicaciones sin cualquier limitación en velocidades de datos).
Máximas velocidades de datos para MPEG 2 y combinaciones recomendadas
para perfiles y niveles.
MPEG- 2 se puede utilizar en un vasto rango de aplicaciones, requiriendo
diferentes grados de complejidad y desempeño.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 50/62
3.4.10 Modos escalables
Actualmente hay cuatro modos escalables en MPEG 2. Estos modos rompen
el vídeo MPEG 2 en diferentes capas (base, media, y alta) para propósitos de
proritización de datos de vídeo.
Otro propósito de la escalabilidad es para divisiones complejas. Por ejemplo,
en HDTV, la alta prioridad de las cadenas binarias (720x480) puede ser descodificada
bajo condiciones de ruido donde la baja prioridad (1440x960) no pueda.
A continuación una breve explicación de los modos escalables:
Escalabilidad espacial: Este método de dominio espacial codifica la capa
base a una dimensión de muestro bajo (por ejemplo: resolución) que las capassuperiores. Las capas bajas (base) reconstruidas del muestro son usadas como
predicción de las capas superiores.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 51/62
Particionamiento de datos: es un método de dominio de frecuencia que
rompe los bloques de 64 coeficientes cuantizados de la transformada dentro de
dos cadenas binarias. La primera, cadena de alta prioridad contiene los
coeficientes más críticos de las frecuencias bajas e información (tales comovalores DC, vectores, etc.), la segunda, cadena binaria de baja prioridad lleva
datos AC de las altas frecuencias.
Escalabilidad SNR: es un método de dominio espacial donde los canales son
codificados a velocidades de muestreo idénticas, pero con diferentes calidades
de imágenes. La cadena binaria de alta prioridad contiene datos de la capa
base que pueden ser añadidos a la capa de refinamiento de baja prioridad paraconstruir una imagen de alta calidad.
Escalabilidad temporal: Un método de dominio temporal usado por ejemplo
en vídeo estereoscópico. La primera, la cadena binaria de alta prioridad
codifica el vídeo a una baja velocidad de tramas, y las tramas intermedias
pueden ser codificadas en una segunda cadena binaria usando la
reconstrucción de la primera cadena binaria como predicción.
Por ejemplo en una visión estereoscópica, el canal de vídeo izquierdo puede
ser predicho del canal derecho.
Los perfiles escalables (código jerárquico) están previstos para operaciones
posteriores y permitirán transmitir una imagen básica (base layer) en términos de
resolución espacial (spatially scalable profile) o de cuantificación (SNR scalable
profile), así como información suplementaria independiente (enhanced layer) que permite mejorar sus características, por ejemplo para transmitir la misma emisión en
definición estándar y HD (High Definition), o permitir una recepción con calidad
aceptable en caso de recepción difícil y de calidad óptima en buenas condiciones (por
ejemplo, para la televisión digital terrestre).
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 52/62
La figura siguiente muestra un codificador MPEG convencional, con
coeficientes de cuantificación de elevado peso; que al codificar una imagen la genera
con una moderada razón señal a ruido. Después esta imagen al ser decodificada ysustraída de la imagen original pixel a pixel da como resultado una imagen de "ruido
de cuantificación". Esta imagen puede ser comprimida y transmitida como una
imagen de ayuda. Un simple decodificador solo decodifica la imagen principal, con
un flujo de bit con ruido de cuantificación, pero un decodificador más complejo
puede decodificar ambas imágenes con diferentes flujos de bits y combinarlos para
producir una imagen con bajo ruido. Este es el principio del perfil SNR escalable.
Como otra alternativa, la figura inferior muestra que por solo codificar las
frecuencias espaciales bajas en imágenes HDTV, parte del flujo de bits puede ser
reconstruido por un receptor con codificador para SDTV (Standard Definition
TeleVision). Si una imagen de baja definición es localmente decodificada y sustraída
de la imagen original, se produce entonces una imagen de "realce de definición", esta
imagen puede ser codificada en una señal de ayuda.
Un decodificador de forma conveniente podría combinar las señales
principales y de ayuda para recrear la imagen HDTV. Este es el principio del perfil de
escalabilidad espacial.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 53/62
El perfil high (alto) soporta tanto el SNR y la escalabilidad espacial como
también la opción de muestreado 4:2:2. El perfil 4:2:2 se ha desarrollado para proveer
compatibilidad con los equipos de producción digital de televisión existentes. Este
perfil admite trabajar con 4:2:2 sin requerir una complejidad adicional si se usa en el
perfil high. Por ejemplo, un decodificador HP@ML debe soportar escalabilidad SNR
que no es requerida en la producción de televisión digital. El perfil 4:2:2 tiene la
misma libertad de escoger su estructura de GOP como en otros perfiles, pero en la
práctica este usa comúnmente GOPs cortos de edición sencilla. La operación 4:2:2
requiere una mayor velocidad en la transmisión del bit que una operación 4:2:0, y el
uso de pequeños GOPs requiere también de mayores velocidades de transferencia de
bits para proporcionar calidad en sus imágenes.
El nivel low (bajo) corresponde a la resolución SIF utilizada en el MPEG-1.
El nivel main (principal) corresponde a la resolución 4:2:0 "normal" (de hasta
720 pixeles x 576 líneas).
El nivel high-1440 (alto-1440) está destinado a la HDTV (de hasta 1440
pixeles x 1152 líneas).
El nivel high (alto) está optimizado para la HDTV (de hasta 1920 pixeles x1152 líneas).
Según el compromiso de calidad/flujo de bits perseguido y la naturaleza de las
imágenes, el flujo de bits estará comprendido entre los 4 Mbits/s (calidad equivalente
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 54/62
a la de una imagen codificada en PAL o SECAM) y los 9 Mbits/s (calidad próxima a
la de una imagen de estudio CC1R-601).
Todo el proceso de codificación de las imágenes animadas descrito en elcapítulo anterior para MPEG-1 se aplica a MPEG-2 (MP@ML), especialmente la
jerarquía de capas (desde el bloque hasta la secuencia de la Figura siguiente).
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 55/62
La principal novedad con respecto a MEPG-1, además de los perfiles y
niveles, provienen del tratamiento de las imágenes entrelazadas.
3.5 Descripción del proceso de codificación MPEG-2 / MPEG-3
Codificación MPEG-2
MPEG-2 es para la codificación genérica de imágenes en movimiento y el
audio asociado que crea un flujo de vídeo mediante tres tipos de datos de marco
(cuadros intra, cuadros posteriores predecibles y cuadros predecibles bi-direccionales)
arreglados en un orden específico llamado “La estructura GOP”(GOP = Group Of
Pictures o grupo de imágenes).
Generalmente el material originado es una secuencia de vídeo a una
resolución de píxeles pre-fijada a 25 o 29,97 cuadros por segundo con sonido.
MPEG-2 admite flujos de vídeo escaneado de manera tanto progresiva como
entrelazada. En flujos de escaneo progresivo, la unidad básica de codificación es un
campo. En la discusión de abajo, los términos genéricos “cuadro” e “imagen” se
refieren tanto a los campos o cuadros, dependiendo del tipo de flujo.
El flujo MPEG-2 está hecho de una serie de cuadros de imágenes codificadas.
Las tres maneras de codificar una imagen son: intra-codificado (I cuadro), predecible
posterior (P cuadro) y predecible bi-direccional (B cuadro).
La imagen del vídeo es separada en dos partes: luminancia (Y) y croma(también llamada señales de diferencia de color U y V) a su vez, son divididos en
“Macro- bloques” los cuales son la unidad básica dentro de una imagen. Cada macro-
bloque es dividido en cuatro 8x8 bloques de luminancia. El número de bloques de
croma 8x8's depende del formato de color de la fuente. Por ejemplo en el formato
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 56/62
común 4:2:0 hay un bloque de croma por macro-bloque por cada canal haciendo un
total de seis bloques por macro-bloque.
En el caso de los cuadros I, la verdadera información de imagen pasada através del proceso codificador descrito abajo, los cuadros P y B primero son sujetos a
un proceso de “compensación de movimiento”, en el cual son co-relacionados con la
imagen previa (y en el caso del cuadro B, la siguiente). Cada macro-bloque en la
imagen P o B es entonces asociada con un área en la imagen previa o siguiente que
este bien correlacionada con alguna de éstas. El "vector de movimiento" que mapea el
macro-bloque con su área correlacionada es codificado, y entonces la diferencia entre
las dos áreas es pasada a través del proceso de codificación descrito abajo.
Cada bloque es procesado con una transformada coseno discreta (DCT) 8x8 .
El coeficiente DCT resultante es entonces cuantificado de acuerdo a un esquema
predefinido, reordenado a una máxima probabilidad de una larga hilera de ceros, y
codificado. Finalmente, se aplica un algoritmo de codificación Huffman de tabla fija.
Los cuadros I codifican redundancia espacial, mientras que los cuadros B y P
codifican redundancia temporal. Debido a que los marcos adyacentes son a menudo
bien co-relacionados, los cuadros P pueden ser del 10% del tamaño de un cuadro I, y
el cuadro B al 2% de su tamaño.
La secuencia de diferentes tipos de marcos es llamada, “estructura de grupos
de imágenes” (GOP). Hay muchas estructuras posibles pero una común es la de 15
marcos de largo, y tiene la secuencia I_BB_P_BB_P_BB_P_BB_P_BB_. Una
secuencia similar de 12 marcos es también común. La relación de cuadros I, P y B en“la estructura GOP es determinado por la naturaleza del flujo de vídeo y el ancho de
banda que constriñe el flujo, además el tiempo de codificación puede ser un asunto
importante. Esto es particularmente cierto en las transmisiones en vivo y en
ambientes de tiempo real con Fuentes de cómputo limitados, un flujo que contenga
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 57/62
varios cuadros B puede tomar tres veces más tiempo para codificar que un archivo
que sólo contenga cuadros I.
La tasa de bit de salida de un codificador MPEG-2 puede ser constante (CBR)o variable (VBR), con un máximo determinado por el reproductor – por ejemplo el
máximo posible en un DVD de película es de 10.4 Mbit/s. Para lograr una tasa de bits
constante el grado de cuantificación es alterado para lograr la tasa de bits requerida.
Incrementar la cuantificación hace visible un defecto cuando el vídeo es
descodificado, Generalmente en la forma de “amosaicamiento”, donde las
discontinuidades en los filos de los macro-bloques se hace más visible como
reducción de la tasa de bits.
3.6 Multiplexación
En telecomunicación, la multiplexación es la combinación de dos o
más canales de información en un solo medio de transmisión usando un dispositivo
llamado multiplexor. El proceso inverso se conoce como demultiplexación. Un
concepto muy similar es el de control de acceso al medio.
Existen muchas estrategias de multiplexación según el protocolo de
comunicación empleado, que puede combinarlas para alcanzar el uso más eficiente;
los más utilizados son:
TDM – Multiplexación por división de tiempo:
La multiplexación por división de tiempo (Time Division MultipleAccess o TDMA) es una técnica que permite la transmisión de señales digitales y
cuya idea consiste en ocupar un canal (normalmente de gran capacidad) de
transmisión a partir de distintas fuentes, de esta manera se logra un mejor
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 58/62
aprovechamiento del medio de transmisión. El Acceso múltiple por división de
tiempo (TDMA) es una de las técnicas de TDM más difundidas.
La multiplexación por división de tiempo (MDT) o (TDM), del inglés TimeDivision Multiplexing, es el tipo de multiplexación más utilizado en la actualidad,
especialmente en los sistemas de transmisión digitales. En ella, el ancho de banda
total del medio de transmisión es asignado a cada canal durante una fracción del
tiempo total (intervalo de tiempo).
En la figura siguiente se representa, esquematizada de forma muy simple, un
conjunto multiplexor-demultiplexor para ilustrar como se realiza la multiplexación-
desmultiplexación por división de tiempo.
En este circuito, las entradas de seis canales llegan a los denominados
interruptores de canal, los cuales se cierran de forma secuencial, controlados por una
señal de reloj, de manera que cada canal es conectado al medio de transmisión
durante un tiempo determinado por la duración de los impulsos de reloj.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 59/62
En el extremo distante, el desmultiplexor realiza la función inversa, esto es,
conecta el medio de transmisión, secuencialmente, con la salida de cada uno de los
seis canales mediante interruptores controlados por el reloj del demultiplexor. Este
reloj del extremo receptor funciona de forma sincronizada con el del multiplexor delextremo emisor mediante señales de temporización que son transmitidas a través del
propio medio de transmisión o por un camino.
FDM – Multiplexación por división de frecuencia:
La multiplexación por división de frecuencia (MDF) o (FDM), del
inglés Frequency Division Multiplexing, es un tipo de multiplexación utilizadageneralmente en sistemas de transmisión analógicos. La forma de funcionamiento es
la siguiente: se convierte cada fuente de varias que originalmente ocupaban el mismo
espectro de frecuencias, a una banda distinta de frecuencias, y se transmite en forma
simultánea por un solo medio de transmisión. Así se pueden transmitir muchos
canales de banda relativamente angosta por un solo sistema de transmisión de banda
ancha.
El FDM es un esquema análogo de multiplexado; la información que entra a
un sistema FDM es analógica y permanece analógica durante toda su transmisión. Un
ejemplo de FDM es la banda comercial de AM, que ocupa un espectro de frecuencias
de 535 a 1605 kHz. Si se transmitiera el audio de cada estación con el espectro
original de frecuencias, sería imposible separar una estación de las demás. En lugar
de ello, cada estación modula por amplitud una frecuencia distinta de portadora, y
produce una señal de doble banda lateral de 10KHz.
Hay muchas aplicaciones de FDM, por ejemplo, la FM comercial y las
emisoras de televisión, así como los sistemas de telecomunicaciones de alto volumen.
Dentro de cualquiera de las bandas de transmisión comercial, las transmisiones de
cada estación son independientes de las demás.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 60/62
Una variante de MDF es la utilizada en fibra óptica, donde se multiplexan
señales, que pueden ser analógicas o digitales, y se transmiten mediante portadoras
ópticas de diferente longitud de onda, dando lugar a la denominada multiplexación por división de longitud de onda, o WDM del inglés Wavelength Division
Multiplexing.
En la Figura siguiente se representa, de forma muy esquematizada, un
conjunto multiplexor -demultiplexor por división de frecuencia para tres canales, cada
uno de ellos con el ancho de banda típico del canal telefónico analógico (0,3 a
3,4 kHz).
El acceso múltiple por división de frecuencia (Frequency Division Multiple
Access o FDMA, del inglés) es una técnica de multiplexación usada en múltiples
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 61/62
protocolos de comunicaciones, tanto digitales como analógicos, principalmente de
radiofrecuencia, y entre ellos en los teléfonos móviles de redesGSM.
En FDMA, el acceso al medio se realiza dividiendo el espectro disponible encanales, que corresponden a distintos rangos de frecuencia, asignando estos canales a
los distintos usuarios y comunicaciones a realizar, sin interferirse entre sí. Los
usuarios pueden compartir el acceso a estos distintos canales por diferentes métodos
como TDMA, CDMA o SDMA, siendo estos protocolos usados indistintamente en
los diferentes niveles del modelo OSI.
En algunos sistemas, como GSM, el FDMA se complementa con un
mecanismo de cambio de canal según las necesidades de la red lo precisen, conocido
en inglés como frequency hopping o "saltos en frecuencia".
Características:
Tecnología muy experimentada y fácil de implementar.
Gestión de recursos rígida y poco apta para flujos de tránsito
variable.
Requiere duplexor de antena para transmisión dúplex.
Se asignan canales individuales a cada usuario.
Los canales son asignados de acuerdo a la demanda.
Normalmente FDMA se combina con multiplexing FDD.
DCM – Multiplexación por división código:
La multiplexación por división de código, acceso múltiple por división de
código o CDMA (del inglés Code Division Multiple Access) es un término genérico
para varios métodos de multiplexación o control de acceso al medio basados en la
tecnología de espectro expandido.
7/22/2019 Funcionamiento Del MPEG
http://slidepdf.com/reader/full/funcionamiento-del-mpeg 62/62
La traducción del inglés spread spectrum se hace con distintos adjetivos según
las fuentes; pueden emplearse indistintamente espectro ensanchado, expandido,
difuso o disperso para referirse en todos los casos al mismo concepto.
Habitualmente se emplea en comunicaciones
inalámbricas (por radiofrecuencia), aunque también puede usarse en sistemas de fibra
óptica o de cable.