[Hands_Bourret_Bayart_2005]

Video QoS enhancement using perceptual quality metrics

Resumen:

Analizan la QoS (Quality of Service) desde la perspectiva del usuario, en particular de la calidad perceptual del video de banda ancha. Para ello utilizan una métrica NR desarrollada por BT (British Telecom) que explican por encima, el resto del paper hablan de la QoS y como la métrica puede ayudar y se integra en un mecanismo de control.

El paper introduce un método para optimizar la calidad y reparto de video de banda ancha. El método se basa en el uso de una métrica objetiva de la calidad perceptual.

Los modelos objetivos de calidad perceptual de video son algoritmos computacionales que procesan ficheros o entradas de video y generan como salida una predicción MOS, un Predicted Mean Opinion Scores (MOSp). En 2003 el grupo de test de la VQEG identificó modelos objetivos que eran suficientemente precisos para merecer su estandarización y así lo propuso a la ITU que lo reflejó en [9]. El resultado proporciona una guia de cómo medir la calidad de las secuencias de video MPEG-2 utilizando una métrica Full-Reference.

El uso de métricas full-reference normalmente se hace en tests de rendimiento de laboratorio de servicios de video, aplicaciones o equipos. Tienden a no ser tiempo-real y requieren acceso a un original de gran calidad, idealmente no degradado y también al video procesado.

La métrica utilizada, NR, utiliza el conocimiento del sistema de vídeo utilizado o monitorizado para calcular el MOSp. Una vez conocido el algoritmo de compresión se activan una serie de detectores que se ejecutan en paralelo cuya entrada es el video procesado. Los detectores están especializados en detectar la presencia e intensidad de artefactos conocidos para el modelo de codificación /compresión y trasmisión utilizado. La gráfica muestra el sistema. La métrica está descrita sólo de manera superficial en el paper.

Detección de la actividad temporal. Mide la media de la actividad temporal presente, midiendo en el tiempo el númeor de pixels que cambian de un frame a otro. De esto salen tres medidas relevantes (en el paper explican un poco más cada una y su porqué). Una, la cantidad de ruido blanco presente en la imagen, tanto espacial como temporalmente. Dos, la variación de actividad temporal en la secuencia de video, donde se detecta la cantidad de refresco cíclico que se produce en cada GOP (Group of Picture) de la estructura MPEG. Y tercera, determinar el frame rate y detectar el número de frames perdidos.

Blockiness. Se puede medir comparando el valor de los pixeles centrales del bloque con sus bordes entre bloques adyacentes. Los I-frames necesitan más ancho de banda para ser transmitidos, por lo que se comprimen más, por lo que presentan más blockiness que lso P Y B. Como resultado el nivel de blockines a lo largo del tiempo se incrementa ciclicamente teniendo picos en los I-frames. Es una medida útil para indicar el nivel de compresión con que fue codificada la secuencia.

Características geométricas artificiales. Los errores de transmisión o de bitstream vana tener impacto en las zonas de la pantalla que cubre los elementos estructurales del MPEG, desde los pixel blocs a los GOP (Group of Pixels). El modelo tracea la imagen codificada en busca de lineas rectas que tengan estas características (que cubran elementos completos).

DCT inversa para estimar el número de coeficientes. El PSNR entre referencia y procesada puede ser estimado por el número de pasos de cuantización utilizados para simplificar los coeficientes DCT [11]. Utilizan esta técnica para estimar el PSNR. Por si solo no es una medida fiable pero es un parámetro importante si se combina con otras.

Agregación temporal. El HVS no tiene una resolución temporal tan fina como para realizar las mediciones frame a frame, por lo que realizan una agregación (media) temporal de los indicadores de las fases anteriores para cada 12 frames.

Función de integración. Se realiza pooling sobre los parámetros para obtener un número único indicativo de la calidad visual. El pooling se realiza mediante una función de integracion que utiliza métodos de regresión estadísticos de forma que los parametros de peso se ajusten de tal forma que se produza la máxima correlación del modelo con los indices subjetivos seleccionados. Pero no dice nada de como ni cuales.

El modelos se ha testead con la base de datos de la VQEG Phase I 625-line. El material usado estaba codificado con H.263 y MPEG-2 usando bit rates desde los 768 kbits/s a los 50 Mb/s. Utilizan un conjunto de secuencias de test para ajustar los parámetros de la función de integración estadísticamente. Luego utilizan esta función con otro conjunto de secuencias para calcular el rendimiento.

Bibliografía disponible:

[]

[]