[Cavallaro_Winkler_2004]

Segmentation-Driven perceptual Quality Metrics

Resumen:

Utilizan una métrica full-reference (la PDM de Winkler [9] y otra métrica No-Reference (de la cual solo dicen que pertenece a un software de la Genista Corporation) para testear cómo la segmentación puede influir en la mejora de la correlación subjetiva de las métricas de calidad.

Las métricas se modifican para incorporar aspectos de alto-nivel visual (cognitivos) a los aspectos de bajo-nivel en visión, como percepción de color, sensibilidad al contraste, enmascaramiento y analisis de artefactos ya incorporados en éstas.

La metrica no-reference estima la calidad visual basándose en en análisis del los artefactos blokiness, blur y jerkiness encontrados en el vídeo.

Los aspectos cognitivos se emulan mediante la segmentación semántica de la escena. Prueban las métricas utilizando un caso especial de segmentación semantica, la segmentación de caras en la escena. Obtienen un incremento de rendimiento en la predicción de las métricas.

En la introducción comentan que se pueden distinguir dos aproximaciones para el diseño de métricas de calidad perceptual. Las que implementan un modelo del HVS y que generalmente requieren de la imagen o secuencia de referencia y las que se centran en características específicas de la imagen, por ejemplo artefactos de compresión y se estiman su incidencia.

Una de los defectos de las métricas de calidad es que analizan toda la escena uniformemente. Nuestra atención visual tiende a saltar de un punto a otro de la escena. Estos saltos se llaman saccades. El patrón de sacadas depende de la escena y de la tarea cognitiva que se realiza con la escena. Focalizamos la atención visual de acuerdo con la tarea a realizar y el contenido de la escena. Intentan emular este proceso con la priorización de zonas para aumentar la predicción de las métricas. Aunque los aspectos cognitivos varien entre individuos se fijan sólo en el foco de atención y en el seguimiento de objetos móviles.

Si hay caras en la escena las miramos inmediatamente y somos más sensibles a distorsiones en estas zonas. Las personas en la escena y sus caras están entre los criterios más importantes para el criterio de selección en la imágen. De manera similar los objetos en movimiento captan la atención del observador, aunque como se indica, la agudeza visual de otros objetos no seguidos o del fondo disminuye. Un ajuste de la función CSF espacio-temporal como en [8] puede tener en cuenta estos cambios de sensibilidad.

A las métricas se les añade una etapa de segmentación para encontrar regiones de interes. Su salida guia el proceso de pooling dando mayor peso a las regiones con importancia semántica mayor.

La segmentación semántica depende de la tarea a realizar. En general no se segmenta por criterios de homogeneidad. Es necesario un conocimiento previo de los objetos que se quieren segmentar (información a priori). Para segmentar objetos en movimiento, la información del movimiento puede usarse como semántica. Si se quieren segmentar caras de una escena (donde se sabe que existen) se utiliza una segmentación basada en el color, pues según [13] los colores de la piel humana se mueven en una estrecha región del plano de crominancia (Cb,Cr). Cuando el objetivo es detectar las caras y su posición se suelen usar unos clasificadores [12] (detectores de caracteristicas faciales) en cascada.

Utilizan tres fuentes de secuencias para sus pruebas. VQEG, PC Video Database e Internet Streaming database. Para las dos primeras utilizan el algoritmo PDM (full-reference) y para la última el no-reference.

La segmentación lleva generalmente a un mejor ajuste entre las predicciones de las métricas y los resultados de los tests subjetivos. La segmentación facial es útil para aumentar las predicciones de las métricas según los resultados. Si se ponderan menos (en el pooling) las regiones faciales, las valoraciones objetivas se alejan de las subjetivas. Mejores resultados con caras que cubren más cantidad de frame.

Bibliografía disponible:

[9]
[Winkler_1999b]
A Perceptual Distortion Metric for Digital Color Video
[10]
[Winkler_Campos_2003]
Video Quality evaluation for Internet Streaming Applications