[VanDenBrandenLambrecht_1996]

A Working Sptatio-Temporal Model of the Human Visual System for Imager Restoration and Quality Assessment Applications

Resumen:

Abstract: Describe un modelo espacio temporal del HVS con capacidad de predecir la respuesta de las neuronas del primary cortex (V1) para aplicaciones de video. Utiliza un banco de filtro tridimensional que descompone la señan de entrada en canales perceptuales, cada uno adaptado para una frecuencia espacial, orientación y frecuencia temporal determinadas. También implementa contrast sensitivity, masking e interacción espacio-temporal. El modelo tiene unos parametros que han sido estimados psicofisicamente. Presenta una metrica de calidad de video.

Parece ser uno de los primeros autores que propone una descomposición en canales perceptuales implementados como un banco de filtros, basándose en experimientos psicofísicos [1,2]. Primero introduce las caracteristicas del HVS que utiliza, y de las cuales solo resumiré o ampliaré lo que no lo esté ya en el Resumen Personal, estas son: Estructura Multicanal, Sensibilidad de Contraste y Enmascaramiento. Luego muestra cómo se ha utilizado esta información para diseñar el modelo (esta parte la tengo confusa). Luego explica muy por encima como es el esquema del modelo apoyándose en una figura de los bloques que lo componen y como interactuan, para pasar a comentar como se ha realizado la parametrización del mismo y las pruebas subjetvias que se hicieron para este fin. Por último, como ejemplo de aplicación de dicho modelo presenta una métrica de valoración de calidad de video que fue presentada al VQEG en 1993 para su valoración. (Habrá que comprobar cual es y cómo quedó con los Reports del VQEG).

Estructura multicanal

Cada uno de los canales perceptuales se puede ver como un filtro adaptado a una determinada frecuencia espacial, una determinada frecuencia temporal y una determinada orientación espacial, de forma que el perfil de los filtros se asemeja mucho a funciones de Gabor[3]. Los experimentos psicofisicos determinan que la componente temporal está determinada por dos canales llamados transient y sustained [4,5] siendo el primero sensible al movimiento de patrones y el segundo a la percepción de imágenes estáticas o con un movimiento muy leve. En cuanto a la visión espacial parece que existen hasta 5 bandas de frecuencia espacial realizando una división en octavas del eje de frecuencias y aproximadamente de 4 a 8 bandas de orientación del mismo ancho angular. En este modelo se han utilizado 4 bandas de orientación.

Sensibilidad de Contraste

Una señal solo es detectada por el ojo si su contraste es mayor que un cierto umbral denominado umbral de detección, el cual varía con la frecuencia. La sensibilidad es la inversa del umbral de detección (a mayor sensibilidad menor umbral de detección), por lo que también es función de la frecuencia (espacio-temporal) y se denomina CSF (Contrast Sensitivity Function) y determina el contraste que un estímulo tiene que tener para que a una determinada frecuencia espacio-temporal tenta una probabilidad de 0.5 de ser detectado.

Masking

Cuando hay varios estímulos presentes puede haber interacción entre ellos. Esta interacción resulta en una variación del umbral de detección. En el paper explica como este fenómeno se puede modelar con un transductor no lineal (La explicación está bastante clara).

Aunque se sabe que exiten también interacciones entre estímulos en distintos canales perceptuales, aqui se ha omitido esto por simplicidad y solo se modelan las interacciones (masking) entre estímulos en el mismo canal (Aunque luego no precisa bien como).

La construcción del modelo

El comportamiento del HVS puede por tanto ser modelado como un banco de filtros tridimensional en cascada mas un transductor que modela el enmascaramiento (masking). El banco de filtros utilizado es separable en frecuencias espaciales y temporales. Modela 17 frecuencias espaciales y 2 frecuencias temporales. Las frecuencias espaciales se modelan con: Un único filtro isotropico para las frecuencias más bajas independientemente de su orientación (isotropico) mas un filtro por cada frecuencia espacial, 4 bandas centradas en 2,4,8 y 16 cpd (cycle per degree), presentes en cada una de las 4 orientaciones, 0, pi/4, pi/2, 3pi/4 radianes. Es decir (4 x 4) + 1 filtros. Este conjunto de filtros espaciales se muestra en la figura.

Para el modelado de la interacción espacio-temporal se ha utilizado un modelo de ésta que expresa la CSF como una diferencia entre dos mecanismos llamados exitación e inhibicion que permite parametrizar toda la función CSF con un número limitado de parámetros. Esto está basado en [8].

Argumenta que los filtros de Gabor descritos no realizan una descomposición completa que no se expande a todo el dominio de las frecuencias lo que puede ocasionar dos problemas (aunque no explica porque), primero que no es posible reconstruir los datos filtrados y segundo que algunas zonas del spectrum pueden atenuarse en exceso apareciendo el efecto llamado scalloping. Para evitar esto han introducido un segundo banco de filtros basados en [9] que evita estos dos problemas (Aunque nuevamente no explica nada sobre eso).

Procesado perceptual de secuencias de video

La estructura del modelo es la de la figura, donde asume un módulo de codificación de vídeo que proporciona la secuencia codificada.

La secuencia de error se obtiene restando la original de la codificada. Ambas son descompuestas por el banco de filtros. Si se requiere reconstrucción se utiliza el segundo banco de filtros, sino el de Gabor. La secuencia original actua como mascara de la secuencia de error, por lo que se utiliza el transductor para calcular, pixel a pixel, canal por canal el umbral de detección del error en cada uno. La señal de error se multiplica entonces por la inversa del umbral de error para expresar los datos en Just Noticeable Differences (jnd's) o units above threshold (unidades por encima del umbral). Este comportamiento es el que predice la respuesta de las neuronas del área V1. Una etapa posterior se puede añadir para modelar según la aplicación a la que se destine este modelo etapas superiores de procesamiento cognitivo (Lo explica en el paper, pero no queda muy claro).

Parametrización del modelo

Se ha parametrizado con experimentos psicofísicos cuyo objetivo era modelar la CSF basandose en la percepción subjetiva del ruido o errores producidos en la codificación. En el paper explica como se han llevado a cabo estos experimentos con diferentes sujetos basándose en [10,11]y referencia otro paper [12] para ver los resultados. Tampoco quede muy claro en las explicaciones como y cual es definitivamente la función CSF resultante, aunque muestra unas gráficas de esta.

Ejemplo de aplicación

Pone como ejemplo la aplicación del modelo para la valoración objetiva de la calidad de secuencias de video, pero nuevamente no detalla como y referencia a otro paper [13] donde describe la métrica propuesta y explica muy por encima como funciona.

La métrica se llama Moving Pictures Quality Metric (MPQM) y se ha utilizado para determinar la calidad de codificacion de MPEG-2[14] sobre un rango de bitrates. El resultado es que la métrica correlaciona bien con las evaluaciones subjetivas de MPEG-2 en [15].

Bibliografía disponible:

[13]
[VanDenBrandenLambercht_Verscheure_1996]
Perceptual Quality Measure using a SpatioTemporal Model of the Human Visual System