[Wang_Bovik_Simoncelli_2005]

Structural Approaches to Image Quality Assessment

Resumen:

Una métrica de calidad de imagenes que pretenda predecir el comportamiento de evaluación humana de calidad, debe tener en cuenta no solo las características del HVS sino también estar adaptado a las propiedades de las imagenes naturales.

En el espacio multidimensional donde las imágenes (de determinado tamaño) se corresponden con un punto de dicho espacio cuya ubicación en él viene determinada por un número de dimensiones igual al número de muestras (pixels, bloques, coeficientes, etc...) que se tengan de ellas, las imagenes naturasles solo ocupan una porción extremadamente pequeña de este espacio. Lo que indica que las características o propiedades de las imagenes naturales, que son para las que el HVS está evolutivamente adaptado, están muy determinadas.

Una característica fundamental y diferenciante respecto al resto de imagenes del espacio de imagenes es que están altamente estructuradas. Las muestras de una imagen natural exhiben fuertes dependencias entre ellas. Estas dependencias aportan información importante relativa a la estructura de los objetos de la escena. Las métricas deben de tener en cuenta estas dependencias. Es decir, debe ser capaz de capturar o sentir los cambios estructurales de las señales de imagen.

Muestran como ejemplo el uso de la métrica de error Minkowski, que no tiene en cuenta estas dependencias, y proponen cómo modificar la métrica para que la tenga y por los resultados se ve que una vez que tiene en cuenta las dependencias la calidad de la escena es mas fácil de catalogar de forma que se ajuste mejor a la percepción subjetiva de la imagen. Comenta que hay diferentes formas de demostar que Minkowski falla, una es mediante el uso de características psicofísicias del HVS y otra, que desarrollan en el paper basada en las características matemáticas de la métrica, que en asume que las distintas muestras de la imagen son independientes.

Se plantean por tanto la pregunta de si las transformaciones que se realizan a la imagen antes de la aplicación de Minkowski (en el Error Sensitivity Framework) son capaces de desacoplar esta información de dependencias entre las distintas muestras de la imagen. Ya que si lo son la asunción de independencia de Minkowski no plantearía problemas. Incluso para la transformada wavelet que reduce las correlaciones entre distintas muestras, comparadas con la correlación en la representación espacial, se ha demostrado que existen fuertes dependencias entre coeficientes wavelets intra- e interchannel. De hecho el estado del arte en compresión wavelet saca partio de este hecho.

Se centran pues en asumir las dependencias de las muestras y ser capaces de cuantificar las variaciones de estas dependencias, que en definitiva se traducen en variaciones estrucutrales de la imagen.

El Structural Similarity Index (SSIM)

Dejan claro que en función de cómo se interprete o modele la información estructural de la imagen, pueden haber métricas diferentes basadas en este framework. La implementación de SSIM es una implementación específica desde la perspectiva de la formación de las imagenes, basada en Wang_Bovik_2002.

La imagen servirá para entender la intuición de la métrica. Los detalles de su calculo y formulación se pueden ven en el paper.

En el espacio multidimensional descrito antes, a la imagen Origen (situada en el centro del circulo) que corresponde a la A se le pueden aplicar diferentes distorsiones, unas perceptualmente más destacables que otras, pero si todas ellas producen un mismo valor de MSE se situarán en el circulo cuyo radio será el valor del MSE en que se degrada la imagen original. La imagen muestra varias deformaciones, B y C son únicamente variaciones de luminancia y contraste respectivamente, mientras que C y D son blur y compresión JPEG. Claramente se observa que las variaciones únicamente de luminancia y contraste no afectan demasiado a la calidad perceptual de la imagen, mientras que las otras si. Por tanto no es importante, en este espacio de imagenes cuanto se varien las imagenes en modulo sino el tipo de distorsión que viene significado en el espacio por el angulo del vector de variación que se aplica a la imagen.

Esto lleva a pensar en que las variaciones de luminancia y contraste no producen una distorsión en la estructura de los objetos de la escena sustancial, aunque son importantes y por tanto cuantificables y deben formar parte de la métrica final. Esto tiene un gran sentido físico, las variaciones de contraste y luminosidad no afectan la estructura física de los objetos. Asi que llegan a la conclusión que se debe de poder separar las variaciones que sufren las imagenes en variación de luminancia, de contraste y estructurales.

Otra vez sobre el espacio de las imagenes, se muestra como los vectores de variación de luminancia y contraste sobre una imagen original definen un subplano y es en él donde se encuentran las imagenes B y C de la figura anterior, lo que da una idea de la separabilidad de estos tipos de variación, siendo la variación estructural la rotación de este plano sobre su eje en un angulo que deterinará la medida de dicha variación.

Finalmente la métrica será la combinación f(.) de la variación de luminancia l(x,y), de contraste c(x,y) y de estructura s(x,y), tal como se muestra en la Eq. 6 del paper. Las funciones f(.), es decir combinación de las variaciones, la metrica, deberá cumplir ciertas condiciones, como ser simetrica (da igual que imagen se compare con cual), estar limitada superiormente (<= 1 donde 1 indica exactamente iguales) y tener un máximo único (solo hay una forma de ser exactamente iguales). La matemática de esto en el paper.

Por último mostrar la formula del SSIM donde los exponentes, alfa, beta y gamma son parametros para ajustar la importancia relativa de los tres componentes de la variación sufrida. Si se igualan a 1 tenemos el Universal Quality Index en Wang_Bovik_Sheikh_Simoncelli_2004. Recordar también que las muestras de la imgen pueden ser la intensidad de los pixels de la imagen o cualquier otra característica extraida de la imagen como por ejemplo los coeficientes de una transformación lineal.

Valoración de Calidad de Imagenes usando SSIM

La métrica mide la Similitud Estructural entre las señales correspondientes a dos imagenes. Si una de ellas se considera perfecta, la metrica se puede ver como una medida de la calidad de la otra.

Cuando se aplica a imágenes grandes es conveniente calcularla localmente envez de globalmente. Las características estadísiticas de las imágenes normalmente no son estacionarias en el espacio. Debido al muestreo no uniforme de la retina, en función de la distancia, sólo se percibe con alta resolución una porción local de la imagen. El calculo local puede proporcionar un mapa de calidad espacial que puede usarse para indicar variaciones de calidad a lo largo de la imagen o para ajustar el control de calidad de la imagen en sistemas de procesamiento de imagenes sensibles a la variación espacial de éstas, como por ejemplo las regiones de interes, o el procesamiento foveal.

Las primeras implementacones de SSIM (Wang_Bovik_2002, Wang_Bovik_Lu_2002) utilizaban un bloque 8x8, pero causaba blockiness en el mapa de calidad de la métrica, lo que no es deseable porque surjen de la forma en que se aplica o implementa la métrica, no de las distorsiones en si. En Wang_Bovik_Sheikh_Simoncelli_2004 aplican una función de peso circular gausiana y simétrica. Aplicada localmente el mapa de calidad de la métrica muestra isotropia local y ponderada en función de la calidad medida.

Los mapas de distorsión o de calidad de SSIM muestran la calidad desde un punto de vista perceptual y estructural de la imagen, cosa que no hacen los mapas de error absoluto. Ver figura 9 del paper.

El último paso es combinar las medidas de calidad locales en un único índice para la imagen completa. Una forma conveniente de hacerlo es mediante una suma ponderada. Si todas las muestras locales del mapa de calidad se ponderan con igual peso tendremos la MSSIM o Mean SSIM utilizada en Wang_Bovik_Sheikh_Simoncelli_2004.

Hay dos casos en los que puede ser deseable una ponderación no uniforme. Cuando existe conocimiento previo relativo a la importancia de ciertas regiones de la escena o en sistemas de procesamiento foveal de la imagen.

Validación de Medidas de Calidad de Imagen

El método más estandar es la comparación subjetiva de imágenes existentes en grandes bases de datos de imágenes. Obtener resultados fiables para estos experimentos subjetivos largos es una tarea cara. Para reducir el número de comparaciones subjetivas la forma o tipo de distorsiones se reduce o restringe considerablemente. O sea que después de gastar tanto tiempo y coste en los experimentos subjetivos no tenemos la seguridad de que las imágenes seleccionadas para el test sean las adecuadas para un algoritmo de valoración de calidad de imágenes de proposito general. La selección de las imágenes o las distorsiones introduce alguna tendencia en los resultados de uno u otro algoritmo? La generalidad está suficientemente representada por dichas imágenes?

En Wang_Bovik_Sheikh_Simoncelli_2004 proponen un método alternativo para la evaluación reltiva de distintas métricas reduciendo considerablemente el número de comparaciones subjetivas a realizar para obtener los resultados.

La idea es sintetizar las imágenes que mejor diferencien las dos medidas de calidad candidatas. Estas imágenes sintetizadas se obtienen mediante un algoritmo de búsqueda de éstas en el espacio multidimensional de las imágenes, en vez de coleccionar un determinado tipo de imágenes con distorsiones conocidas. Las imágenes resultantes no tienen porque ajustarse a una u otra distorsión conocida. Esto proporciona una ventaja adicional, y es que las imágenes sintetizadas pueden sugerir mejoras a la métrica.

Bibliografía disponible:

[]
[]