[Wang_Simoncelli_2005c]

Translation Insensitive Image Similarity in Complex Wavelet Domain

Resumen:

Proponen una medida de similarid de imágenes en el dominio wavelet complejo, que sea insensible a los cambios de luminancia, contraste y traslaciones espaciales. Insensible quiere decir que la métrica funciona bien incluso con cambios de luminancia, contraste y traslaciones, aunque éstas últimas de pequeña magnitud. La idea básica es que estas distorsiones de la imagen llevan a cambios consistentes en magnitud y fase de los coeficientes wavelets locales. Como un pequeño escalado y rotacion de las imágenes puede ser aproximado localmente como traslaciones, la métrica también muestra robustez para rotaciones y escalado, cuando éstas son relativamente pequeñas en comparación con el tamaño de los filtros wavelets. En comparación con otros métodos previos es computacionalmente eficiente y puede evaluar la similitud de dos imágenes sin un proceso de regristro en el front end.

En la figura se muestran un conjunto de imágenes que tienen prácticamente el mismo valor de MSE (Mean Squared Error) pero que perceptualmente difieren bastante, junto con otra grupo de imágenes a las que se les ha aplicado variaciones como rotaciones, traslaciones y escalado, subiendo fuertemente su índice MSE pero sin un efecto perceptual en la degradación de calidad aparente.

Todas las imágenes con alta calidad de esta figura tienen asociado un cierto tipo de distorsión paramétrica simple. Una métrica de similitud eficiente tiene que ser insensible a estos tipos de distorsión para valorar el grado de calidad perceptual de la imagen. Generalmente hay dos aproximaciones para conseguir esta insensibilidad. Una es la "registration approach" que intenta eliminar las distorsiones paramétricas simples mediante la estimación de los parámetros y aplicando una transformación inversa apropiada a la imagen distorsionada. La otra aproximación que llaman "invariance approach" intenta eliminar o descontar las distorsiones específicas mediante la comparación de las respuestas de un conjunto de medidas que son invariantes a éstas distorsiones. La métrica propuesta combina un número de invariantes en una única medida.

El trabajo está inspirado en el SSIM de Wang_Bovik_Sheikh_Simoncelli_2004, que a pesar de mostrar muy buenos resultados es altamente sensible a la traslación, rotación y escalado como se demuestra en las últimas figuras de la imagen. En este trabajo extienden el método SSIM al dominio complejo de la transformada wavelet y lo hacen extensivo a esas distorsiones de la imagen "no-estructurales" que se producen en los dispositivos de adquisición (pequeñas rotaciones, traslaciones y escalados) en vez de producirse en los propios objetos de la escena. Adicionalmente establecen en la discusión conexiones con recientes modelos de visión biológica.

Bibliografía disponible:

[]
[]