Fijaciones y Sacadas
Los movimientos oculares constituyen una ventana excepcional hacia los procesos cognitivos humanos, con las fijaciones y sacadas representando dos de los fenómenos más estudiados en la investigación de la atención visual. Las fijaciones corresponden a aquellos períodos generalmente de entre 150 y 600 milisegundos durante los cuales la mirada se mantiene relativamente estable sobre un punto de interés, permitiendo la extracción de información visual detallada.
Por el contrario, las sacadas son movimientos oculares rápidos y balísticos que redirigen la fóvea de un punto a otro en el campo visual, típicamente durando entre 20 y 40 milisegundos. Durante estas sacadas, ocurre un fenómeno conocido como supresión sacádica, donde la percepción visual consciente se reduce drásticamente, lo que impide la experiencia de un desenfoque o desgarro visual durante el movimiento.
La distinción precisa entre fijaciones y sacadas es fundamental para disciplinas que van desde la psicología experimental y la neurociencia cognitiva hasta la interacción persona-computadora y los estudios de usabilidad.
Tradicionalmente, la detección automatizada de estos eventos se ha basado en el análisis de las coordenadas del punto de mirada, utilizando principalmente dos familias de algoritmos: los basados en velocidad y los basados en dispersión.
El Desafío del Eye Tracking en Entornos Móviles y Naturales
El artículo de Steil, Huang y Bulling (2018) aborda una limitación fundamental de los métodos tradicionales: su dependencia de un sistema de coordenadas fijo. Estos algoritmos, diseñados para escenarios estacionarios donde el usuario observa una pantalla, asumen que el sistema de referencia para las coordenadas de la mirada es inmutable. En este contexto, una fijación se manifiesta como un grupo de puntos de mirada agrupados espacialmente y con una velocidad de movimiento cercana a cero.
Sin embargo, esta premisa se desmorona en entornos móviles, donde el usuario utiliza eye trackers montados en la cabeza. En estos casos, el sistema de coordenadas es definido por la cámara de escena del dispositivo, la cual se mueve junto con la cabeza del usuario. Cuando una persona camina, asiente o gira la cabeza mientras mantiene la atención visual fija en un objeto, las coordenadas del punto de mirada en el sistema de referencia de la cámara se desplazan continuamente.
Para un algoritmo basado en dispersión, este desplazamiento parece un amplio salto espacial, para uno basado en velocidad, parece un movimiento rápido.
En ambos casos, el resultado es un fallo en la detección de la fijación, interpretando erróneamente una mirada estable como una sacada o un movimiento de persecución suave.
Esta limitación no es meramente teórica. Los autores del artículo cuantifican que en sus grabaciones naturales en interiores, un 85% del tiempo de fijación estuvo acompañado de movimientos grandes de cabeza y un 80% por cambios significativos en la estimación de la mirada.
Esto significa que, para la gran mayoría de las fijaciones que ocurren en la vida diaria, los métodos convencionales son inherentemente poco fiables.
Una Solución Innovadora: La Similitud Visual de los Parches de Mirada
Frente a este desafío, Steil y sus colegas proponen un cambio de paradigma: dejar de depender exclusivamente de las coordenadas de la mirada y, en su lugar, utilizar la información visual de la escena.Su hipótesis central es elegante en su simplicidad: independientemente de cómo se mueva la cabeza o el objetivo, la apariencia visual del objeto que se está mirando permanece esencialmente igual durante una fijación.
La metodología propuesta se articula en los siguientes pasos, constituyendo una contribución técnica significativa: Extracción del Parche de Mirada: Para cada fotograma del video egocéntrico, se extrae una pequeña región de la imagen centrada en la coordenada estimada de la mirada. Los autores utilizan un tamaño de 200x200 píxeles, mayor que el área de la fóvea, para simular el efecto foco de la atención, donde la visión central es clara y la periférica es más difusa. Cálculo de Similitud Visual: La similitud entre parches consecutivos se calcula utilizando una Red Neuronal Convolucional especializada, llamada 2ch2stream, diseñada por Zagoruyko y Komodakis (2015) para comparar pares de parches de imagen.
Esta arquitectura es particularmente adecuada porque procesa en dos canales paralelos: uno analiza el parche completo y otro se enfoca únicamente en la región central, ponderando así la información más relevante para la fijación. Detección por Umbral de Similitud: Se aplica un umbral a la secuencia de valores de similitud. Los fotogramas consecutivos cuyos parches tienen una similitud por encima de este umbral se agrupan como candidatos a pertenecer a la misma fijación. Validación por Duración: Finalmente, cada grupo candidato se filtra para asegurar que cumpla con una duración mínima aceptable de 150 milisegundos, descartando así agrupaciones brevísimas que no constituyen fijaciones propiamente dichas.
Este enfoque es inherentemente robusto al movimiento, ya que no le importa si las coordenadas del punto de mirada cambian solo le importa si lo que el usuario está viendo permanece visualmente coherente.
Evaluación Rigurosa y Creación de un Nuevo Dataset de Referencia
Una de las contribuciones más valiosas del trabajo es la creación y anotación del dataset MPIIEgoFixation. Dado que no existían conjuntos de datos públicos con anotaciones de fijaciones a nivel de fotograma para escenarios móviles, los autores anotaron manualmente 5 videos de 5 minutos cada uno, identificando más de 2,300 fijaciones. Este dataset se convierte en un benchmark esencial para la comunidad.
La evaluación contra métodos clásicos es exhaustiva. Los autores no se limitan a métricas simples de precisión, sino que utilizan un marco de análisis de errores por eventos propuesto por Ward et al. (2006), que desglosa los fallos en categorías informativas: Inserción (I): Detectar una fijación donde no la hay. Eliminación (D): No detectar una fijación real. Fragmentación (F): Dividir una fijación larga en varias cortas. Fusión (M): Unir varias fijaciones cortas en una larga. Sobreextensión (O) y Subextensión (U): Errores en los límites temporales de la fijación. La métrica unificada CDI' = C - D - I resume el desempeño neto. Los resultados son contundentes: el método basado en parches alcanzó un CDI' de ~1400, superando claramente a los métodos basados en velocidad (~1200) y dispersión (~1200).
Además, demostró una robustez excepcional a la variación del umbral y logró el menor número combinado de errores de fragmentación y fusión, así como la menor tasa de sobreextensión.