Estado del Arte

Sistemas comerciales actuales de eye tracking para CAA

Los sistemas más conocidos en el mercado para comunicación por seguimiento ocular son Tobii Dynavox (Suecia), EyeTech TM5 (EE.UU.) y GazePoint (Canadá). Todos comparten un diseño similar: una barra o cámara de eye tracking integrada en un dispositivo tipo tablet que el usuario coloca delante de sí, con un teclado virtual en pantalla para seleccionar letras.

Sus principales limitaciones son: el precio elevado (los sistemas Tobii Dynavox pueden superar los 10.000 euros, lo que los hace inaccesibles para muchas familias), la escasa portabilidad (requieren soporte fijo o adaptación en silla de ruedas), el uso de teclados QWERTY no optimizados para el español, la falta de predicción contextual avanzada basada en la conversación real y la ausencia de cualquier información emocional que enriquezca la comunicación.

Investigación académica relacionada

La literatura científica sobre CAA con eye tracking es amplia. Investigaciones como las de Majaranta y Räihä (2002) analizaron el impacto del diseño del teclado en la velocidad de escritura y la fatiga del usuario, concluyendo que la distribución de las teclas influye de forma significativa en el rendimiento. Sobre esa base hemos construido nuestro teclado optimizado para el español.

En cuanto a la predicción de texto con inteligencia artificial aplicada a CAA, estudios recientes demuestran que los modelos de lenguaje con contexto reducen el número de pulsaciones necesarias para generar una frase entre un 50% y un 80%. Sin embargo, ninguno de los trabajos analizados incorpora el estado emocional del usuario como variable de contexto para las predicciones, lo que supone una de las aportaciones más originales de EyeSense.

En el campo del reconocimiento emocional con señales biométricas, investigaciones como las de Shu et al. (2018) demuestran que la combinación de EDA y PPG permite clasificar emociones básicas (alegría, tristeza, enfado, neutro) con una precisión superior al 80% en condiciones controladas, dato que utilizamos como referencia para nuestra implementación con el Shimmer3R.

Aportación original de EyeSense

Tras revisar los sistemas existentes y la investigación disponible, identificamos los siguientes elementos diferenciadores de EyeSense respecto al estado del arte:

Uso de gafas de realidad aumentada como interfaz de visualización: el teclado va con el usuario a cualquier parte, también al aula.
Teclado virtual con distribución de teclas optimizada para el español, que coloca las letras más frecuentes en el centro para minimizar el recorrido ocular.
Predicción de frases completas (no solo palabras) usando un LLM con contexto de la conversación en tiempo real.
Integración del estado emocional del usuario como variable de contexto para mejorar la predicción de la IA, algo no encontrado en ningún sistema previo.
Indicadores LED en las gafas para comunicar a los interlocutores que el usuario está escribiendo y cuál es su estado emocional en ese momento.
Clonación de voz personalizada para preservar la identidad vocal del usuario.
Precio radicalmente inferior al de los sistemas comerciales equivalentes.

17 March 2026