Marco Teórico
Comunicación Aumentativa y Alternativa (CAA)
La Comunicación Aumentativa y Alternativa (CAA) es el conjunto de métodos, técnicas y tecnologías que se utilizan para apoyar o sustituir el habla cuando una persona no puede comunicarse oralmente con eficacia. La palabra «aumentativa» hace referencia a que complementa el habla; «alternativa», a que puede llegar a sustituirla por completo. Dentro de la CAA hay dos grandes grupos: los sistemas de baja tecnología, como tableros de pictogramas o comunicadores de voz pregrabada, y los sistemas de alta tecnología, entre los que se encuentran los dispositivos de acceso por la mirada. EyeSense pertenece a esta segunda categoría, la más avanzada y la que mayor autonomía ofrece a personas con movilidad muy reducida.
Seguimiento ocular (Eye Tracking)
El seguimiento ocular, o eye tracking, es la tecnología que permite detectar y rastrear el movimiento de los ojos en tiempo real para saber exactamente a dónde está mirando una persona. Existen dos grandes aproximaciones técnicas: la electrooculografía, que mide señales eléctricas de los músculos oculares, y los sistemas de visión por computador, que analizan imágenes de la pupila con cámaras especiales para calcular el punto de mirada. En EyeSense hemos optado por visión artificial usando una cámara de infrarrojos y la biblioteca OpenCV. La cámara de infrarrojos facilita la detección de la pupila incluso en condiciones de poca luz, ya que el ojo absorbe la luz infrarroja de forma diferente al resto del rostro, creando un contraste que el algoritmo puede identificar con precisión. Uno de los grandes retos del eye tracking es la fatiga ocular (asthenopía): cuanto más movimiento requiere el teclado, antes se cansa el usuario. Por eso, reducir el recorrido del ojo al escribir es uno de los objetivos prioritarios de nuestro diseño.
Inteligencia Artificial y Procesamiento del Lenguaje Natural
El Procesamiento del Lenguaje Natural (PLN) es la rama de la Inteligencia Artificial que estudia cómo los ordenadores pueden entender y generar lenguaje humano. Los modelos de lenguaje de gran escala (LLM, del inglés Large Language Models), como los que hay detrás de aplicaciones del tipo ChatGPT, son capaces de leer el contexto de una conversación y predecir cuál es la continuación más probable de un texto.
En EyeSense usamos un LLM al que le proporcionamos tres cosas:
Un resumen actualizado de la conversación que se está manteniendo.
El estado emocional actual del usuario detectado por el sensor biométrico.
Las primeras letras que el usuario está escribiendo con los ojos.
Con esa información, el modelo predice las frases completas más probables que el usuario querría decir, de manera que puede seleccionarlas en lugar de escribirlas letra a letra.
La técnica de proporcionar contexto al modelo para guiar sus respuestas se llama prompting contextual, y es clave en nuestro sistema: sin ese contexto, las predicciones serían genéricas; con él, el modelo puede anticipar respuestas coherentes con la conversación real y el estado emocional del momento.
Reconocimiento de emociones mediante señales biométricas
Las emociones influyen directamente en nuestra forma de comunicarnos: no respondemos igual cuando estamos contentos que cuando estamos tristes o enfadados. Esta idea, bien documentada en psicología de la comunicación, nos llevó a incorporar el reconocimiento emocional como una capa extra de contexto para mejorar las predicciones de la IA.
Las señales del cuerpo más utilizadas para detectar emociones de forma objetiva son la Respuesta Galvánica de la Piel (GSR o EDA, del inglés Electrodermal Activity), que mide cómo cambia la conductividad eléctrica de la piel por la actividad de las glándulas sudoríparas, y la fotopletismografía (PPG), que mide la frecuencia cardíaca. Cuando una persona experimenta una emoción intensa, su sistema nervioso autónomo activa estas respuestas de forma involuntaria y medible.
Para capturar estas señales utilizamos el dispositivo Shimmer3R GSR+, un sensor portátil y wearable validado en investigación biomédica que se comunica con nuestro smartphone mediante Bluetooth. Este sensor es capaz de capturar simultáneamente la actividad electrodermal (EDA) y la señal de pulso óptico (PPG) para estimar la frecuencia cardíaca, todo ello sin cables que molesten al usuario.
Síntesis y clonación de voz
La síntesis de voz, o Text-to-Speech (TTS), es la tecnología que convierte texto escrito en habla. Cuando el usuario selecciona una frase en EyeSense, el sistema la reproduce en voz alta para que los interlocutores la escuchen directamente, sin tener que leer ninguna pantalla.
Pero la voz sintetizada genérica puede resultar fría e impersonal. Por eso, siempre que el usuario disponga de grabaciones de audio o vídeo de su propia voz, EyeSense permite clonarla mediante técnicas de aprendizaje automático: el sistema entrena un modelo personalizado con esas muestras y reproduce las frases con la voz real del usuario. Si no hay grabaciones disponibles porque la persona nunca pudo hablar, el usuario puede elegir la voz que más le guste o con la que más se identifique.
Realidad Aumentada como interfaz de comunicación
La Realidad Aumentada (RA) es la tecnología que superpone elementos digitales (imágenes, texto, objetos virtuales) sobre la visión del mundo real, generalmente a través de gafas especiales o la cámara de un dispositivo. A diferencia de la Realidad Virtual (RV), que sumerge al usuario en un entorno completamente artificial, la RA mantiene el contacto visual con el entorno físico y las personas que le rodean.
En EyeSense integramos las gafas XReal One, unas gafas de RA ligeras y con una estética muy similar a la de cualquier gafa de vista convencional. El teclado virtual se proyecta directamente en el campo de visión del usuario, lo que le permite comunicarse sin necesidad de estar delante de ninguna pantalla y de una forma mucho más natural, inclusiva y discreta. El usuario puede mirar a sus interlocutores, participar en clase y usar el teclado al mismo tiempo.