La IA potencia la comunicación en personas con dificultades en el habla
Por Mariela Méndez, Área de Comunicación CONICET Patagonia Norte, y María Eugenia Ghio, ref. Comunicación INIBIOMA (CONICET-UNCo).
Un equipo de científicos del CONICET participa del desarrollo y optimización de innovadores sistemas de comunicación aumentativos y alternativos (SAACs) orientados a la inclusión de personas con dificultades para comunicarse mediante el habla. Los SAACs de alta tecnología son sistemas de comunicación basados en pictogramas y teclados virtuales, a través de los cuales, usuarios/as con dificultades en el habla pueden transmitir mensajes.
En el marco de esta propuesta, los científicos del Consejo Matías Núñez, y Francis Felici, del Instituto de Investigaciones en Biodiversidad y Medioambiente (INIBIOMA, CONICET – UNCo), y Alejandro Wainselboim, del Instituto de Ciencias Humanas, Sociales y Ambientales (INCIHUSA, CONICET), trabajan en conjunto con Neufitech, una empresa de la ciudad de Bahía Blanca que desarrolla SAACs y otros productos de alta tecnología vinculados a la evaluación neuropsicológica.
El proyecto fue uno de los seleccionados en la segunda edición de la convocatoria Soluciones Innovadoras para Desafíos de Software, organizada por el Ministerio de Ciencia, Tecnología e Innovación y la Fundación Sadosky en 2023, destinada a financiar iniciativas de innovación en software y servicios informáticos de empresas nacionales que brindan soluciones a demandas concretas de la sociedad.
Matías Nuñez, líder del proyecto de investigación, es doctor en Física y sus líneas de trabajo están vinculadas, entre otras, a aplicaciones de machine learning (aprendizaje automático) en los campos de la biología evolutiva, la física cuántica y la epidemiología. Sobre el proyecto, explica: “Trabajo en temáticas relacionadas con el campo de la inteligencia artificial (IA) hace años. Estábamos colaborando con Alejandro Wainselboim, biólogo lingüista de Mendoza, y nos conectamos con Gustavo Gassaneo de Neufitech y presentamos el proyecto en conjunto con la empresa. El interés venía de incorporar machine learning con procesamiento de lenguaje natural a la interface de comunicación desarrollada por la empresa, con el objetivo concreto de hacerla más ágil y así, mejorar la calidad de vida de la gente que los usa como única forma de comunicación”.
La interfaz de comunicación desarrollada por la empresa bahiense consiste en un detector de movimiento ocular y un software que toma esos movimientos y los traduce a la posición de un cursor en una pantalla. De esta forma, los/as usuarios/as eligen las diferentes palabras para escribir, en este caso, esas palabras o conjunto de palabras están representadas por pictogramas (signos pictóricos que pueden entenderse sin texto ni explicaciones adicionales). También, es traducido a un sintetizador de voz opcional para pasar del sonido a lo escrito. El sistema basado en pictogramas se adecúa a cada persona y la idea para mejorar el enfoque inicial fue crear un predictor de pictogramas con el objetivo de acelerar este proceso.
“Se considera que el sistema de comunicación es aumentativo ya que puede aumentar la capacidad de comunicarse a personas con discapacidad. En este caso, un detector ocular monitorea el movimiento de los ojos, así la persona puede mover un cursor en la pantalla y elegir pictogramas para escribir y comunicarse. Esto lleva un tiempo de espera que hace lenta la comunicación y nuestra tarea inicial fue acelerar este proceso para mejorar la interacción del usuario/a con la interfaz y mejorar su comunicación. Ahora apuntamos a potenciar las posibilidades de interacción y experimentación de las personas usuarias con el sistema para comunicarse y desarrollar su creatividad” , explica Núñez.
Para cumplir este objetivo, los investigadores del CONICET se valen de herramientas de procesamiento del lenguaje natural con machine learning. “En la primera parte del proyecto, que ya terminó, utilizamos algo bien básico y concreto, modelos de n gramas que calculan la estadística del lenguaje y en base a eso pueden hacerse predicciones sobre las palabras que siguen a un texto dado. Los predictores de texto de los teléfonos funcionan con ese sistema. Lo desarrollamos adaptándolos para el uso de pictogramas, tal cual propone la interface desarrollada por la empresa. La idea en la segunda parte del proyecto es aplicar modelos de lenguaje de gran tamaño, large language models (LLM), combinado con modelos de imágenes. El ejemplo más popular de un LLM es ChatGPT, pero en nuestro caso nos enfocamos al uso de modelos de lenguaje de código abierto”, sostiene Núñez sobre sus aportes al proyecto, y destaca que en esa primera etapa participaron también Victoria Vampa, de la Facultad de Ingeniería en la Universidad Nacional de La Plata, y Federico Holik, investigador del CONICET en el Instituto de Física de La Plata (IFLP, CONICET-UNLP).
Asimismo, comenta que los/as usuarios/as del sistema “podrían ampliar su interacción, expresividad y lo que pueden hacer con la computadora, no sólo como predictor de pictogramas sino también como herramienta de creatividad. Para una persona inmovilizada que solo puede comunicarse a través del movimiento de sus ojos, estas nuevas funcionalidades podrían ser un gran cambio de calidad de vida”. Así, en esta segunda etapa se agregan nuevas funcionalidades al sistema para potenciar las capacidades de expresión de las personas.
El investigador expone que hoy cualquier persona con un teléfono puede acceder a ChatGPT y agrega que el machine learning, una sub rama de la IA, se desarrolla desde los años 50, “cuando se planteó el perceptrón, la primera abstracción para modelar matemáticamente una neurona. Hoy todos estos modelos de IA son redes que conectan un gran número de estas neuronas matemáticas. El avance en IA hasta ahora está determinado por el desarrollo de diferentes arquitecturas para estas redes neuronales y el número de neuronas que las componen. A más cantidad de neuronas, más poder de cálculo se necesita y más poderoso es el modelo. Estos avances van a traer cambios radicales en todos los campos, estamos recién en el comienzo. Lo veo de una manera optimista porque puede, justamente, aumentar las capacidades humanas”, reflexiona.
Además, señala el desafío que propone el proyecto, que busca conectar el sector privado con la investigación básica. El especialista afirma que “es un incentivo para que los y las investigadores/as apliquen sus conocimientos y habilidades en problemáticas concretas con impacto directo en la sociedad. En el grupo de investigación tuvimos en un momento, una matemática, un biólogo lingüista, un biólogo matemático, dos físicos cuánticos, es decir, una interdisciplina interesante. El hecho de que haya esta clase de incentivos para que el investigador empiece a interactuar con el sector privado me parece genial. Esto se tendría que incentivar, apoyar y que sean cada vez más”.
Si bien es especialista en machine learning, Núñez, no había trabajado en el campo del procesamiento de lenguaje natural. “Fue una forma de investigar y formarnos en una temática particular para una aplicación puntual a corto plazo: la de mejorar la vida de mucha gente. Cada integrante del equipo aportó con sus conocimientos y habilidades; muchas veces lo que hacemos en las ciencias duras es muy abstracto y uno no ve el resultado o aplicación de eso. En este proyecto podemos aplicar todo nuestro conocimiento interdisciplinario en algo concreto con este potencial”, concluye.
La articulación del sistema científico tecnológico con diversos actores de la sociedad permite potenciar proyectos de innovación y desarrollo, promoviendo y brindando respuesta a las problemáticas sociales puntuales. Este desarrollo innovador es uno de los ejemplos que muestra la transferencia en el marco de proyectos asociativos del sector público al privado.