El interés por el Procesamiento del Lenguaje Natural (PLN) crece a nivel internacional. Y sus aplicaciones, que se siguen desarrollando predominantemente en inglés, se especializan cada vez más en otros idiomas, como el español.
Esto se refleja en diferentes conferencias alrededor del mundo en las que se reúnen investigadores e interesados en estas técnicas de Inteligencia Artificial. Recientemente, Alejandro Vaca, data scientist del Instituto de Ingeniería del Conocimiento (IIC), participó en dos de ellas para compartir trabajos e investigaciones sobre PLN en español.
Por un lado, mostró el trabajo realizado para el resumen automático de textos financieros en la conferencia internacional sobre recursos lingüísticos y evaluación (LREC). Después, presentó en la conferencia norteamericana de la Asociación de Lingüística Computacional (NAACL) a BioMedIA, el sistema desarrollado en el IIC que responde a preguntas abiertas sobre biomedicina en español.
Procesamiento de narrativa financiera
Los textos financieros tienen particularidades, como su terminología, que hacen necesario un trabajo y anotado más minucioso para poder procesarlo automáticamente. En LREC 2022, que tuvo lugar en Marsella, Alejandro Vaca participó en el workshop sobre las aplicaciones de PLN especializadas en este lenguaje.
En concreto, mostró algunos métodos y sistemas de resumen automático de informes financieros en español, inglés y griego, llegando a ser el tercer mejor equipo de la competición. Para el inglés, los miembros del equipo pudieron utilizar técnicas de resumen extractivas. Esto facilitaba la tarea debido a la longitud de los textos, que hacía poco viable el uso de técnicas de resumen abstractivo. No fue este el caso en español y en griego, idiomas para los que tuvieron que utilizar diferentes tecnologías con el fin de aportar una solución basada en resúmenes abstractivos.
Sistema automático de preguntas sobre biomediciona
Frente a grandes cantidades de texto disponibles, una de las aplicaciones del PLN consiste en extraer información relevante para obtener conocimiento de forma automática. Por ejemplo, es el caso de los sistemas automáticos de pregunta-repuesta.
En el workshop LatinxinAI de NAACL 2022, celebrado en Seattle, Alejandro Vaca presentó a BioMedIA, un sistema para responder preguntas sobre el dominio biomédico en español. Para ello, se integran un sistema de búsqueda de textos que tienen que ver con la pregunta y un sistema que los ordena por su relevancia para la pregunta. Tras procesar los textos, la aplicación es capaz de dar una explicación coherente y autocontenida, ya que utiliza un modelo generativo, a diferencia de los sistemas extractivos que suelen usarse para obtener las respuestas.
Esto permite que la aplicación haga uso de diferentes fuentes de información de manera simultánea y concurrente, condensando todo ese conocimiento en una respuesta para el usuario, lo que supone un gran salto para las tecnologías de pregunta-respuesta en español. Además, se trata de una aplicación accesible, al incorporar la funcionalidad Speech2Speech y poder formular y responder las preguntas por escrito o de forma oral.
BioMedIA se construyó a lo largo de las dos semanas que duró el Hackathon de SomosNLP, el mayor Hackaton de PLN en español hasta la fecha, en el que resultó ganador de la competición y se hizo con el premio especial al proyecto más popular. Esto dio la oportunidad al equipo del IIC de presentarlo en NAACL 2022.
La intervención de Alejandro Vaca constaba de dos partes: una presentación de posters y una presentación del paper que será próximamente publicado en los proceedings de la conferencia. La calidad de la solución, el atractivo diseño del póster y las habilidades comunicativas del presentador permitieron al IIC obtener el primer premio a la mejor presentación de póster. Desde el IIC seguiremos apostando por estar a la vanguardia de la Inteligencia Artificial y del PLN, participando en eventos como estos.