Un sistema para responder preguntas sobre el dominio biomédico en español fue la propuesta de un equipo del Instituto de Ingeniería del Conocimiento (IIC) para participar en el Hackathon de PLN en español más grande hasta la fecha. BioMedIA, que así se llama el proyecto, ha sido el ganador de esta competición open source organizada por Somos NLP y que tenía como objetivo impulsar los recursos disponibles en nuestro idioma.
BioMedIA genera respuestas a preguntas abiertas sobre biomedicina, formuladas tanto de manera escrita como oral. Además, ha sido el proyecto del hackathon que más likes ha recibido por parte de la comunidad de Hugging Face, donde se han podido probar las aplicaciones, por lo que también ha obtenido el premio especial al proyecto más popular.
Sistema de preguntas sobre el dominio biomédico
El proyecto BioMedIA introduce técnicas de Procesamiento del Lenguaje Natural hasta ahora no explotadas en español. Por un lado, utiliza un avanzado sistema de búsqueda (Dense Passage Retrieval) para obtener textos relevantes acerca de la pregunta que recibe. Estos textos son a su vez filtrados y ordenados por importancia, gracias a un novedoso modelo de similar de textos en español (CrossEncoder). Finalmente, se condensa toda esa información para tratar de dar una explicación coherente y autocontenida.
Además, gracias a su funcionalidad Speech2Speech, la aplicación es accesible para aquellos con dificultades para escribir o leer, ya que tanto la pregunta como la respuesta pueden hacerse y reproducirse en formato audio.
El equipo del IIC estuvo formado por los data scientists Alejandro Vaca, David Betancur, Alba Segurado y Guillem García, y el Chief Data Scientist Álvaro Barbero. Para desarrollar la aplicación, utilizaron como base de datos de conocimiento biomédico el dataset Spanish Biomedical Crawled Corpus, desarrollado por el Barcelona Supercomputing Center en el contexto del Plan de Impulso de las Tecnologías del Lenguaje (Plan TL), además de otros corpus abiertos que fueron utilizados para entrenar los modelos de diferentes partes de la aplicación.
Algunos de estos corpus, al estar disponibles únicamente en el idioma inglés, fueron adaptados al español por el equipo mediante técnicas de traducción automática, y se publicaron de nuevo como corpus abiertos, aportando así nuevos recursos a la comunidad del PLN en español.
Proyectos para desarrollar el PLN en español
Todos los proyectos del Hackathon han podido contribuir al desarrollo del PLN en español con propuestas muy interesantes. En el podio, junto a BioMedIA, encontramos un modelo jurídico que tenía el objetivo de promover el conocimiento jurídico y agilizar la labor de quienes imparten justicia y un modelo de neutralización de género, que permite reescribir textos de manera inclusiva.
A través de estas competiciones, los equipos participantes tienen la oportunidad de hacer avanzar el estado del arte. Desde el IIC, seguiremos investigando en el campo del PLN en español y desarrollando todas las aplicaciones posibles.
Enhorabuena! Qué gran equipo hacéis en el IIC.
A por más!
Muchas gracias por las felicitaciones. Seguimos adelante, gracias!
Prosigan los éxitos IIC, ¡la transformación permanente, es el camino¡