El Procesamiento del Lenguaje Natural (PLN) es una de las técnicas de Inteligencia Artificial que actualmente despierta más interés entre la comunidad investigadora y la industria. Es por esto que además de eventos y conferencias, también es protagonista de cada vez más competiciones o retos para poner a prueba el PLN y avanzar en consecuencia con nuevas soluciones.
IberLEF es uno de esos encuentros, centrado en tareas de PLN en español y que cuenta con una gran participación internacional. Los investigadores tienen entre 1 y 3 meses para enfrentarse a los retos propuestos y después se presentan los mejores resultados en el marco de la conferencia anual de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN), que este año se celebró en A Coruña.
Ahí estuvo Alejandro Vaca, data scientist del Instituto de Ingeniería del Conocimiento (IIC), que participó en tres de los retos de esta edición (LivingNER, QuALES y EXIST 2022) y consiguió presentar sus resultados. Los papers de estas investigaciones en PLN ya están disponibles.
Detección de menciones de seres vivos
Uno de los retos de IberLEF consistía en desarrollar una solución para detectar y enlazar en textos las menciones a seres vivos que pudiera haber (LivingNER).
En el artículo “Named Entity Recognition For Humans and Species With Domain-Specific and Domain-Adapted Transformer Models”, Alejandro Vaca explica cómo adaptó un modelo de PLN general al dominio biomédico, con el objetivo de mejorar el posterior ajuste del modelo a esta tarea. Efectivamente, los resultados muestran la eficacia de utilizar modelos adaptados a un dominio lingüístico concreto.
Adicionalmente, indagó el impacto que tiene el vocabulario base de un modelo en tareas de un dominio concreto, mostrando la ventaja que tienen los modelos entrenados específicamente para un dominio en tareas de detección de entidades. Finalmente obtuvo el segundo mejor resultado en la tarea principal de la competición: la de detección de entidades.
Aprender a responder preguntas en español
En el reto sobre Aprendizaje de respuestas a preguntas a partir de ejemplos en español (QuALES), Alejandro Vaca probó tres modelos de lenguaje en español, como RigoBERTa. Los entrenó y reentrenó con varios datasets y agregó las predicciones para obtener respuestas más fiables a las preguntas. Explica el proceso y los resultados en el artículo “Adversarial Question Answering in Spanish with Transformer Models”
Identificación y clasificación del sexismo
Otro de los retos tenía una doble tarea: identificar y clasificar el sexismo de los textos de redes sociales (EXIST 2022) y, por tanto, estaba compuesto por dos pruebas distintas. La primera consistía en detectar si hay o no sexismo en un texto (clasificación binaria) y la segunda tarea, por otro lado, tenía como objetivo clasificar el tipo de sexismo si lo hubiera (clasificación multiclase).
Tras una revisión de modelos y tareas similares, Alejandro Vaca optó por el ensamblado de modelos Transformer para obtener mejores resultados. Los detalles se explican en el artículo “Detecting and Classifying Sexism by Ensembling Transformers Models”. Al final, con su solución fue capaz de obtener el mejor resultado en ambas tareas entre los numerosos participantes de esta competición.
Los resultados completos de la competición IberLEF están disponibles en: http://nlp.uned.es/exist2022/#results
Sois un pilar fundamental para proyectar e implementar conocimiento o la investigación en nuestro tejido social, sobre todo vanguardia Española de la incipiente tecnología de la IA.
Esta garantía responsable que une, a las universidades, los proyectos de investigación y a las empresas en torno al avance eficaz de la IA, debería ser considerado como función superlativa en esta disrupción trepidante de la IA.
Gracias por existir.