¿En qué idioma habla la Inteligencia Artificial? Sobre todo, en inglés, pero cada vez se están haciendo más esfuerzos para que esta tecnología se desarrolle también en español. Esto es lo plasmaron las jornadas sobre “Lengua española e Inteligencia Artificial” organizadas por la RAE en el marco de los cursos de verano de la Universidad Internacional Menéndez Pelayo (UIMP) en Santander.
Expertos en lenguaje e inteligencia artificial debatieron en este encuentro sobre cómo las máquinas aprenden y utilizan nuestro idioma, el papel de los lingüistas en esta tarea, el interés de las empresas tecnológicas o los proyectos de la RAE en este contexto. Las jornadas fueron inauguradas por Santiago Muñoz Machado, director de la RAE, y Carme Artigas, secretaria de Estado de Digitalización e Inteligencia Artificial, que destacaba que enseñar los idiomas de España a las máquinas es una prioridad estratégica del Gobierno.
Después, tuvo lugar una conversación sobre el entrenamiento de la IA en español y el Procesamiento del Lenguaje Natural (PLN) en la que participó Marta Guerrero, lingüista computacional y coordinadora de los proyectos de PLN en el Instituto de Ingeniería del Conocimiento (IIC), acompañada de Mercedes Sánchez, responsable técnica del CORPES (Corpus del Español del Siglo XXI) de la RAE, y Alfonso Ureña, catedrático de Informática y presidente de la Sociedad Española para el Procesamiento del Lenguaje Natural.
Este último destacaba los avances del PLN en todos los ámbitos y sectores de la sociedad, que no serían posibles sin recursos lingüísticos de calidad en nuestro idioma, como los corpus. “El lenguaje es y debe estar en el centro de nuestros esfuerzos para desarrollar la inteligencia artificial, y viceversa”, comentaba.
Corpus y modelos de referencia en español
Como destacaba Marta Guerrero, en el IIC llevamos más de 10 años trabajando en PLN en español. En este tiempo, se han desarrollado aplicaciones de clasificación automática de textos, de extracción de información, de análisis de sentimiento, etc. “Y hace un par de años apostamos por desarrollar nuestro propio modelo de lenguaje en español en el marco de un proyecto de investigación, ya que en ese momento no había casi ninguno en nuestro idioma”, explicaba la experta.
Una parte esencial de este proyecto y de cualquier modelo de lenguaje es la creación del corpus o conjunto de textos con los que se entrena. En el caso de RigoBERTa, que así se llama el modelo, se han utilizado 413 GB de datos o, lo que es lo mismo, 450.000 millones de palabras de cuatro fuentes en español. Conseguidos tras un proceso de selección y limpieza para asegurar la calidad de esos textos.
Desde la RAE también trabajan en el diseño del Corpus del Español del Siglo XXI (CORPES), compuesto de textos de novelas, obras de teatro, guiones de cine, noticias de prensa, transcripciones de conversaciones, entre otros. Mercedes Sánchez explicaba cómo los corpus permiten “conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados”, para que la IA aprenda en profundidad cómo funcionan las lenguas. La idea es que este sea un corpus de referencia para gran variedad de investigaciones.