Inteligencia Artificial y lengua española deben ir unidas en un momento en el que el Procesamiento del Lenguaje Natural (PLN) avanza a pasos agigantados y estos sistemas forman ya parte de nuestro día a día. Esa fue una de las conclusiones del encuentro El español como idioma de la ciencia y la tecnología, que organizó Retina y en el que participó Marta Guerrero, coordinadora de los proyectos de PLN en el IIC.
Solo así nuestro idioma aprovechará todas las oportunidades que ofrece este ámbito y se desarrollarán herramientas de IA eficientes en español. Ya en el inicio, Cristina Gallach, comisionada Especial para la Alianza por la Nueva Economía de la Lengua, destacaba que la lengua es un elemento transversal, también en el contexto de la Inteligencia Artificial. Desde el Gobierno, quieren “asegurar que la lengua española está presente en el mundo digital y que se posicione en ámbitos como el de la IA”. Para ello, hay que prestar primero atención al desarrollo de los corpus y otros recursos lingüísticos.
Corpus en español para la Inteligencia Artificial
Marta Guerrero, que es también lingüista computacional, comentó en varias ocasiones la importancia del trabajo previo y humano que requiere el desarrollo de los corpus y los modelos del lenguaje denominados fundacionales. Cuanto mejores sean estos recursos, mejor hablará español la Inteligencia Artificial, que es sin duda el objetivo principal de todo este trabajo: “Actualmente nos comunicamos con las máquinas (traductores, chatbots, etc). Estamos rodeados de IA y queremos que hable nuestro idioma”, explicaba.
Sus compañeros de conversación también destacaron la importancia de darle al español protagonismo en el mundo de la IA. Por un lado, Richard Benjamins, chief AI and Data strategist de Telefónica, advertía que no potenciarlo supone perder muchas oportunidades culturales y de negocio, y Miguel Escassi, head of Government Affairs and Public Policy de Google Spain, comentaba que “ahora que estamos dando forma a la IA, es importante que se haga en español”, calificándolo de “tema urgente”.
También surgió el ya común debate de los sesgos que se pueden trasladar a las máquinas y de cómo en ese desarrollo de recursos en español se puede prestarles atención. Según Marta Guerrero, este problema está presente en los “datos del pasado” en los que se basan los modelos, pero se puede “tratar en varias capas del entrenamiento de las máquinas para no proyectarlos a futuro”. De nuevo, los corpus anotados marcarían la diferencia también en este aspecto.
La IA y el Español tienen que avanzar ambos cogidos de la mano.