Hay pocas dudas de que el español es una lengua rica, influenciada por la historia y el intercambio entre culturas, y que ahora también se encuentra con la tecnología. El cambio siempre implica miedo y adaptación. Hay miedo de que se pierda esa riqueza, de que la tecnología universal “normalice” nuestro idioma, cuando en realidad puede recuperar los matices y potenciarlos. Falta adaptarnos a la Inteligencia Artificial y a las tecnologías del lenguaje, utilizarlas para desarrollar digitalmente el español, estar a la última y decidir cómo queremos cambiar.
Hacia esta transformación digital inevitable, ¿de dónde partimos? Rodrigo Agerri, investigador Ramón y Cajal en PLN en el centro Hitz de la Universidad del País Vasco, abrió la última mesa redonda del XIV Seminario Internacional de Lengua y Periodismo con un dato: “el contenido no estructurado representa el 90% de la información”. Aquí es donde entran en juego las tecnologías del lenguaje y, en concreto, el Procesamiento del Lenguaje Natural (PLN), temas necesarios en la edición de este año: El español y las máquinas: lenguaje, ética y periodismo.
Miles de publicaciones, búsquedas y mensajes cada segundo, pero también noticias, informes de salud y documentos de patentes. Todos estos textos “esconden” información que puede ser útil, y quizás muchos de los problemas parten de que no lo sabemos: “sabemos que se están utilizando tecnologías del lenguaje, pero no sabemos la información disponible que tenemos sin tratar”, planteó Rodrigo Agerri.
¿Qué hacemos con el PLN?
El procesamiento del lenguaje natural (PLN) trabaja automáticamente con el lenguaje humano, en texto y voz, agilizando tareas relacionadas con la gestión y búsqueda de información o la traducción automática, por ejemplo. En cuanto al estado del arte del PLN en español, sabemos dónde tiene cabida, cómo hay que empezar a aplicarlo, darlo a conocer y, por qué no, cuidarlo.
PLN en diferentes sectores
No hablamos igual en todos los ambientes ni en todos los ámbitos, tampoco escribimos igual todos los textos y documentos. Dependiendo del sector, por ejemplo, cambian las estructuras lingüísticas que utilizamos y las palabras que elegimos para expresarnos.
Por eso existen los dominios: redes sociales, textos médicos, documentos legales… y cada uno genera problemas específicos para el procesamiento automático de texto, aunque se trate del mismo idioma. Hablamos de terminología, tecnicismos y otras fórmulas formales. A su vez, cada sector necesita aplicaciones diferentes: búsquedas específicas, relacionar información, clasificarla.
Por ello, Esteban Hernández, periodista y escritor que moderó la mesa redonda, propuso empezar por tener recursos ad hoc para determinados dominios y aplicaciones del PLN. “Las tecnologías del lenguaje tienen que dominar esos nuevos escenarios de comunicación”, explicó. Se refería también a tener en cuenta nuevos términos, abreviaturas e incluso emoticonos.
El PLN es transversal
Ante estas oportunidades, ante la realidad de que la tecnología es transversal y se impone en todos los sectores, hay que conocer qué puede ofrecernos. Solo de esta forma, sabremos lo que queremos y se avanzará con éxito en el desarrollo del procesamiento del lenguaje natural en español.
Esta es la propuesta de Carmen Torrijos, lingüista computacional en el Instituto de Ingeniería del Conocimiento (IIC). Para ella, “descuidar las tecnologías del procesamiento del lenguaje natural supone una pérdida de calidad en muchos procesos y un freno para el progreso en general”.
Hay que darlo a conocer, generar demanda y, en consecuencia, la inversión necesaria. ¿Cómo se consigue esto? Por un lado, apelando a las aplicaciones que más nos tocan, como los beneficios en salud de que un médico tenga un software de PLN. Desde su posición, desde la lingüística, “hay que hacer una labor de evangelización del procesamiento del lenguaje natural a las instituciones y los usuarios para que comprendan la necesidad de usar estas tecnologías”.
El PLN es tendencia
Lo cierto es que las tecnologías del lenguaje son una de las principales tendencias en tecnología e Inteligencia Artificial, y hay un interés creciente. Según Rodrigo Agerri, es cierto que hay investigación, hay demanda empresarial y hay un Plan de Impulso de Tecnologías del Lenguaje en España.
Esta iniciativa busca precisamente el desarrollo del procesamiento del lenguaje natural en nuestro país, con su aplicación e incorporación en el tejido industrial. Sin embargo, este esfuerzo resulta insuficiente para los expertos, por falta de técnicas apropiadas o de recursos. ¿Qué problemas tiene el PLN en español? ¿A qué retos se enfrenta?
Retos del procesamiento del lenguaje natural
Dar a conocer el procesamiento del lenguaje natural puede conseguir que se ponga el foco en sus beneficios y se empiecen a solucionar las carencias relacionadas con el desarrollo de las tecnologías del lenguaje en nuestro idioma. En el encuentro, también hubo lugar para estos problemas, los retos y lo que queda por hacer en español.
Anotación de textos y recursos lingüísticos
Faltan recursos en español. Esa fue una de las conclusiones más destacadas del debate. Antes de las herramientas automáticas, están los textos anotados, los recursos lingüísticos y un trabajo manual de personas, lingüistas computacionales en concreto, que dedican tiempo y conocimientos a etiquetar, codificar y, en definitiva, “enseñar” a la máquina a procesar nuestro lenguaje.
“Para entrenar modelos de lenguaje, hay que anotar textos”, recordó Rodrigo Agerri. En español, no tenemos un corpus sin etiquetar de referencia para desarrollar aplicaciones de calidad y sin sesgos. Tampoco hay corpus anotados para todos los dominios, que aborden la problemática de cada caso de procesamiento.
¿Qué lo impide? “Estos recursos son costosos y no hay una iniciativa pública de desarrollo digital del español”. Y no es por falta de expertos. Según Agerri, “tenemos capacidad intelectual para tener tecnologías lingüísticas a la par que con otro idioma; falta cooperación, estrategias y datos”.
Desventajas del PLN: inglés y normalización de la lenguaz
El nivel de las tareas básicas de PLN –etiquetar palabras o categorizar– define el nivel de un idioma en este ámbito. Y el español no está a la altura del inglés, lengua de referencia en el mundo tecnológico. “Si no lo hacemos nosotros, lo harán otros”, aseguró Rodrigo Agerri, recordando que mucha tecnología para el español ya se realiza en otros países.
Puede que el problema vuelva a ser la cooperación. Leticia Martín-Fuertes, lingüista computacional, comentaba que “el idioma anglosajón está más abierto al open data, nuestros corpus son nuestros”. Y apuntó otro de los miedos: ¿cómo afecta al lenguaje la tecnología?
Para ella, este es un miedo infundado por el autocorrector, que cambia palabras y se supone que participa de una estandarización y normalización del lenguaje, pero que no debería preocuparnos de momento. “Cuando surge una nueva tecnología que se relaciona con el lenguaje, es una catástrofe […] pero es muy difícil destruir una lengua”, aseguró.
Inteligencia Artificial y periodismo
Todo este debate en torno al PLN y la Inteligencia Artificial influye en las profesiones que utilizan principalmente el lenguaje en español para desarrollar sus actividades, como el periodismo. Ya hay periodismo hecho por máquinas, ¿o eso no es periodismo? ¿Pueden llegar a ocupar el puesto de un profesional? ¿O dejar solo una vertiente del periodismo, el de calidad, a los humanos?
Para Esther Paniagua, periodista dedicada temas de innovación y tecnología, las máquinas no hacen periodismo si nos referimos a interpretar la realidad. Lo que pueden hacer es escribir textos a partir de datos, a los que luego también hay que dar sentido.
Quizás la palabra sea “asistir” y tengamos que definir tareas, porque la IA también aporta en este sector: “Los algoritmos que crean contenido aportan volumen, precisión, personalización, accesibilidad, pero no pueden sustituir a los periodistas en comunicación compleja, juicio subjetivo o pensamiento experto”, comentó.
Viendo este problema desde fuera, Carmen Torrijos hizo su particular checklist sobre lo que quiere leer el consumidor medio de periodismo de análisis ante una noticia de importancia: mapa de la situación, motivación última, causas inmediatas, contexto, estimación de lo que va ocurrir y lanzamiento de hipótesis.
¿Qué partes de esta información periodística puede hacer una máquina y cuáles no? Para ella, la máquina fallaría probablemente en las causas y la motivación última que pueda tener una persona, pero, sobre todo, en la estimación y las hipótesis. Ante esto, se alegra de que “el esfuerzo del periodista se vaya a “librar” del mapa de situación, por ejemplo, y se pueda centrar en las causas, en las motivaciones, en la estimación de lo que va a ocurrir y en las hipótesis”.
Todas estas reflexiones, dudas y desafíos se expusieron en el seminario organizado anualmente por la Fundación del Español Urgente (Fundéu) y la Fundación San Millán de la Cogolla.
Adquirir una visi n de conjunto con respecto a los principales debates filos ficos en torno a las ciencias cognitivas y sus distintos enfoques te ricos