La lingüística computacional, ese término que aúna letras y ciencias, que pone en relación a humanidades y tecnología, se ha puesto de moda. Si últimamente has leído algún medio digital, escuchado la radio o visto las noticias en la televisión, puede que ya te hayamos explicado en qué consiste.
Si aun así te has perdido algo, te damos las claves de esta disciplina que puedes consultar en diferentes medios:
- El País Tecnología: Los lingüistas que enseñan a leer, hablar y escuchar a las máquinas
- Antena 3 Noticias: ¿Quién está detrás de Siri, Cortana o Alexa?
¿Qué es la lingüística computacional?
La lingüística computacional es una disciplina que se sitúa entre la lingüística y la Inteligencia Artificial, que une ambos mundos para agilizar y mejorar tareas que tienen que ver con el lenguaje humano, la información y la comunicación.
Esta disciplina trabaja para que las máquinas procesen automáticamente el lenguaje que los seres humanos utilizamos para escribir o hablar. ¿Cómo se consigue? A través de técnicas de Procesamiento del Lenguaje Natural (PLN), algoritmos y modelos de machine learning.
Si además has estado atento a nuestras apariciones en medios, sabrás que es una de las salidas laborales más actuales de carreras como traducción o filología, que necesita de compañeros ingenieros para desarrollarse y ofrecer soluciones reales y que los asistentes virtuales no lo son todo, quizás solo la muestra más visible de un trabajo que tiene muchas aplicaciones.
¿Para qué sirve la lingüística computacional?
Las aplicaciones de la lingüística computacional están presentes en nuestro día a día. Si una máquina “entiende” y analiza la información recogida en audio o texto, puede traducirla, clasificarla, resumirla, hacer búsquedas sobre ella y relacionarla con otra información.
Todo ello automáticamente y sobre grandes volúmenes de texto. Más aún, la máquina puede aprender a responder y “conversar”; entre comillas porque se trataría de una conversación limitada a diálogos y otras reglas que se le han proporcionado anteriormente.
Y es que todas estas aplicaciones se consiguen a partir reglas lingüísticas y muchos ejemplos de textos previamente anotados por los lingüistas computacionales. Reflejo de esta nueva disciplina es la trayectoria de Carmen Torrijos, traductora reconvertida a lingüista computacional en el Instituto de Ingeniería del Conocimiento (IIC), donde empezó a trabajar “por casualidad” en proyectos sobre tecnologías del lenguaje.
¿Qué función realiza un lingüista computacional?
Contaba su experiencia como lingüista computacional en El País Tecnología: “no sabía ni que existía la lingüística computacional […] Yo era traductora especializada en tecnología”.
Así que aprendió sobre la marcha, de manera autodidacta. “Un poco de formación sobre programación ayuda mucho y es necesaria”, reconocía Carmen Torrijos. Y una base de matemáticas, aunque lo justo para desarrollar cada tarea que se le ponía por delante, porque también hubo desafíos.
Hasta ahora, ha trabajado con muchos tipos de texto, extrayendo el valor que “esconden” para aprovechar toda la información posible. En concreto, se encarga de trabajar el procesamiento y comprensión del lenguaje por parte de las máquinas, antes de la fase de generación. “Es necesario un volumen grande de textos y de reglas que en un primer momento tiene que crear un lingüista”, explicaba Carmen Torrijos en un reportaje de La Cadiera, programa de Aragón Radio.
Entre sus labores, se encuentra la anotación de corpus o conjuntos de textos: la segmentación de frases, de palabras y la categorización de recursos lingüísticos, es decir, etiquetar las partes de las que se compone un discurso. “Puedes decirle [a la máquina] qué partes del discurso son artículos, verbos o adjetivos, si un adjetivo tiene una carga positiva o negativa. Y todo se construye, lo aprende, en base a reglas”, explicaba en el mismo programa.
Los lingüistas computacionales están entre las profesiones del futuro a las que se hizo referencia en un programa especial de A golpe de bit, en Radio Exterior de España. Aquí se puso el foco en los perfiles híbridos, técnico-humanistas y una frontera difusa entre ciencias y letras. “Hacemos una especie de “traducción” entre el lenguaje natural y lenguaje formal, que es el lenguaje de la programación, las matemáticas o la lógica”, explicaba Nuria Aldama, que también es lingüista computacional en el IIC.
Si resumimos, la lingüística computacional consiste en señalar aspectos complejos del lenguaje y transmitirlos a la máquina en forma de ejemplos codificados con la ayuda de ingenieros. Sin embargo, a veces hay que insistir en ciertos matices, palabras y estructuras.
¿Cómo aprenden las máquinas de nuestro lenguaje?
¿Cómo aprenden las máquinas los matices del lenguaje? ¿Cómo se resuelven las confusiones que pueden causar los acentos o las palabras con diferentes significados? Con más ejemplos: “ante un problema concreto, recopilamos la cantidad de textos o documentos que hace falta para estudiar ese aspecto” explicaba Marta Guerrero, lingüística computacional y coordinadora del área de Social Business Analytics en el IIC, en el programa Por Tres Razones de RNE.
También hay que mostrarles diferentes registros del lenguaje y la terminología o expresiones específicas de cada ámbito. Así pues, los procesos también cambian dependiendo del dominio con el que estamos trabajando: redes sociales, salud, legal, etc.
Solo así podemos analizar adecuadamente las redes sociales, por ejemplo. “Lynguo nos permite saber de qué está hablando la gente. Nadie puede leer tres millones de tweets, pero un sistema automático, sí”, explicaba Álvaro Barbero, chief data scientist en el IIC, en La Tarde de COPE. Así pues, con el PLN podemos analizar el contenido de muchas publicaciones de usuarios a la vez, pero también saber lo que sienten: “con el análisis de sentimiento detectamos emociones, intencionalidad y opinión a través de las estructuras lingüísticas que utiliza el usuario”, comentaba Carmen Torrijos en el mismo programa. Al final “podemos ver la conversación que surge en torno a temas, empresas y marcas”, añadía Nuria Aldama en Radio Exterior.
Además, las técnicas de PLN pueden agilizar tareas en entornos donde el tiempo es un factor determinante. Por ejemplo, en el ámbito sanitario: “la narrativa clínica se puede procesar automáticamente para añadirla a una base de datos, sin que el médico tenga que hacer un esfuerzo en escribir de otra manera”, destacaba Torrijos en Aragón Radio.
Y es que, por muchos emoticonos que pongamos, la clave siempre está en el texto, en lo que expresamos con las palabras. “Lo revelador es lo que escribimos, no el like”, explicaba también para Hoy Empieza Todo en Radio 3. “Lo que más valor tiene es el texto libre, información no estructurada […] Extraemos datos que ayudan a los médicos a realizar búsquedas o asistirlos en el diagnóstico a partir de lo que ellos mismos escribieron”. De esta forma, el procesamiento automático del lenguaje también puede salvar vidas.
Lingüistas computacionales e ingenieros colaboran en PLN
Todas estas aplicaciones son fruto de un trabajo entre dos mundos. Lingüistas e ingenieros trabajan juntos para sacar adelante herramientas útiles para el procesamiento automático del lenguaje en diferentes sectores y con distintos fines.
Decíamos que los lingüistas aprenden programación y matemáticas, pero sus compañeros también tienen que recordar el análisis sintáctico, las reglas del lenguaje y la semántica. Los ingenieros son los encargados de codificar el lenguaje para que la máquina aprenda sobre el lenguaje humano y sus particularidades. Al final, resumía Álvaro Barbero en RNE, “intentamos que la máquina pase ese lenguaje complejo y que tiene tantos matices a números que pueda entender y con los que tomar decisiones al respecto”.
¿Cómo colaboran perfiles tan diferentes? ¿Cómo se superan los posibles prejuicios? “En el IIC, la frontera no tiene ningún sentido”, explicaba Carmen Torrijos en La Tarde de COPE. Para ella, las claves son la voluntad, el entendimiento y, sobre todo, la paciencia. Paciencia al aprender y paciencia al explicar al compañero lo que aportas, porque la comunicación entre estas disciplinas es lo que saca adelante los proyectos.
Para Barbero, el PLN depende de “un aprendizaje cruzado entre los dos campos que permite hacer algo que funcione”. Ambas disciplinas tienen que aprender de la otra. Y lo que al principio “no es nada fácil”, según Torrijos, genera “un intercambio muy interesante”.
Como resultado de esta colaboración, los problemas se resuelven mejor. “Se consigue un equipo potente en la resolución de problemas del mundo real, que no son de una sola disciplina, sino más integrales, y que hay que afrontar de una forma colaborativa”, explicaba Carmen Torrijos para Aragón Radio.
Retos de la lingüística computacional
Los retos de la lingüística computacional son tan variados como los aspectos y variedades del lenguaje que a la máquina le quedan por aprender. Estos suelen coincidir con lo más nuestro, como las bromas, la ironía o el lenguaje figurado. Álvaro Barbero lo resumió así en La Tarde de COPE: “las máquinas no entienden el mundo real”.
Por tanto, a falta de contexto, cometen errores. Es más, muchas veces también aprenden de los nuestros, y nos corrigen: “hay mucho margen de error porque nosotros al hablar somos imprecisos, nos cortamos las frases, duplicamos, volvemos a la misma idea… la máquina no”, explicaba Marta Guerrero en RNE.
¿Por qué ocurre esto? Porque las máquinas no aprenden igual que los humanos, sino con ejemplos aislados, viendo lo mismo una y otra vez. Esto les dificulta entender la intencionalidad con la que hablamos o lo que en el fondo queremos decir.
Es el caso de la ironía que muchas personas tampoco captan. Carmen Torrijos puso un ejemplo para Antena 3 Noticias: “Si tú haces una frase en positivo, aunque nosotros por el conocimiento del mundo sabemos que es negativa, para la máquina va a ser positiva”, explicaba. Todo lo que ha visto anteriormente le dice que es así, que un “sí” no puede significar lo mismo que un “no”.
Mientras todo esto se resuelve, y vistos los procesos, las máquinas todavía necesitan el respaldo de un gran equipo humano y multidisciplinar para seguir respondiendo a nuestras dudas. Al final, como destacaron en el mismo informativo, precisan de una «inteligencia natural» que revise su trabajo y matice sus errores para seguir aprendiendo de nosotros y de nuestro lenguaje.