Quién no conoce hoy en día las virtudes de ChatGPT o, en general, los avances de los modelos del lenguaje. El Procesamiento del Lenguaje Natural (PLN) está de moda y los equipos detrás de estos proyectos no solo están formados por científicos de datos, arquitectos y desarrolladores de software, sino también por lingüistas computacionales (LC).
Este perfil híbrido situado entre la Lingüística y la Inteligencia Artificial puede convertirse en el nuevo unicornio, ya que en la actualidad se requiere de preparación adicional que no siempre es fácil de conseguir a través de un grado universitario. En este post, repasamos las competencias que se requieren y algunos másteres y cursos para formarse en lingüística computacional.
Tareas de un lingüista computacional
Los lingüistas computacionales son los encargados de desarrollar y mantener los recursos –principalmente corpus anotados– que van a servir para entrenar a los modelos para hacer una tarea de PLN específica, como resumir textos, clasificarlos o extraer términos de los mismos. Por ejemplo, el corpus Ancora es un corpus clásico anotado con información morfosintáctica básica, con el que están entrenadas la mayoría de las herramientas de PLN en español (spaCy, Stanza). En la misma línea, el corpus Mlsum es un corpus de resúmenes de prensa escrita en varios idiomas que se utiliza para entrenar modelos que generan resúmenes.
Otra tarea fundamental en la que participan los lingüistas computacionales es la creación de asistentes conversacionales o chatbots, ocupándose del diseño de la conversación o de su entrenamiento para la detección de las intenciones del hablante.
En el desarrollo de IAs de generación de texto, como ChatGPT, pueden intervenir en la simulación de conversaciones para que la expresión sea más natural, se focalice en determinados temas o evite otros. Además, son usuarios avanzados de este tipo de herramientas donde, a través de los prompts, tenemos una nueva manera de dar instrucciones a las máquinas.
Competencias de un lingüista computacional
Aunque existen varios caminos para llegar a ser lingüista computacional, el itinerario principal suele partir de una carrera de Lingüística, Filología, Traducción e Interpretación o Humanidades, para después realizar un máster más específico en Procesamiento del Lenguaje Natural, con el que formarse también en estadística o programación.
También se puede acceder a esta especialización desde un grado en Informática, Matemáticas o similares. En este caso, también se completa la formación con un máster en Procesamiento de Lenguaje Natural, pero reforzando la parte de lingüística general y lengua española (donde se contemplaría tanto la parte semántica como la sintáctica y la morfológica).
Ya hay algunos másteres que prevén desde el diseño ambos itinerarios, pero esto no es algo habitual en los grados o másteres ofrecidos por las universidades españolas. Algunas de las competencias o asignaturas que suelen comprender los más especializados son:
- Diseño y desarrollo de corpus anotados. Uno de los trabajos más importantes de un lingüista computacional es la creación de corpus anotados de referencia. Los cursos de especialización enseñan metodologías y procesos de anotación, así como para su revisión, y las principales herramientas de anotación.
- Uso de herramientas y pipelines de PLN, como spaCy o Stanza. Estas herramientas permiten procesar y enriquecer un texto escrito con distintas capas de análisis (tokenización, lematización, morfología básica, sintaxis y semántica).
- Elaboración de otros recursos lingüísticos. Otra parte importante es la creación de otros recursos como diccionarios, taxonomías, ontologías, etc. Estos recursos se pueden utilizar como procesos intermedios para generar otros recursos más complejos o para crear motores de análisis basados en léxico y sus relaciones.
- Modelos de machine learning o deep learning. En la actualidad la mayoría de los corpus están destinados al entrenamiento de modelos de aprendizaje automático. Conocer los distintos tipos y saber ejecutarlos puede ser también tarea de un lingüista computacional.
- Métricas de análisis. El uso y manejo de las principales métricas, tanto de acuerdo entre anotadores como de evaluación de modelos, es parte del trabajo del LC.
- Uso de motores o aplicaciones de PLN, como pueden ser de análisis del sentimiento, detección de entidades, tecnologías del habla, traducción automática, sistemas de resúmenes y question-answering, etc.
- Diseño, configuración y testing de asistentes conversacionales. Dependiendo del uso que se les quiera dar, los chatbots necesitan de un proceso de entrenamiento para la detección de entidades e intenciones del que se ocupan los lingüistas computacionales. Además, tienen que saber configurar cada herramienta para su diseño (Dialogflow, Rasa, Watson, etc.), ya que el funcionamiento es bastante diferente. Después, en el testing, simularán conversaciones para ir perfeccionando el chatbot.
- Competencia en un lenguaje de programación (habitualmente Python) y estadística básica. Para el trabajo diario de un lingüista computacional es muy necesario manejar un lenguaje de programación y tener conocimientos de estadística para la compresión de métricas y evaluación de resultados.
Másteres de formación en lingüística computacional
Aunque en algunos grados de Lingüística ya es posible realizar una especialización de lingüística computacional, como es el caso del que se imparte en la Universidad Complutense de Madrid, actualmente la mejor manera de formarse en este campo es realizar un máster. Esta es la oferta reciente de algunas universidades españolas:
- Máster Universitario en Análisis y Procesamiento del Lenguaje (Universidad del País Vasco). Diseñado para Grado, Licenciatura o Ingeniería en Informática, Filología, Traducción e Interpretación, Telecomunicaciones, Matemáticas. 1 curso académico. Presencial.
- Máster Universitario en Lingüística y Tecnologías (Universidad Complutense de Madrid). Diseñado para Graduados y licenciados en Lingüísticas (titulación preferente), Filología, Informática, ingenierías y titulaciones equivalentes, Humanidades y Ciencias Sociales. 1 curso académico. Presencial.
- Máster Universitario en las Tecnologías de la Información y la Comunicación en la Enseñanza y el Tratamiento de Lenguas (UNED). Licenciados en cualquier rama de la Filología, Traducción e Interpretación, Lingüística o Humanidades, Informática (Gestión, Sistemas), Pedagogía, Psicopedagogía, Psicología, Filosofía, Biblioteconomía y Documentación. 1-2 cursos académicos.
- Máster de Procesamiento del Lenguaje e Inteligencia Artificial (Universidad de La Rioja). 1 curso académico. 2 semestres. Online.
Cursos de iniciación sobre tecnologías lingüísticas y PLN
Además de los másteres y como posible complemento de estos, hay muchos cursos para empezar a especializarse en herramientas o competencias asociadas a la lingüística computacional. Por ejemplo, hay bastantes cursos para desarrollar asistentes conversacionales, para aprender machine learning o mejorar en python o estadística. En el siguiente listado, enumeramos aquellos que son de carácter general y que están relacionados con la adquisición de herramientas, tecnologías o capacitación en PLN.
- Curso sobre aplicaciones de las tecnologías lingüísticas (Universidad Autónoma de Madrid). 40 horas. 1 mes. Presencial. Español.
- Tecnologías del lenguaje para lingüistas humanistas (Cálamo & Cran). 3 meses. 100 horas. Online. Español.
- Programación para humanistas (Cálamo & Cran). 3 meses. 100 horas. Online. Español.
- Procesamiento del Lenguaje Natural con Python (Udemy). Mooc online. Español.
- Introducción al Procesamiento de Lenguaje Natural (Coursera). Mooc online. Inglés. Subtítulos en español.
- Text Analytics with Python (EDX). 2 cursos. Inglés.
- Introducción al Procesamiento de lenguaje natural con spaCy (spaCy). Español. Gratuito.
- Corpus Linguistics: Method, Analysis, Interpretation (Future Learn). Mooc online. Inglés.
Cursos avanzados de PLN
Una vez adquiridas ciertas destrezas de PLN, es un buen momento para seguir profundizando en el aprendizaje automático. Para realizar los siguientes cursos es necesario tener conocimientos avanzados de programación y también una iniciación al machine learning:
- Natural Language procesing with Transformers. Se necesitan conocimientos de Python y de deep learning. Inglés. Gratuito.
- Natural Language Processing with Deep Learning. Mooc online. Inglés. Se necesitan conocimientos de Python y de machine learning. Se pueden ver los vídeos gratis.
- Natural Language Processing Specialization. Coursera. 4 cursos. Inglés. Se necesitan conocimientos de Python y de machine learning.
- Natural Language Processing with Machine Learning. Se necesitan conocimientos de Python, Tensorflow y machine learning. Inglés.
Ahora que ya sabes qué competencias se necesitan para ser un lingüista computacional, solo falta dar el paso de formarte y aportar a una de las piezas clave en el desarrollo de los motores y aplicaciones de Inteligencia Artificial. Verás, desde dentro, cómo se desarrollan, mejoran y automatizan tareas relacionadas con el lenguaje y formarás parte del progreso del Procesamiento de Lenguaje Natural.
Además, si quieres conocer la experiencia de algunas de las lingüistas computacionales del IIC, puedes escuchar nuestro podcast InnovaDATA. Nos contaron cuáles son sus funciones en el campo del PLN y las aplicaciones de su trabajo con proyectos reales de negocio, y también hablamos de su trayectoria y formación en lingüística computacional.
Funciones de un lingüista computacional