Algunas de las últimas novedades en Inteligencia Artificial pasan por la lingüística computacional. Por ello, resulta esencial estar al tanto de lo sucedido con esta disciplina y sus campos de actuación para avanzar en un ámbito, el de las tecnologías del lenguaje, con cada vez más potencial en la sociedad digital.
La Revista de Privacidad y Derecho Digital, dirigida por Pablo García Mexía y editada por la editorial jurídica RDU, publica en su último número un estudio sobre la situación actual de la lingüística computacional y las tecnologías del lenguaje, firmado por Carmen Torrijos, lingüista computacional en el Instituto de Ingeniería del Conocimiento (IIC).
El artículo da a conocer en profundidad la lingüística computacional como disciplina a un público especializado en derecho digital, no muy familiarizado con las últimas tecnologías lingüísticas, pero con un interés creciente en la ciencia de datos y los avances de la Inteligencia Artificial.
Introducción a la lingüística computacional y fases básicas de procesamiento lingüístico
El artículo realiza una revisión del estado del Procesamiento del Lenguaje Natural (PLN) fundamentalmente en España, resumiendo el avance técnico de la disciplina en los últimos años. Se trata de la actividad principal de la lingüística computacional. En los primeros capítulos, se parte de una revisión histórica de la disciplina para después hacer un primer acercamiento metodológico al procesamiento lingüístico.
El primer capítulo contiene una breve introducción al concepto de lingüística computacional como hibridación entre la lingüística teórica y las ciencias de la computación. Se destacan determinados hitos en la evolución de la disciplina, desde sus inicios en los años 60 hasta su inclusión en el reciente mapa español de capacidades tecnológicas.
El segundo capítulo presenta las fases básicas del procesamiento automático del lenguaje: división del texto en frases completas, separación en palabras o tokenización, lematización, anotación morfológica, anotación sintáctica y gramáticas computacionales. Describe también las herramientas de análisis lingüístico conocidas como parsers y el funcionamiento de los sistemas de reglas, que tradicionalmente se han configurado en forma de pipelines, donde la salida del proceso anterior es la entrada del siguiente hasta conseguir un análisis completo. Una vez superadas estas fases, podemos adentrarnos en la codificación formal de la semántica.
Machine Learning y modelos de lenguaje
Después, el artículo se centra en las técnicas de Machine Learning que permiten entrenar modelos e inferir patrones del lenguaje. A partir de los corpus o conjuntos de textos y, en algunos casos, de su exhaustiva anotación, los modelos de aprendizaje automático pueden procesar el lenguaje con cada vez más precisión.El tercer capítulo introduce el concepto de corpus, la importancia de su selección y diseño como base para cualquier proyecto de PLN y sus características imprescindibles: completo, representativo, aleatorio y equilibrado. Como parte fundamental de los procesos de aprendizaje automático o Machine Learning, se describe en profundidad la metodología de anotación por pares, que consiste en la creación de corpus anotados para poder entrenar modelos de aprendizaje supervisado que detecten determinados fenómenos lingüísticos.
El capítulo cuarto profundiza en las tecnologías PLN más avanzadas, como son los modelos de lenguaje no supervisados y la vectorización de palabras (embeddings). En los últimos años, el estado del arte en diversas tareas clásicas se ha visto superado por la combinación de un modelo no supervisado de alto rendimiento, como los modelos BERT, y diferentes modelos supervisados que realizan un fine-tuning especializado que permite una mayor eficacia del modelo en la tarea que tendrá que realizar. La capacidad de los modelos de lenguaje para almacenar información contextual en los embeddings es cada vez mayor, lo que ha supuesto grandes avances en el campo de la comprensión del lenguaje natural.
Tareas de PLN y el perfil del lingüista computacional en los equipos tecnológicos
Las tecnologías del lenguaje tienen varias aplicaciones en diferentes sectores y, por tanto, en nuestra vida cotidiana. La demanda crece a la vez que la consciencia sobre su utilidad, lo que hace necesario prestar atención a la formación de los lingüistas computacionales y el lugar que ocupan en los equipos tecnológicos.
En el capítulo quinto se analiza cuáles son y en qué consisten las aplicaciones de PLN más demandadas actualmente por empresas e instituciones, como el análisis del sentimiento, la clasificación masiva de texto, la traducción automática o las respuestas automáticas a preguntas.
La descripción de estas tareas y su comercialización sirve también para reflexionar sobre qué significa «comprensión» o «aprendizaje» en el ámbito de las máquinas, metáforas que utilizamos por analogía con los procesos cognitivos humanos.
Finalmente, se revisa la procedencia generalmente humanística de los lingüistas computacionales y su formación científica como perfiles mixtos, los últimos cambios en la formación universitaria en los niveles de grado y máster, el acceso al mercado laboral y la integración de estos nuevos profesionales en equipos multidisciplinares, a menudo junto con analistas y desarrolladores de software y científicos e ingenieros de datos.
A lo largo del artículo se expone la importancia de la lingüística computacional en la sociedad digital, pero es tan solo una más de las múltiples disciplinas tradicionales que se van a combinar con las nuevas tecnologías para proporcionar a los seres humanos datos, conclusiones y realidades que no podíamos extraer antes de la revolución digital.
Los algoritmos de análisis de texto, entre otros logros, están consiguiendo que la sociedad reevalúe sus propios sesgos a través de sus propios datos escritos. A la vista de estos nuevos impulsos, podemos decir que la disciplina híbrida apenas conocida por unos pocos que era la lingüística computacional hace unos años va camino de convertirse en una de las banderas del desarrollo digital.