La extracción automática de términos y su utilidad para aplicaciones de tecnología lingüística

Un término identifica de manera unívoca un concepto dentro de un dominio concreto. Por ejemplo, «función» puede significar conceptos diferentes en Matemáticas («Relación entre dos conjuntos que asigna a cada elemento del primero un elemento del segundo o ninguno» DRAE), en Lingüística («Papel relacional que, en la estructura gramatical de la oración, desempeña un elemento fónico, morfológico, léxico o sintagmático») o en Literatura («obra teatral representada»).

El objeto de la Terminología es fijar un término y sus variantes para que no haya lugar a la ambigüedad interpretativa. Necesariamente, todo glosario terminológico se refiere a un lenguaje especializado (o sublengua). La terminología puede ser monolingüe (que se aplica solo a la normalización terminológica en una lengua concreta) o plurilingüe (esencial para la traducción en dominios de especialidad).

Su utilidad ha hecho que desde los años 60 hayan proliferado los diccionarios terminológicos en diferentes campos (Medicina, Comercio, Derecho, Informática…), llegando incluso a ámbitos muy particulares como Instrumental médico o Medio Ambiente[i].

Dentro de la Lingüística Computacional, se vio de manera muy temprana su utilidad para el tratamiento de la información. No solamente en traducción automática, sino también en clasificación automática de documentos y recuperación de información.

En todos estos campos el diccionario de términos es un recurso básico. Al principio, se trasladaron a mano los glosarios impresos y se reutilizaron bases de datos terminológicas y ontologías, pero ninguna de ellas resuelve una característica inherente de los términos: que están continuamente creándose y cambiando.

El dinamismo de los términos es connatural a cualquier disciplina en desarrollo. Por tanto, la solución es un extractor automático de términos, que propone candidatos potenciales cuando analiza un texto nuevo. Este extractor automático de términos permite ahorrar tiempo a los traductores humanos, o puede detectar conceptos en el texto para su posterior clasificación o análisis.

Hay básicamente dos estrategias para los extractores terminológicos, mediante técnicas lingüísticas o estadísticas, aunque se suelen combinar para obtener mejores resultados. Las técnicas lingüísticas emplean listas de palabras (tanto de términos como de no términos). Con ellas, se filtra el texto, bien reconociendo términos o eliminando palabras gramaticales o generales.

Esta estrategia es la más simple y eficiente, pero suele ser muy incompleta, pues no permite reconocer neologismos, por ejemplo. Otra técnica lingüística más sofisticada es emplear reglas o patrones de formación de términos (por ejemplo, patrones sintagmáticos como N+ADJ+PREP+N, «infarto agudo de miocardio»). En algunos dominios, como el médico, se suelen emplear también listas de raíces y afijos («cardio-» «-patía») para detectar neologismos.

Con respecto a las técnicas estadísticas, su fundamento reside en medir el grado de distintividad de una palabra en contraste con su frecuencia en corpus general. Por ejemplo, la palabra «hepatitis» puede aparecer en un texto periodístico o literario, pero su frecuencia será menor que en un texto médico.

Los algoritmos estadísticos contrastan la frecuencia normalizada de una expresión concreta en el texto analizado con su frecuencia normalizada en textos generales o de otro dominio. De esta manera, otorgan un valor de distintividad o termicidad, que sirve para ordenar a los candidatos. Los que tengan mayor puntuación son más propensos a ser términos reales.

En general, las técnicas lingüísticas son más precisas pero no recogen fácilmente los nuevos términos, al tiempo que las listas son costosas de crear y mantener.

Por su parte, las técnicas estadísticas son muy fáciles de aplicar y mantener, consiguiendo un buen reconocimiento de neologismos. Sin embargo, suelen ser muy incompletas en cobertura (se dejan muchos términos fuera). Por ello, los extractores automáticos suelen combinar varias técnicas en diferentes grados.

Un analizador morfológico que etiquete las palabras desconocidas para su posterior validación

Click To Tweet

Moreno y Campillos (2015) proponen una técnica nueva, para usar en combinación con las otras: el empleo de un analizador morfológico que etiquete las palabras desconocidas, para su posterior validación. El analizador morfológico contiene un conjunto de reglas y diccionarios de raíces y terminaciones para el reconocimiento de palabras en español.

En este sentido, de un diccionario de 50.000 lemas de uso general se pueden reconocer más de 500.000 formas flexionadas (por ejemplo, de un infinitivo se pueden generar más de 50 formas verbales). Asumiendo que el analizador contiene básicamente palabras de uso general, todas aquellas que no reconozca pueden ser nombres propios, acrónimos… o términos especializados.

Por tanto, empleando primero un glosario de términos médicos y después el analizador se pueden reconocer tanto los términos ya conocidos como propuestas de candidatos nuevos. En cualquier caso, se debe entender que un extractor automático no puede dar una precisión absoluta, o muy alta, y que siempre un experto humano tiene que validar los candidatos a término propuestos.

La mejora y adaptación de los recursos terminológicos permitirán que las tasas de reconocimiento lleguen a niveles de experto y, en cualquier caso, actualmente ya permiten analizar instantáneamente grandes cantidades de textos, inabarcables para los humanos en un tiempo prudencial.

Referencia:

Moreno, A. y Campillos, L. (2015): «Combinación de estrategias léxicas y estadísticas para el reconocimiento automático de términos: su aplicación a un corpus de medicina», Lingüística Española Actual, XXXVII, 2, págs. 173-197.

[i] En la página de la Asociación de Autores Científico-Técnicos y Académicos http://www.acta.es/index.php/recursos/glosarios-especializados/listados-de-glosarios ofrecen hasta 90 glosarios trilingües

Blog

La extracción automática de términos y su utilidad para aplicaciones de tecnología lingüística

Sobre Antonio Moreno

Dejar un comentario Cancelar la respuesta

Búsqueda

Suscríbete

Categorías