Fonema en lingüística, cláusula en el ámbito legal o dermatitis en medicina. Los términos son palabras propias de un ámbito específico. Detectar estos conceptos clave, con un significado concreto dentro del ámbito en cuestión, puede ser un primer paso para clasificar un texto escrito según la especialidad o incluso el tema.
Por ello, hacerse con la terminología es esencial en Procesamiento del Lenguaje Natural (PLN), para detectarla automáticamente. Esta tarea requiere un trabajo especialmente retador ante un léxico que cambia o aumenta constantemente, como es el de la salud.
De esta necesidad, surge Multimédica, una herramienta de extracción de términos médicos en español que se desarrolla a partir de la investigación de la Cátedra de Lingüística Computacional que el Instituto de Ingeniería del Conocimiento (IIC) comparte con la Universidad Autónoma de Madrid (UAM).
Extracción creativa de terminología médica
Las nuevas enfermedades o los nuevos tratamientos necesitan nuevas palabras que los nombren. Es por esto que la terminología médica aumenta constantemente. En cantidad, el diccionario de la Real Academia de Medicina (RAM) tiene 65.000 entradas, una cifra importante si la comparamos con las 92.000 del diccionario de la Real Academia Española (RAE).
Según Antonio Moreno, director de la Cátedra UAM-IIC de Lingüística Computacional y del laboratorio de Lingüística Informática de la UAM, “la medicina es probablemente el dominio donde más rápidamente crecen las innovaciones léxicas” y, por ello, es necesaria “una herramienta que sepa reconocer un término o un candidato a ser un nuevo término en medicina”.
Y es que Multimédica no solo detecta los términos médicos en español de un informe clínico o un texto dado, sino que identifica creativamente los posibles nuevos términos que surgen constantemente en el ámbito de la salud.
¿Cómo hace esto? Ante la imposibilidad de aplicar un aprendizaje supervisado, por no conocer todos los términos para etiquetarlos, ni uno no supervisado, por no disponer de grandes volúmenes de documentos e informes médicos, Multimédica funciona a partir de diccionarios y reglas de formación de palabras que se utilizan habitualmente en el ámbito médico. “Conocemos prefijos, sufijos y reglas para combinarlos, de manera que podemos predecir creativamente las palabras nuevas que se van creando en el dominio médico”, explica Antonio Moreno.
Detección de términos médicos en PLN
La detección de términos o conceptos médicos clave se incluye en una primera fase del Procesamiento del Lenguaje Natural (PLN). Multimédica es útil en este aspecto, pues proporciona una idea rápida de lo que se habla en un texto dado, al destacar los términos médicos fundamentales.
Por un lado, la herramienta resalta en verde los términos contenidos en los diccionarios y que, por tanto, existen en el léxico médico. Por otro lado, aparecen en rosa los términos que reconoce en base a las reglas de formación de palabras, que serán las posibles nuevas palabras del lenguaje de la salud. Así pues, detecta “rinoconjuntivits” porque “rino-” es un prefijo médico que aparece en otros compuestos.
Tras este primer escaneo, explica Antonio Moreno, “anotamos o etiquetamos los conceptos médicos con códigos, para relacionar sinónimos y seguir procesando estos documentos de manera más eficiente”. El PLN en salud, y la detección de términos en concreto, permite agilizar la búsqueda de información y, en consecuencia, las tareas del profesional médico.
Además, permite revisar grandes volúmenes de documentos médicos y puede ayudar a descubrir relaciones entre entidades médicas – síntomas, enfermedades o medicamentos – que pueden pasar desapercibidas.