El desarrollo de las tecnologías del lenguaje y el Procesamiento del Lenguaje Natural (PLN) en español pasa por trabajar en herramientas y recursos lingüísticos en nuestro idioma. Estos, además, deben adaptarse a los diferentes dominios, como el de la sanidad, con diferentes particularidades del lenguaje.
De esto se ocupa, entre otras cosas, el Plan de Impulso de Tecnologías del Lenguaje (Plan TL) de la Secretaría de Estado para el Avance Digital (SEAD). En la jornada Infoday de Sanidad se difundieron algunas de sus iniciativas, así como las colaboraciones y resultados generados en el sector salud en concreto.
Metodología de anotación en salud
Desde el Instituto de Ingeniería del Conocimiento (IIC), se ha participado en un proyecto para para anotar exhaustivamente un corpus de narrativa clínica procedente de casos anonimizados. Un trabajo complejo al tratarse de un dominio con particularidades en cuanto a terminología y otros elementos. Marta Guerrero, coordinadora del área de Social Business Analytics y lingüista computacional en el IIC, compartió la metodología y recursos utilizados.
En total, más de 300.000 palabras, 64.000 oraciones y 18.000 lemas diferentes se anotaron lingüísticamente, además de identificar casos excepcionales del dominio médico (abreviaturas, unidades de medida, siglas, expresiones alfanuméricas, etc.). Y es que el equipo de lingüistas computacionales del IIC estudió la terminología médica para adaptar las herramientas de análisis del lenguaje estándar en español a este dominio.
De esta forma, a partir de un corpus perfectamente anotado que sirva de referente, se pueden aplicar técnicas de Procesamiento del Lenguaje Natural (PLN) en grandes volúmenes de textos clínicos. Este proyecto pone además a disposición de la comunidad científica y la industria médica una metodología de anotación rigurosa.
Antes de esta fase de anotación, también es importante hablar de la disponibilidad de los datos y el acceso a la información en el sector salud, temas que se trataron en otras mesas redondas. Después, hay que plantear necesidades, oportunidades y escenarios de aplicación, así como la evaluación de los avances de las tecnologías del lenguaje en sanidad y biomedicina.