Las técnicas de Procesamiento del Lenguaje Natural (PLN) permiten automatizar procesos o extraer valor a partir de grandes volúmenes de texto. Es lo que pretende la anotación lingüística de textos relativos a casos clínicos anonimizados en español, procedentes del Centro Nacional de Investigaciones Oncológicas (CNIO).
Estudio sobre la narrativa clínica
Se trata de un estudio sobre narrativa clínica realizado por el IIC que sienta las bases fundamentales para la futura detección de medicamentos, enfermedades, síntomas u otras entidades médicas en los textos y, de esta forma, establecer relaciones entre ellos.
El estudio se enmarca en el Plan Nacional de Impulso de las Tecnologías del Lenguaje, con el apoyo de la Secretaría de Estado para el Avance Digital. En concreto, más de 300.000 palabras, 64.000 oraciones y 18.000 lemas diferentes se han anotado lingüísticamente para estructurar la información escrita por los profesionales. De esta forma, se realiza un trabajo de análisis en tres niveles:
- Se divide el texto en oraciones.
- Se lematiza la terminología específica.
- Se asigna a cada elemento la etiqueta con su información morfosintáctica.
Pero antes, para poder etiquetar correctamente cada uno de los tres niveles anteriores, una parte esencial del trabajo es la creación de guías de anotación, en las que se fijan los criterios que los lingüistas van a seguir, tanto en el etiquetado manual como después en la configuración del etiquetado automático con técnicas de PLN. La elaboración de estas guías puede consumir una parte importante del proyecto, ya que posteriormente deben ser revisadas y validadas por los expertos, pero sientan las bases lingüísticas para una anotación de calidad en narrativa clínica.
Una anotación de calidad en información médica
Y es que, entre los objetivos de este trabajo, se encuentra el de poner a disposición de la comunidad científica y la industria médica un corpus biomédico exhaustivo y una metodología de anotación diseñada y validada por lingüistas en colaboración con expertos en narrativa clínica.
De esta forma, se facilitaría en un futuro a los profesionales la toma de decisiones basada en el análisis de textos y las relaciones comentadas, así como la búsqueda avanzada a partir de esa información médica estructurada en bases de datos.
Asegurar la calidad de los datos es fundamental cuando se trabaja con una información delicada como es la médica. Por ello, se ha apostado por la combinación del procesamiento automático del lenguaje natural con anotaciones manuales individuales, a partir de las que se mide el acuerdo entre anotadores por una mayor calidad.
En este proyecto, los estándares mínimos eran altamente exigentes, ya que el acuerdo requerido entre anotadores humanos y anotación automática era de un 99% para la segmentación del texto en frases (split), de un 98% para la segmentación en formas (tokenización) y de un 96% para el etiquetado morfológico y de part of speech (POS). El equipo del IIC consiguió alcanzar un resultado de 99.3%, 99.9% y 98.3% respectivamente.
Adaptación al dominio médico
El éxito en estas métricas se debe al trabajo del equipo de lingüistas computacionales del IIC, que ha estudiado a fondo casos específicos de la terminología para adaptar las herramientas de análisis del lenguaje estándar al dominio médico:
- Abreviaturas médicas
- Unidades de medida en medicina
- Siglas
- Expresiones alfanuméricas
Un proceso riguroso que aporta la calidad exigida a la herramienta de anotación médica a través de dos procedimientos:
- Estudiando las herramientas de anotación que han sido desarrolladas para el inglés y observando su comportamiento frente a las particularidades de los textos médicos.
- Creando una versión adaptada a partir de las herramientas existentes de análisis lingüístico en español mediante el enriquecimiento de sus recursos de base.
Con esta aportación del IIC, se avanza un paso más en el camino hacia una herramienta integral capaz de segmentar y anotar textos de manera automática, adaptada a un dominio concreto y que podría además adecuarse a otros ámbitos.