Objetivo
Poner a disposición de la comunidad científica un corpus biomédico exhaustivo que permita ejecutar tareas de Procesamiento de Lenguaje Natural (PLN) sobre grandes volúmenes de texto.
Dentro del Plan Nacional de Impulso de Tecnologías del Lenguaje, que busca fomentar el desarrollo del PLN y la Traducción Automática (TA) en lengua española y lenguas cooficiales, el Centro Nacional de Investigaciones Oncológicas (CNIO) presentó una necesidad de procesamiento lingüístico sobre textos relativos a casos clínicos anonimizados en español.
Para poder estructurar la información contenida en esta narrativa clínica es necesario un trabajo de análisis y etiquetado lingüístico que permita identificar el dominio al que pertenece un texto, dividirlo en oraciones, lematizar correctamente la terminología específica y asignar a cada elemento la etiqueta con su información morfosintáctica.
Para poder trabajar en estos tres niveles es fundamental la elaboración de guías de anotación para fijar los criterios, además de la puesta en marcha de un sistema que combine la anotación manual con la configuración de la anotación automática.
Este estudio sobre narrativa clínica se ha realizado dentro del ámbito del Plan de Impulso de las Tecnologías del Lenguaje con el apoyo de la Secretaría de Estado para el Avance Digital.
Solución
Desarrollo ad hoc de componentes de procesamiento de textos para conseguir la adaptación al dominio médico de herramientas de análisis del lenguaje estándar.
Utilizando técnicas de Procesamiento del Lenguaje Natural (PLN), el IIC busca extraer valor de los grandes volúmenes de información no estructurada presentes en la narrativa clínica.
El punto de partida es un corpus de 1.000 casos clínicos anonimizados que se anotan en tres niveles lingüísticos: segmentación de oraciones, segmentación de formas o tokenización y etiquetado morfológico (POS).
Para ello, se utilizan aplicaciones de código abierto para el procesamiento automático del lenguaje natural. Por un lado, se revisan las herramientas ya existentes para otros idiomas y se observa su comportamiento frente a las particularidades del lenguaje médico. Por otro lado, se adaptan a este dominio las herramientas existentes en español para el lenguaje estándar.
Además, es necesario realizar anotaciones de manera individual para medir después el acuerdo, tanto entre anotadores humanos como entre la anotación manual y la anotación automática, cumpliendo unas métricas de precisión mínimas con el fin de asegurar la calidad de los datos anotados.
En este proyecto los estándares mínimos eran altamente exigentes, ya que el acuerdo requerido entre anotadores humanos y anotación automática era de un 99% para la segmentación del texto en frases (split), de un 98% para la segmentación en formas (tokenización) y de un 96% para el etiquetado morfológico y de part of speech (POS). El equipo del IIC consiguió alcanzar un resultado de 99.3%, 99.9% y 98.3% respectivamente.
El éxito en estas métricas se debe al trabajo del equipo de expertos lingüistas computacionales, que ha estudiado a fondo casos específicos de la terminología para adaptar las herramientas de análisis del lenguaje estándar al dominio médico: en total, más de 300.000 palabras, 64.000 oraciones y 18.000 lemas diferentes se anotaron lingüísticamente, además de casos excepcionales del dominio médico (abreviaturas, unidades de medida, siglas, expresiones alfanuméricas…) para poner a disposición de la comunidad científica y la industria médica una rigurosa metodología de anotación.
Tanto los criterios diseñados por los lingüistas como la calidad y la consistencia de las anotaciones son revisados y validados por especialistas en narrativa clínica e incorporados a las guías de anotación.
Beneficio
Con esta aportación del IIC, se avanza un paso más en el camino hacia una herramienta integral capaz de segmentar y anotar textos que esté adaptada específicamente a la terminología médica y que podría, además, adecuarse a otros ámbitos.
El riguroso proceso llevado a cabo por los profesionales del IIC asegura la alta calidad exigida a la herramienta de anotación del lenguaje médico, creando una versión mejorada y adaptada al dominio de las herramientas de análisis lingüístico en español, a través de la modificación y el enriquecimiento de sus recursos de base.
Con este trabajo se sientan las bases para desarrollos posteriores que permitan detectar entidades médicas (medicamentos, síntomas, enfermedades…) y establecer relaciones entre ellas, así como la implementación de modelos de aprendizaje automático y el desarrollo de diversas soluciones por parte del Plan Nacional de Tecnologías del Lenguaje. Los médicos podrán además gracias a esta herramienta realizar búsquedas más complejas y ágiles y analizar archivos de texto, al contar con información estructurada para introducir en bases de datos.