Anotación automática de narrativa clínica

Objetivo

Poner a disposición de la comunidad científica un corpus biomédico exhaustivo que permita ejecutar tareas de Procesamiento de Lenguaje Natural (PLN) sobre grandes volúmenes de texto.

cnio

Dentro del Plan Nacional de Impulso de Tecnologías del Lenguaje, que busca fomentar el desarrollo del PLN y la Traducción Automática (TA) en lengua española y lenguas cooficiales, el Centro Nacional de Investigaciones Oncológicas (CNIO) presentó una necesidad de procesamiento lingüístico sobre textos relativos a casos clínicos anonimizados en español.

Para poder estructurar la información contenida en esta narrativa clínica es necesario un trabajo de análisis y etiquetado lingüístico que permita identificar el dominio al que pertenece un texto, dividirlo en oraciones, lematizar correctamente la terminología específica y asignar a cada elemento la etiqueta con su información morfosintáctica.

Para poder trabajar en estos tres niveles es fundamental la elaboración de guías de anotación para fijar los criterios, además de la puesta en marcha de un sistema que combine la anotación manual con la configuración de la anotación automática.

Este estudio sobre narrativa clínica se ha realizado dentro del ámbito del Plan de Impulso de las Tecnologías del Lenguaje con el apoyo de la Secretaría de Estado para el Avance Digital.

Solución

Desarrollo ad hoc de componentes de procesamiento de textos para conseguir la adaptación al dominio médico de herramientas de análisis del lenguaje estándar.

Utilizando técnicas de Procesamiento del Lenguaje Natural (PLN), el IIC busca extraer valor de los grandes volúmenes de información no estructurada presentes en la narrativa clínica.

El punto de partida es un corpus de 1.000 casos clínicos anonimizados que se anotan en tres niveles lingüísticos: segmentación de oraciones, segmentación de formas o tokenización y etiquetado morfológico (POS).

Para ello, se utilizan aplicaciones de código abierto para el procesamiento automático del lenguaje natural. Por un lado, se revisan las herramientas ya existentes para otros idiomas y se observa su comportamiento frente a las particularidades del lenguaje médico. Por otro lado, se adaptan a este dominio las herramientas existentes en español para el lenguaje estándar.

Además, es necesario realizar anotaciones de manera individual para medir después el acuerdo, tanto entre anotadores humanos como entre la anotación manual y la anotación automática, cumpliendo unas métricas de precisión mínimas con el fin de asegurar la calidad de los datos anotados.

En este proyecto los estándares mínimos eran altamente exigentes, ya que el acuerdo requerido entre anotadores humanos y anotación automática era de un 99% para la segmentación del texto en frases (split), de un 98% para la segmentación en formas (tokenización) y de un 96% para el etiquetado morfológico y de part of speech (POS). El equipo del IIC consiguió alcanzar un resultado de 99.3%, 99.9% y 98.3% respectivamente.

El éxito en estas métricas se debe al trabajo del equipo de expertos lingüistas computacionales, que ha estudiado a fondo casos específicos de la terminología para adaptar las herramientas de análisis del lenguaje estándar al dominio médico: en total, más de 300.000 palabras, 64.000 oraciones y 18.000 lemas diferentes se anotaron lingüísticamente, además de casos excepcionales del dominio médico (abreviaturas, unidades de medida, siglas, expresiones alfanuméricas…) para poner a disposición de la comunidad científica y la industria médica una rigurosa metodología de anotación.

Tanto los criterios diseñados por los lingüistas como la calidad y la consistencia de las anotaciones son revisados y validados por especialistas en narrativa clínica e incorporados a las guías de anotación.

Beneficio

Con esta aportación del IIC, se avanza un paso más en el camino hacia una herramienta integral capaz de segmentar y anotar textos que esté adaptada específicamente a la terminología médica y que podría, además, adecuarse a otros ámbitos.

El riguroso proceso llevado a cabo por los profesionales del IIC asegura la alta calidad exigida a la herramienta de anotación del lenguaje médico, creando una versión mejorada y adaptada al dominio de las herramientas de análisis lingüístico en español, a través de la modificación y el enriquecimiento de sus recursos de base.

Con este trabajo se sientan las bases para desarrollos posteriores que permitan detectar entidades médicas (medicamentos, síntomas, enfermedades…) y establecer relaciones entre ellas, así como la implementación de modelos de aprendizaje automático y el desarrollo de diversas soluciones por parte del Plan Nacional de Tecnologías del Lenguaje. Los médicos podrán además gracias a esta herramienta realizar búsquedas más complejas y ágiles y analizar archivos de texto, al contar con información estructurada para introducir en bases de datos.

Proyectos relacionados

Resumen de privacidad
Instituto de Ingeniería del Conocimiento

En Asociación para el Desarrollo de la Ingeniería del Conocimiento usamos cookies propias y de terceros necesarias para que nuestro sitio web funcione adecuadamente y para fines analíticos. política de cookies

Al pulsar “Guardar cambios”, se guardará la selección de cookies que hayas realizado. Si no has seleccionado ninguna opción, pulsar este botón equivaldrá a rechazar todas las cookies.

Cookies necesarias

Son aquellas que ayudan a hacer una página web utilizable activando funciones básicas como la navegación en la página y el acceso a áreas seguras de la página web. La página web no podrá funcionar adecuadamente sin estas cookies. Le informamos de que puede configurar su navegador para bloquear o alertar sobre estas cookies, sin embargo, es posible que determinadas áreas de la página web no funcionen. Estas cookies no almacenan ninguna información de identificación personal. El reproductor de Youtube usa cookies publicitarias, el cual usamos para poder ver vídeos insertados.

Cookies de analítica

Son aquellas que permiten al Editor de las mismas, el seguimiento y análisis del comportamiento de los usuarios de los sitios web a los que están vinculadas. La información recogida mediante este tipo de cookies se utiliza en la medición de la actividad de los sitios web, aplicación o plataforma, con el fin de introducir mejoras en función del análisis de los datos de uso que hacen los usuarios del servicio. Las cookies analíticas utilizadas son:

Cookies que se utilizan:
_ga (Google Analytics) | _gid (Google Analytics) |