El lenguaje biomédico, debido a su alto contenido en expresiones específicas como unidades de medida, nombres de sustancias o códigos alfanuméricos, plantea un número no desdeñable de dificultades a la hora de procesarlo automáticamente.
Se trata de un proyecto costoso en tiempo y esfuerzo, que implica a profesionales de distintos ámbitos y que requiere una inversión significativa. No obstante, y a la vista de los beneficios que puede aportar a largo plazo, aplicar las últimas técnicas de Procesamiento del Lenguaje Natural (PLN) a los datos clínicos conservados en texto es un desafío que muchas entidades sanitarias han abordado sin dudar.
La importancia del procesamiento de información médica radica en que, una vez superadas las fases iniciales de procesamiento del texto, las posibilidades de añadir capas de análisis son ilimitadas:
- detección de entidades nombradas como hospitales o fármacos,
- detección de entidades médicas como genes,
- enfermedades o síntomas,
- etiquetado de relaciones de causa-efecto…
Además de los anteriores, existen muchos otros procesos inteligentes que optimizan y facilitan el trabajo de los profesionales. Como veremos a continuación, para lograr estos objetivos es fundamental contar con una herramienta de análisis lingüístico que esté adaptada a las particularidades del dominio médico.
El corpus como punto de partida en la narrativa clínica
El punto de partida para cualquier proyecto de procesamiento de lenguaje es siempre un corpus: un conjunto de textos que debe ser completo, representativo, aleatorio y equilibrado.
En el dominio médico, la obtención de un corpus que reúna estos requisitos ya plantea las primeras dificultades, dado que los registros clínicos conservados por los centros hospitalarios no siempre están preparados para servir de base a un proyecto de PLN.
A pesar de tratarse de registros informatizados, pueden aparecer problemas técnicos de acceso a la información o de formato, y una vez solventados hay que proceder a la anonimización de los casos clínicos para proteger la privacidad de los pacientes.
Finalmente, en la mayoría de los casos lo que hemos obtenido es información no estructurada, redactada por los médicos en lenguaje natural, que no tiene el formato necesario para su inclusión en una base de datos. Por esta razón, la principal metodología consiste en someter los textos a las tres capas básicas de análisis lingüístico.
Fases de la metodología en el procesamiento de narrativa clínica
En el Procesamiento del Lenguaje Natural hay tres fases iniciales que permitirán después añadir capas superiores de análisis lingüístico:
Fase 1. Segmentar en oraciones el texto clínico
Procesar un texto significa, en una primera fase, segmentarlo en oraciones: hacer que la herramienta de análisis lingüístico sepa dónde empieza y dónde acaba una oración a través de reglas que harán que reconozca determinados caracteres como finalizadores de frase, como puede ser el punto seguido de mayúscula.
Ahora bien, pueden aparecer imprevistos: en ocasiones los caracteres no marcan claramente el final de la frase, sino que podrían ser el final de una sigla o una abreviatura, y es necesario encontrar el criterio lingüístico para discriminar unos casos de otros. Un ejemplo ambiguo podría ser el siguiente, donde no podemos saber si el punto marca un final de frase o si está delimitando una abreviatura:
[…] y corrección de la acidosis de acuerdo con el SN. aunque el paciente no presentase signos de […]
Fase 2. Segmentar unidades léxicas (palabras y términos médicos)
Lo mismo puede ocurrir en la segunda fase, con la segmentación en palabras, generalmente llamada tokenización: conseguir que la herramienta distinga el principio y el final de una palabra se complica considerablemente cuando se trata de tecnicismos que admiten varias escrituras o que contienen afijos (anti-retroviral / antirretroviral), cuando nos enfrentamos a dos palabras unidas por guiones o cuando encontramos expresiones alfanuméricas como símbolos o códigos:
[…] aparición de los linfocitos CD4/CD8 […]
[…] concentración de Ca(2+) […]
[…] se prescribieron en primer lugar ansiolítico-antidepresivos […]
Para resolver estos casos es necesario un proceso de toma de decisiones, en ocasiones asistida por los especialistas médicos: “CD4/CD8” puede denotar una única entidad o, por el contrario, tratarse como dos entidades separadas. Lo mismo ocurre con la expresión “Ca(2+)”, en la que se puede procesar el paréntesis separado o unido al término “Ca”. En el caso de las palabras escritas con guión, si posteriormente vamos a utilizar el corpus para realizar búsquedas avanzadas probablemente nos interese tratarlas como unidades léxicas diferenciadas.
Fase 3. Etiquetado gramatical de palabras y términos médicos
Una vez superadas las dos etapas anteriores y habiendo obtenido un texto segmentado con criterios válidos para cada caso, nos enfrentaremos a la tercera fase, la más compleja: etiquetar correctamente la categoría gramatical y los rasgos morfológicos de cada palabra o token.
Los problemas aparecen en aquellos casos en los que algún rasgo no es reconocible, como el género en palabras como bolus o etanercept, cuando hay que tratar la desambiguación de palabras gramaticales, como se o que, y principalmente cuando hay que desambiguar palabras léxicas, como paciente, que puede ser sustantivo o adjetivo en función del contexto en el que la encontremos.
La herramienta de análisis va a necesitar por tanto una serie de reglas fijas de desambiguación que son diseñadas previamente por los lingüistas. Este último es un paso fundamental para poder encontrar patrones sintácticos o recuperar información no evidente en los textos a través de la búsqueda lingüística, como por ejemplo, los adjetivos que suelen acompañar a un determinado síntoma.
Terminadas las tres etapas habremos obtenido un corpus anotado, que es aquel que está segmentado en oraciones y palabras y donde cada palabra está etiquetada con su categoría gramatical y rasgos morfológicos. Un porcentaje significativo del corpus inicial se destinará al desarrollo de esta metodología en tres fases, mientras que un pequeño porcentaje se reservará para el control de calidad y la validación final.
¿TE INTERESA? ¡ESCRÍBENOS!Control de calidad del procesamiento de narrativa clínica
El objetivo del control de calidad es conseguir un porcentaje del corpus anotado manualmente que tenga la calidad suficiente como para ser considerado el modelo a seguir por la anotación automática. A este corpus anotado se le llama gold standard, y requiere de una metodología lingüística rigurosa que asegure la calidad en dos aspectos:
- el acuerdo entre los anotadores que lo construyen y
- el acierto de la herramienta automática en comparación con este modelo.
Anotación manual y acuerdo entre anotadores
El primer paso es la anotación manual del texto por parte de los lingüistas computacionales, que sirve para asentar los criterios. Se trata de una anotación manual en la que la casuística que plantea el lenguaje médico queda detallada en las guías de anotación, donde deben reunirse criterios coherentes, generalizables y replicables.
Siguiendo estas guías, al menos dos lingüistas ejecutarán la anotación manual de una parte del corpus para poder obtener el dato que garantiza la calidad de los anotadores: su porcentaje de acuerdo o interannotator agreement (IAA).
En esta fase de la anotación los lingüistas pueden discrepar en una segmentación, en la desambiguación de un término o en su etiqueta gramatical. Un caso de discrepancia podría ser, por ejemplo, el del término “Hospital de San Juan de Dios”, que puede etiquetarse completo como nombre propio o bien separado en el nombre común “hospital” más una preposición “de” más un nombre propio “San Juan de Dios”.
Cada discrepancia encontrada hará disminuir el porcentaje de interannotator agreement, de modo que si esta métrica no alcanza unos mínimos, los criterios deberán ser revisados y el proceso tendrá que repetirse hasta conseguir el acuerdo mínimo exigido.
Una vez conseguido un IAA que asegura la calidad de los anotadores, un juez externo debe armonizar las discrepancias restantes sobre la muestra de anotación para obtener el gold standard, que servirá como modelo definitivo para medir la eficacia del análisis automático.
Acuerdo de la herramienta autómatica de análisis lingüístico
La herramienta procesará los mismos textos del gold standard y se medirá el IAA entre ambos, que también tendrá que ajustarse a un acuerdo mínimo exigido. Si esta validación tiene éxito, habremos llegado al final del proceso y tendremos una herramienta que anota correctamente la narrativa clínica.
Equipo de trabajo para el procesamiento de narrativa clínica
Los profesionales que llevan a cabo el tratamiento de la narrativa clínica son expertos en Procesamiento del Lenguaje Natural, y esto supone un equipo multidisciplinar poco común compuesto por lingüistas computacionales, desarrolladores de software e ingenieros de datos.
Los lingüistas computacionales establecen los criterios a seguir ante cada particularidad lingüística que pueda aparecer en los textos, y en colaboración con los ingenieros y desarrolladores aseguran la implementación correcta de estos criterios en la herramienta de análisis lingüístico. De este modo, el texto puede procesarse de manera automática, fluida y con una anotación correcta.
Resultados del procesamiento de narrativa clínica
El desarrollo de esta metodología da como resultado tres elementos de valor:
- El primero es una herramienta automática que permite, dado un nuevo corpus, procesarlo y enriquecerlo con las tres capas básicas de análisis lingüístico, siguiendo criterios que han sido establecidos y validados por especialistas.
- El segundo son las guías de anotación, que al establecer los criterios permiten la replicabilidad del proceso.
- El tercero sería el propio gold standard, que al ser una anotación elaborada por especialistas puede servir en el futuro para evaluar nuevas herramientas o entrenar modelos de aprendizaje automático.
Seguro te interesa conocer «ClinicHPO», un sistema de detección de términos Human Phenotype Ontology (HPO)
CONOCER LA HERRAMIENTA ClinicHPODesde el punto de vista de la ingeniería informática, extraer valor de los textos es una tarea compleja e incierta cuando un corpus no ha sido sometido a este procesamiento en tres fases. La necesidad de utilizar toda la información disponible para optimizar la labor clínica, incluso la no estructurada, es la principal razón por la que el PLN tiene un papel cada vez más relevante en la investigación médica, el diagnóstico asistido o el análisis predictivo para la detección precoz de enfermedades.