¿Qué tienen que ver la lingüística, la Inteligencia Artificial y el ámbito de la salud? ¿Cómo se relacionan estas tres áreas? Y lo más importante: ¿para qué? La clave está en que se puede aplicar IA en el sector salud a través del lenguaje.
Carmen Torrijos, lingüista computacional en el Instituto de Ingeniería del Conocimiento (IIC) explicó el cómo en su charla para la Semana de la Ciencia y la Innovación 2019: “La lingüística también salva vidas: Procesamiento del Lenguaje Natural en el sector salud”.
La lingüística computacional salva vidas
La lingüística computacional utiliza técnicas de Procesamiento del Lenguaje Natural (PLN) aplicables a cualquier sector, pero que tienen especial utilidad en el ámbito de la salud. Con el trabajo de los lingüistas, en colaboración con el de los ingenieros, las máquinas pueden procesar automáticamente textos que escriben los especialistas médicos en texto libre, extrayendo información relevante para el diagnóstico o el tratamiento de los pacientes.
El punto de partida siempre es un conjunto de textos o corpus anotado. Un anotador humano comienza por etiquetar el corpus: identifica categorías morfológicas como adjetivos o adverbios, detecta entidades, indica el sentido positivo o negativo de la frase, etc. Todo ello con las dificultades que implica el dominio médico en cuanto a terminología, abreviaturas o expresiones alfanuméricas. Luego serán los modelos de Machine Learning los que aprendan a realizar esta anotación automáticamente, en base a los ejemplos que el lingüista le ha proporcionado.
De esta forma, se puede convertir un caso clínico narrado y escrito por médicos, o miles de ellos, en información estructurada y codificada que pueda procesar un software. A partir de aquí, tendremos una base de datos en la que hacer búsquedas avanzadas o crearemos un sistema de alertas que avisarán a los profesionales en base a la información que vaya recibiendo.
Proyectos PLN en salud
Tras aclarar algunos conceptos en torno a la lingüística computacional y el PLN, Carmen Torrijos explicó varios proyectos reales de IA en el sector salud en los que ha participado y que, por tanto, tenían un componente lingüístico.
Todos ellos englobaban tareas de anotación, procesamiento de terminología médica y tratamiento adecuado de datos sensibles, como es la información relacionada con los pacientes.
El corpus clínico anotado perfecto
En un primer caso real, el CNIO (Centro Nacional de Investigaciones Oncológicas) quería aprovechar toda la información disponible en 1000 casos médicos en texto libre, con el fin de tener una visión más completa de su corpus clínico anonimizado. El objetivo era conseguir una herramienta de análisis lingüístico adaptada al dominio médico en español.
Ya existían herramientas adaptadas en inglés, pero en nuestro idioma solo se disponía de un software de análisis lingüístico general. Por ello, con los criterios de la herramienta inglesa incluidos en las guías de anotación –que recopilan los criterios para etiquetar los textos–, se trabajó en un corpus anotado perfecto (gold standard) para que la máquina aprendiera correctamente la anotación automática en español. Los lingüistas computacionales del IIC siguieron el procedimiento habitual de anotación por pares:
- Dos anotadores con experiencia anotan los mismos textos por separado, para comprobar si existen discrepancias entre ellos.
- Si al final de la anotación existen discrepancias, se sientan juntos a resolverlas y llegan a acuerdos, hasta obtener el documento perfecto anotado. De esta manera, se crea el gold standard.
- Si no se ponen de acuerdo, es posible nombrar un juez, que repasa las discrepancias y le da la razón a uno u otro anotador.
- Se evalúa el acierto de la nueva herramienta, que etiqueta los mismos textos del gold standard, y se comprueba cuántas veces acierta en la anotación y cuántas veces falla.
Codificar el texto médico
Otro de los proyectos partió de los datos de triage y de la historia clínica digital de los pacientes de un hospital. El objetivo era conseguir un sistema de alertas de sepsis en tiempo real a partir de la información recogida por los especialistas médicos.
Para el análisis, había que convertir los datos en texto en variables numéricas que el modelo pudiera “entender”, y así determinar cuáles eran relevantes en el desarrollo de la sepsis. El problema, explicaba Carmen Torrijos, es que tenemos muchas formas de decir en lenguaje natural que alguien presenta fiebre o dolor, por ejemplo.
En este caso, el lingüista agrupa todos los términos y expresiones que denoten el mismo concepto y los asocia a un 1 (tiene fiebre) o un 0 (no tiene fiebre):
- Variable 1: “con fiebre”, “febril”, “algunas décimas”, “fiebre alta”, etc.
- Variable 0: “afebril”, “no tiene fiebre”, “no presenta fiebre”, etc.
Con esta codificación, el modelo es capaz de saber qué variables llevaron a otros pacientes a tener sepsis y si el paciente actual, teniendo en cuenta sus datos convertidos a estas variables numéricas, va a desarrollarla en el futuro inmediato.
Estos proyectos reflejan la importancia de aplicar el tratamiento de lenguaje a los datos almacenados por el sistema sanitario. La estructuración lingüística de la información en texto permite encontrarla rápidamente y crear así sistemas de predicción y alerta que asistan a los profesionales del sector, que en estos proyectos trabajan conjuntamente con lingüistas, ingenieros y científicos de datos.