Estructurar textos para procesarlos y analizarlos
La anotación automática de textos es el primer paso para extraer valor de grandes volúmenes de información no estructurada.

¿Qué es la anotación automática de textos?
La anotación automática de textos permite hacer un primer análisis lingüístico y etiquetado de cualquier texto, de forma que quede estructurado para aplicar distintas tareas de Procesamiento del Lenguaje Natural (PLN).
En el IIC aplicamos estas técnicas del PLN para analizar la claridad de los textos y así poder clasificarlos de forma objetiva y cuantificable, a la vez que se dan recomendaciones para expresar las ideas de manera ordenada, sencilla y transparente.
Normalmente, los textos se anotan en tres niveles lingüísticos:
- segmentación de oraciones,
- segmentación de palabras y formas o tokenización y
- etiquetado morfológico (POS) de cada una.
Lo ideal sería conseguir una herramienta integral capaz de segmentar y anotar automáticamente textos de cualquier tipo, pero los que incluyen terminología propia de un dominio o ámbito suelen requerir una atención y trabajo mayor.
En este sentido, en el IIC somos capaces convertir los casos clínicos escritos por médicos en información estructurada y codificada para que un software pueda procesarla.
Los lingüistas computacionales son los encargados de estudiar a fondo los textos y la terminología concreta, si fuera necesario adaptar la anotación a un dominio específico. Su misión es conseguir el corpus anotado perfecto (gold standard) que sirva de base a los modelos.
El primer paso para la anotación automática de textos es la creación de las guías de anotación, donde se establecen los criterios lingüísticos a seguir en la fase de la anotación manual y en la configuración del etiquetado automático con técnicas de PLN.
Estas guías de anotación pueden ser revisadas y validadas por los expertos del sector (abogados, médicos, deportistas, etc.).
La importancia de la anotación automática de textos radica en agilizar las fases iniciales de procesamiento del texto, sobre las que se añadirán distintas capas analíticas o se aplicarán otras tareas de PLN.

¿Cómo se realiza la anotación automática de textos?
Para automatizar la anotación de textos, hay que llevar a cabo previamente una anotación manual de un corpus. Luego serán los modelos de Machine Learning los que aprendan a realizar esta anotación automáticamente, en base a los ejemplos proporcionados.
Después, los lingüistas computacionales del IIC siguen el procedimiento habitual de anotación por pares:.
Anotación de los textos
Dos anotadores con experiencia anotan los mismos textos individualmente y se mide el acuerdo según sus coincidencias y discrepancias.
Gold standard
Si al final de la anotación existen discrepancias, las resuelven juntos y llegan a acuerdos hasta obtener ese gold standard.
Juez de anotación
Si no se ponen de acuerdo, es posible nombrar un juez, que repasa las discrepancias y le da la razón a uno u otro anotador.
Evaluación acierto del modelo
Ya con el corpus anotado y consensuado, se evalúa el acierto del modelo que etiqueta los mismos textos. Normalmente, debe cumplir con unas métricas de precisión mínimas que aseguren la calidad de la anotación.
En el IIC somos expertos en la anotación de textos especializados, para que distintos dominios se beneficien de las aplicaciones del PLN
Beneficios de la anotación automática de textos
Búsqueda avanzada
Búsqueda avanzada a partir de la información estructurada en bases de datos.
Detección de entidades
Detección de entidades concretas o extracción de términos específicos de un dominio o sector.

Información oculta
Detectar información ocultura y establecer relaciones entre la información.
Toma de decisiones
Facilitar a los profesionales la toma de decisiones basada en el análisis de textos y las relaciones comentadas.