Anotación automática de textos

Anotación automática de textos

Estructurar textos para procesarlos y analizarlos

La anotación automática de textos es el primer paso para extraer valor de grandes volúmenes de información no estructurada.

text-tag

¿Qué es la anotación automática de textos?

La anotación automática de textos permite hacer un primer análisis lingüístico y etiquetado de cualquier texto, de forma que quede estructurado para aplicar distintas tareas de Procesamiento del Lenguaje Natural (PLN).

En el IIC aplicamos estas técnicas del PLN para analizar la claridad de los textos y así poder clasificarlos de forma objetiva y cuantificable, a la vez que se dan recomendaciones para expresar las ideas de manera ordenada, sencilla y transparente.

Normalmente, los textos se anotan en tres niveles lingüísticos:

  • segmentación de oraciones,
  • segmentación de palabras y formas o tokenización y
  • etiquetado morfológico (POS) de cada una.

Lo ideal sería conseguir una herramienta integral capaz de segmentar y anotar automáticamente textos de cualquier tipo, pero los que incluyen terminología propia de un dominio o ámbito suelen requerir una atención y trabajo mayor.

En este sentido, en el IIC somos capaces convertir los casos clínicos escritos por médicos en información estructurada y codificada para que un software pueda procesarla.

Los lingüistas computacionales son los encargados de estudiar a fondo los textos y la terminología concreta, si fuera necesario adaptar la anotación a un dominio específico. Su misión es conseguir el corpus anotado perfecto (gold standard) que sirva de base a los modelos.

El primer paso para la anotación automática de textos es la creación de las guías de anotación, donde se establecen los criterios lingüísticos a seguir en la fase de la anotación manual y en la configuración del etiquetado automático con técnicas de PLN.

Estas guías de anotación pueden ser revisadas y validadas por los expertos del sector (abogados, médicos, deportistas, etc.).

La importancia de la anotación automática de textos radica en agilizar las fases iniciales de procesamiento del texto, sobre las que se añadirán distintas capas analíticas o se aplicarán otras tareas de PLN.

anotación textos

¿Cómo se realiza la anotación automática de textos?

Para automatizar la anotación de textos, hay que llevar a cabo previamente una anotación manual de un corpus. Luego serán los modelos de Machine Learning los que aprendan a realizar esta anotación automáticamente, en base a los ejemplos proporcionados.

Después, los lingüistas computacionales del IIC siguen el procedimiento habitual de anotación por pares:.

Anotación de los textos

Dos anotadores con experiencia anotan los mismos textos individualmente y se mide el acuerdo según sus coincidencias y discrepancias.

Gold standard

Si al final de la anotación existen discrepancias, las resuelven juntos y llegan a acuerdos hasta obtener ese gold standard.

Juez de anotación

Si no se ponen de acuerdo, es posible nombrar un juez, que repasa las discrepancias y le da la razón a uno u otro anotador.

Evaluación acierto del modelo

Ya con el corpus anotado y consensuado, se evalúa el acierto del modelo que etiqueta los mismos textos. Normalmente, debe cumplir con unas métricas de precisión mínimas que aseguren la calidad de la anotación.

En el IIC somos expertos en la anotación de textos especializados, para que distintos dominios se beneficien de las aplicaciones del PLN

QUIERO MÁS INFORMACIÓN

Beneficios de la anotación automática de textos

Búsqueda avanzada

Búsqueda avanzada a partir de la información estructurada en bases de datos.

Detección de entidades

Detección de entidades concretas o extracción de términos específicos de un dominio o sector.

comunicación-clara

Información oculta

Detectar información ocultura y establecer relaciones entre la información.

Toma de decisiones

Facilitar a los profesionales la toma de decisiones basada en el análisis de textos y las relaciones comentadas.

Contacta con nosotros


    He leído y acepto las condiciones de uso y la política de privacidad*.

     Sí deseo recibir comunicaciones comerciales.

     

    Información básica sobre Protección de Datos

    • Responsable: Asociación para el Desarrollo de la Ingeniería del Conocimiento.
    • Dirección: Ctra. de Colmenar Viejo, km.15, Calle Francisco Tomás y Valiente 11; EPS, Edificio B, 5ª planta; 28049 Madrid.
    • Teléfono: 914972323
    • Correo electrónico: contacto.iic@iic.uam.es
    • Delegado de Protección de Datos: dpd@iic.uam.es

    En nombre de Asociación para el Desarrollo de la Ingeniería del Conocimiento, tratamos la información que nos facilita con el fin de dar respuesta a la solicitud realizada por usted en relación con los servicios que prestamos y los productos que suministramos. Los datos proporcionados se conservarán mientras se mantenga el contacto, siendo eliminados una vez finalizada la solicitud. Los datos no se cederán a terceros salvo en los casos en que exista una obligación legal. Usted tiene derecho a obtener confirmación sobre si en Asociación para el Desarrollo de la Ingeniería del Conocimiento estamos tratando sus datos personales, por tanto, tiene derecho a acceder a sus datos personales, rectificar los datos inexactos o solicitar su supresión cuando los datos ya no sean necesarios. Asimismo, podrá oponerse al tratamiento de sus datos, solicitar la limitación al tratamiento y la portabilidad de sus datos. Si considera que sus datos personales no han sido tratados conforme a la normativa, puede contactar con derechosrgpd@iic.uam.es. Asimismo, podrá presentar una reclamación ante la Agencia Española de Protección de Datos, especialmente cuando no haya obtenido la satisfacción en el ejercicio de sus derechos, a través de la sede electrónica en www.aepd.es.

    Asimismo, se desean utilizar sus datos para ofrecerle productos y servicios relacionados con los solicitados por Usted, por cualquier medio, incluido el electrónico, incluso una vez terminada la relación negocial/contractual.