Anotación automática de textos

Anotación automática de textos

Estructurar textos para procesarlos y analizarlos

La anotación automática de textos es el primer paso para extraer valor de grandes volúmenes de información no estructurada.

text-tag

¿Qué es la anotación automática de textos?

La anotación automática de textos permite hacer un primer análisis lingüístico y etiquetado de cualquier texto, de forma que quede estructurado para aplicar distintas tareas de Procesamiento del Lenguaje Natural (PLN).

En el IIC aplicamos estas técnicas del PLN para analizar la claridad de los textos y así poder clasificarlos de forma objetiva y cuantificable, a la vez que se dan recomendaciones para expresar las ideas de manera ordenada, sencilla y transparente.

Normalmente, los textos se anotan en tres niveles lingüísticos:

  • segmentación de oraciones,
  • segmentación de palabras y formas o tokenización y
  • etiquetado morfológico (POS) de cada una.

Lo ideal sería conseguir una herramienta integral capaz de segmentar y anotar automáticamente textos de cualquier tipo, pero los que incluyen terminología propia de un dominio o ámbito suelen requerir una atención y trabajo mayor.

En este sentido, en el IIC somos capaces convertir los casos clínicos escritos por médicos en información estructurada y codificada para que un software pueda procesarla.

Los lingüistas computacionales son los encargados de estudiar a fondo los textos y la terminología concreta, si fuera necesario adaptar la anotación a un dominio específico. Su misión es conseguir el corpus anotado perfecto (gold standard) que sirva de base a los modelos.

El primer paso para la anotación automática de textos es la creación de las guías de anotación, donde se establecen los criterios lingüísticos a seguir en la fase de la anotación manual y en la configuración del etiquetado automático con técnicas de PLN.

Estas guías de anotación pueden ser revisadas y validadas por los expertos del sector (abogados, médicos, deportistas, etc.).

La importancia de la anotación automática de textos radica en agilizar las fases iniciales de procesamiento del texto, sobre las que se añadirán distintas capas analíticas o se aplicarán otras tareas de PLN.

anotación textos

¿Cómo se realiza la anotación automática de textos?

Para automatizar la anotación de textos, hay que llevar a cabo previamente una anotación manual de un corpus. Luego serán los modelos de Machine Learning los que aprendan a realizar esta anotación automáticamente, en base a los ejemplos proporcionados.

Después, los lingüistas computacionales del IIC siguen el procedimiento habitual de anotación por pares:.

Anotación de los textos

Dos anotadores con experiencia anotan los mismos textos individualmente y se mide el acuerdo según sus coincidencias y discrepancias.

Gold standard

Si al final de la anotación existen discrepancias, las resuelven juntos y llegan a acuerdos hasta obtener ese gold standard.

Juez de anotación

Si no se ponen de acuerdo, es posible nombrar un juez, que repasa las discrepancias y le da la razón a uno u otro anotador.

Evaluación acierto del modelo

Ya con el corpus anotado y consensuado, se evalúa el acierto del modelo que etiqueta los mismos textos. Normalmente, debe cumplir con unas métricas de precisión mínimas que aseguren la calidad de la anotación.

En el IIC somos expertos en la anotación de textos especializados, para que distintos dominios se beneficien de las aplicaciones del PLN

QUIERO MÁS INFORMACIÓN

Beneficios de la anotación automática de textos

Búsqueda avanzada

Búsqueda avanzada a partir de la información estructurada en bases de datos.

Detección de entidades

Detección de entidades concretas o extracción de términos específicos de un dominio o sector.

comunicación-clara

Información oculta

Detectar información ocultura y establecer relaciones entre la información.

Toma de decisiones

Facilitar a los profesionales la toma de decisiones basada en el análisis de textos y las relaciones comentadas.

Contacta con nosotros


    He leído y acepto las condiciones de uso y la política de privacidad*.

    Sí deseo recibir comunicaciones comerciales.

     

    Información básica sobre Protección de Datos

    • Responsable: Asociación para el Desarrollo de la Ingeniería del Conocimiento.

    • Dirección: Ctra. de Colmenar Viejo, km.15, Calle Francisco Tomás y Valiente 11; EPS, Edificio B, 5ª planta; 28049 Madrid.

    • Teléfono: 914972323

    • Correo electrónico: contacto.iic@iic.uam.es

    • Delegado de Protección de Datos: dpd@iic.uam.es


    En nombre de Asociación para el Desarrollo de la Ingeniería del Conocimiento, tratamos la información que nos facilita con el fin de dar respuesta a la solicitud realizada por usted en relación con los servicios que prestamos y los productos que suministramos. Los datos proporcionados se conservarán mientras se mantenga el contacto, siendo eliminados una vez finalizada la solicitud. Los datos no se cederán a terceros salvo en los casos en que exista una obligación legal. Usted tiene derecho a obtener confirmación sobre si en Asociación para el Desarrollo de la Ingeniería del Conocimiento estamos tratando sus datos personales, por tanto, tiene derecho a acceder a sus datos personales, rectificar los datos inexactos o solicitar su supresión cuando los datos ya no sean necesarios. Asimismo, podrá oponerse al tratamiento de sus datos, solicitar la limitación al tratamiento y la portabilidad de sus datos. Si considera que sus datos personales no han sido tratados conforme a la normativa, puede contactar con derechosrgpd@iic.uam.es. Asimismo, podrá presentar una reclamación ante la Agencia Española de Protección de Datos, especialmente cuando no haya obtenido la satisfacción en el ejercicio de sus derechos, a través de la sede electrónica en www.aepd.es.


    Asimismo, se desean utilizar sus datos para ofrecerle productos y servicios relacionados con los solicitados por Usted, por cualquier medio, incluido el electrónico, incluso una vez terminada la relación negocial/contractual.

    Resumen de privacidad
    Instituto de Ingeniería del Conocimiento

    En Asociación para el Desarrollo de la Ingeniería del Conocimiento usamos cookies propias y de terceros necesarias para que nuestro sitio web funcione adecuadamente y para fines analíticos. política de cookies

    Al pulsar “Guardar cambios”, se guardará la selección de cookies que hayas realizado. Si no has seleccionado ninguna opción, pulsar este botón equivaldrá a rechazar todas las cookies.

    Cookies necesarias

    Son aquellas que ayudan a hacer una página web utilizable activando funciones básicas como la navegación en la página y el acceso a áreas seguras de la página web. La página web no podrá funcionar adecuadamente sin estas cookies. Le informamos de que puede configurar su navegador para bloquear o alertar sobre estas cookies, sin embargo, es posible que determinadas áreas de la página web no funcionen. Estas cookies no almacenan ninguna información de identificación personal. El reproductor de Youtube usa cookies publicitarias, el cual usamos para poder ver vídeos insertados.

    Cookies de analítica

    Son aquellas que permiten al Editor de las mismas, el seguimiento y análisis del comportamiento de los usuarios de los sitios web a los que están vinculadas. La información recogida mediante este tipo de cookies se utiliza en la medición de la actividad de los sitios web, aplicación o plataforma, con el fin de introducir mejoras en función del análisis de los datos de uso que hacen los usuarios del servicio. Las cookies analíticas utilizadas son:

    Cookies que se utilizan:
    _ga (Google Analytics) | _gid (Google Analytics) |