Dentro del marco de la Inteligencia Artificial (IA), el Procesamiento del Lenguaje Natural (PLN), sea en su forma escrita u oral, presta especial atención al estudio de los fenómenos lingüísticos, sobre todo en los datos no estructurados, y a la forma en la que se realiza la comunicación humana con el fin de desarrollar soluciones prácticas que simulen las capacidades humanas cognitivas, especialmente en lo que se refiere a la comprensión y la generación del lenguaje.
Actualmente, los avances de PLN están estrechamente ligados a la Inteligencia Artificial y el entrenamiento de modelos de Machine Learning. Por ello, la demanda de corpus lingüísticos anotados que puedan servir de base para el entrenamiento de esos modelos está en auge.
Con este white paper sobre anotación de corpus lingüísticos, pretendemos detallar la metodología utilizada en el Instituto de Ingeniería del Conocimiento (IIC) para la anotación de corpus. Primero, mediante la introducción, se define qué es un corpus anotado y las tipologías que existen.
White Paper sobre «Anotación de corpus lingüísticos: metodología utilizada en el IIC»
El siguiente apartado explica la metodología MATTER, conocida y seguida en muchos procesos de anotado. A continuación, nos acercamos a la construcción del modelo de anotación y cómo se aplica este en el proceso de anotación y en el desarrollo de las guías.
En el cuarto apartado tratamos en detalle la anotación por pares del corpus de desarrollo para extraer la información concreta que es de utilidad y que se desglosa en las guías de anotación.
Tras este apartado, explicamos cómo comprobar si las anotaciones realizadas son de calidad y fiables mediante algunas de las métricas más utilizadas para ello. Una vez se han generado anotaciones por pares de un mismo corpus y se ha comprobado que son de calidad, queda generar el gold standard final en el proceso de armonización, explicado en el sexto apartado.
Por último, cierran este white paper unas conclusiones que sintetizan todo lo expuesto, y reflexionan y justifican la utilidad de seguir una metodología de anotación para crear corpus anotados de calidad en el panorama actual.
Muy interesante el artículo. Soy profesora en la UCM y estamos desarrollando una línea de investigación sobre etiquetado de errores en corpus de textos traducidos automáticamente. En su artículo (pág. 4), mencionan plataformas «que ayudan en la anotación de corpus lingüísticos». Si pudieran darlme la referencia de alguna de estas plataformas se lo agradecería enormemente.
El etiquetado de errores de traducción implica marcar el texto origen y también el de llegada para localizar el error. Además, a veces, el error se refiere a una única palabra y otras veces (problemas de orden de palabras, concordancia) afecta a más de una palabra. No he encontrado herramientas de etiquetado capaces de abordar este tipo de casos.
He visto la referencia de Fort (2016), pero no he conseguido este artículo. Les agradezco de antemano su ayuda. Les dejo mi correo (aurosant@ucm.es).
Aurora Martín de Santa Olalla
Profesora Ayudante Doctora Grado de Traducción e Interpretación
Universidad Complutense de Madrid.
Hola Auroa, gracias por leernos y el interés mostrado. Tratamos de responderte. Sobre PLATAFORMAS: https://aclanthology.org/2022.eamt-1.28.pdf describen esta herramienta https://cl.lingfil.uu.se/~sara/blast/
https://aclanthology.org/P11-4010.pdf
https://www.asling.org/tc41/wp-content/uploads/TC41-Proceedings_27-35.pdf
https://github.com/ugermann/yawat. Respecto a la referencia Fort, es de este libro https://books.google.es/books?hl=fr&lr=&id=n7plDAAAQBAJ&oi=fnd&pg=PP2&ots=9cBsua_n3A&sig=nnd_nZv2SZfF3XYVqClhHGNkBvc&redir_esc=y#v=onepage&q&f=false
https://www.wiley.com/en-au/Collaborative+Annotation+for+Reliable+Natural+Language+Processing:+Technical+and+Sociological+Aspects-p-9781119307655