Hoy en día, con el auge de la inteligencia artificial (IA), la creación de corpus anotados de calidad cobra cada vez mayor importancia. Esto se debe a que los datos que conforman los corpus son la base de la que parten los modelos de aprendizaje automático, estadístico o del lenguaje que se encuentran detrás de cualquier aplicación de IA. En este artículo, hablamos del proceso de creación de un corpus anotado de calidad.
¿Qué es un corpus lingüístico?
Un corpus es un conjunto de textos representativo de una lengua o lenguas (por ejemplo, el español), variedad lingüística (el español de Cantabria) o dominio (el español de los textos médicos) en formato electrónico. Además, dentro del dominio, los textos pueden pertenecer a una temática concreta o a varias. Por ejemplo, un corpus administrativo podría contener solamente normativas o una mezcla de normativas, boletines oficiales, actas de inspección, requerimientos o resoluciones.
¿Qué es un corpus anotado?
Un corpus anotado es el resultado de marcar los textos que conforman un corpus con etiquetas que señalan aspectos relevantes para el caso de uso concreto para el que se ha creado el corpus. Esas marcas o etiquetas son una pieza clave en el desarrollo de modelos estadísticos o de aprendizaje automático: los modelos aprenden a identificar patrones en base a las etiquetas anotadas.
En esta entrada del blog, repasamos el proceso de anotación de un corpus siguiendo estas tres fases:
- Exploratorio de datos y consultoría
- Diseño del corpus: muestreo, etiquetario y guías de anotación
- Anotación del corpus
Fase 1: Exploratorio de datos y consultoría
Durante el exploratorio de datos, el grupo de lingüistas computacionales se encarga de revisar los datos, ver qué particularidades tienen y su impacto en la anotación y en el objetivo que persigue el corpus en sí.
En la parte de consultoría, se trabaja de la mano de un experto, sea del dominio que sea (médico, legal, financiero, etc.) para diseñar una primera versión del etiquetario que se quiere aplicar sobre los datos, y resolver todas las posibles dudas que surgen sobre los datos. El papel de los expertos es fundamental: los expertos guían y ayudan a los lingüistas a entender los datos con los que trabajar.
Fase 2: Diseño del corpus lingüístico
La segunda fase trata sobre el diseño del corpus e incluye muestreo, desarrollo del etiquetario y formalización de criterios iniciales.
El muestreo consiste en elegir dentro de los datos de los que se dispone los idóneos para llegar al objetivo a cumplir con el corpus. Esta selección se lleva a cabo en base a las características y distribución que presentan los datos.
El diseño del etiquetario trata de fijar un número concreto de etiquetas a aplicar sobre los datos, descartando aquellas poco representadas o añadiendo etiquetas que no aparecían en el planteamiento inicial siempre que se consideran necesarias.
Finalmente, la formalización de los criterios iniciales permite contar con una serie de reglas aplicables para cada etiqueta seleccionada. La aplicación de estos criterios formales de manera iterativa sobre los datos puede generar pequeñas modificaciones y excepciones. Todo ello constituye las guías de anotación.
Es importante mencionar que tanto en la fase de selección del etiquetario y como en el desarrollo de las guías de anotación, se hace imprescindible contar con expertos que acompañan al equipo de lingüistas en la resolución constante de dudas.
Fase 3: Preanotación y anotación del corpus
Esta fase de anotación del corpus se divide en dos: la preanotación y la anotación.
Para la preanotación del corpus:
- Se selecciona un conjunto de datos con el que probar los criterios y etiquetas que se han definido en la fase anterior.
- Se comprueba que los criterios elegidos aplican y que las etiquetas de interés aparecen.
- Se recogen todas las dudas o discrepancias surgidas y se trasladan al experto para modificar las guías de anotación y etiquetas, y dar cabida a las posibles variaciones en los datos.
El resultado obtenido tras la preanotación es un documento de guías de anotación sólido y fundado en datos reales que las lingüistas utilizan en el proceso de anotación.
Para la etapa de anotación del corpus se selecciona otro conjunto de datos. Este conjunto se divide en bloques de anotación que permiten trabajar iterativamente aplicando criterios y resolviendo problemas sin afectar al conjunto total de los datos. Para cada bloque de anotación se realizan las siguientes tareas:
- Dos lingüistas computacionales trabajan de manera ciega y por pares, es decir, la única fuente de información que los lingüistas manejan para anotar los mismos datos en paralelo son las guías de anotación.
- Después de la anotación de cada bloque de datos, se calculan métricas de calidad (métricas de acuerdo entre anotadores) y se ponen en común todas las dudas surgidas. Las dudas que las lingüistas no pueden resolver se trasladan de nuevo al experto.
- Una vez resueltas las dudas, se efectúan los cambios necesarios en la anotación y en las propias guías y se revisa la anotación anterior para mantener la consistencia a lo largo de todo el corpus.
- Las anotaciones realizadas por un lingüista se comparan contra las anotaciones del otro. Los casos en los que el par de lingüistas ha discrepado se revisan manual y conjuntamente para llegar a la anotación gold standard. Esta revisión manual conjunta constituye el proceso de armonización.
Una vez terminada la fase de armonización, se cierra el bloque de anotación en cuestión. Este mismo proceso se repite tantas veces como bloques de anotación conformen el corpus. Tras la anotación de todos los bloques, estos se unen para conformar un único corpus que cuenta con los textos originales y las etiquetas añadidas.
Conclusiones del proceso de anotación de un corpus lingüístico
- La creación de corpus anotados es una tarea clave y de gran importancia: es la base sobre la que se sustenta el entrenamiento de modelos de aprendizaje automático, estadístico o del lenguaje que están a la orden del día.
- La presencia de un experto de dominio que trabaja codo con codo con el equipo de lingüistas computacionales es indispensable para comprender la naturaleza de los datos y resolver dudas.
- La presencia de un equipo de lingüistas especialistas es imprescindible para dotar de calidad al corpus anotado. Este nivel de calidad se consigue aplicando metodologías iterativas de trabajo ciego y por pares y métricas de calidad.
- Un corpus anotado de baja calidad resultará en un modelo pobre.
- Los corpus anotados de calidad, y los modelos entrenados con ellos son un activo de gran valor en el contexto de las aplicaciones industriales de la Inteligencia Artificial.
