Contribuir a la visibilidad de las mujeres en el campo de la ciencia de datos es el objetivo de Women in Data Science (WiDS) Valencia, que busca inspirar y educar a los data scientists a través del trabajo de las profesionales.
En su segunda edición, la conferencia contó con Carmen Torrijos, lingüista computacional en el IIC, para exponer su experiencia en proyectos de Procesamiento del Lenguaje Natural (PLN), en una charla titulada “El talento digital en las humanidades: lenguaje y texto en Inteligencia Artificial”.
Tras explicar cómo se forma un lingüista computacional, comentó algunas de sus tareas más frecuentes dentro de equipos multidisciplinares: diseño y anotación de corpus, creación de sistemas de reglas lingüísticas, entrenamiento y validación de modelos de machine learning o la creación de taxonomías para la clasificación de textos.
Anotación por pares en PLN
En concreto, Carmen Torrijos detalló cuál es el procedimiento de la anotación por pares de los corpus, una parte esencial previa al entrenamiento de los modelos de aprendizaje automático que anotarán y procesarán el lenguaje automáticamente en base a los criterios dados.
Se trata de una metodología de anotación manual rigurosa y consensuada, que asegura los estándares de calidad de la información que se introduce en el modelo. Para ello, se necesita un equipo mínimo de tres lingüistas que conozcan bien la tarea cognitiva que el modelo realizará, y que llevarán a cabo las guías de anotación para recoger esos criterios acordados. ¿En qué consiste?
- Tras la anotación individual de cada lingüista, se mide su acuerdo y, por tanto, las coincidencias y las discrepancias en la anotación manual.
- Con esto, se crea el llamado gold standard, esto es el corpus anotado y consensuado con la mayor calidad posible.
- Por último, se mide el rendimiento del modelo frente a este gold standard, etiquetando los mismos textos.
Así pues, a través del control de la información que se integra en el modelo por parte de varias personas, se puede reducir el sesgo y el error humano que podría introducir un solo anotador. Esta metodología se utiliza, por ejemplo, en la anotación de narrativa clínica.
WiDS Valencia 2020 forma parte de la Conferencia Global Women in Data Science organizada por la Universidad de Stanford y que se lleva a cabo en más de 150 ciudades en todo el mundo, acercando las últimas investigaciones y aplicaciones relacionadas con la ciencia de datos de la voz de las profesionales.