A lo largo de la última década, el Procesamiento del Lenguaje Natural (PLN) ha ido abandonando progresivamente las reglas lingüísticas para hacer equipo con el Machine Learning. Y esta unión implica que, en el mejor de los casos, también trabajen juntos distintos perfiles especializados en cada uno de los campos, formando así equipos multidisciplinares que combinan la lingüística con la ingeniería.
El último encuentro online organizado por NLP Spain contó con especialistas de las dos disciplinas que habitualmente participan en el desarrollo de estos proyectos en el Instituto de Ingeniería del Conocimiento (IIC). En Del corpus al modelo NLP: una conversión eficaz, Carmen Torrijos, lingüista computacional, y Ainhoa Goñi, ingeniera de datos, explicaron todo el proceso a seguir desde el diseño del corpus hasta el desarrollo del modelo.
Además, compartieron distintos recursos para obtener corpus y datasets anotados y algunas librerías Python para poner en práctica lo aprendido y desarrollar modelos que se pueden aplicar en tareas como el análisis de sentimiento, el reconocimiento de entidades o la extracción de información.
¿Cómo se trabaja con un corpus en PLN?
En Machine Learning o aprendizaje automático se trabaja con dos tipos de modelos: los supervisados, que se entrenan con datos etiquetados, y los no supervisados, que extraen conclusiones estadísticas observando grandes cantidades de texto sin etiquetar. Así pues, es en el primer caso donde tienen cabida los corpus anotados.
En la primera parte de la charla, Carmen Torrijos se centró principalmente en cómo es el flujo de trabajo con un corpus, que se puede resumir en tres fases:
- Anotación por pares del corpus original.
- El corpus anotado se convierte al formato de entrenamiento elegido.
- Obtenemos el dataset para entrenar al modelo de Machine Learning.
Además, explicó la metodología propia de la anotación por pares, manual y consensuada, y el criterio lingüístico necesario en estos proyectos. También compartió algunos recursos: además de los corpus de referencia en español (CREA, CORDE y CORPES XXI), que no están disponibles para descarga libre, mostró algunos corpus accesibles, como Twitter u OSCAR, herramientas de anotación como Brat o Prodigy y datasets libres para descargar o comprar.
Por último, destacó la importancia para los lingüistas de comunicarse con el equipo de ingenieros con el fin de anotar el corpus teniendo en cuenta las particularidades del aprendizaje automático, y la necesidad de que los lingüistas participen también en la evaluación final de los sistemas.
Embeddings y modelos de lenguaje
Partiendo de la idea de que un modelo no es capaz de procesar texto tal cual, hay que buscar formas de transformarlo en vectores numéricos o embeddings que representen la información que contiene.
En la segunda parte de la charla, Ainhoa Goñi hizo un repaso de la evolución de las diferentes técnicas para obtener esos vectores. Desde las más sencillas (Bag-of-words, TF-IDF), pasando por la irrupción del Deep Learning y las redes neuronales, y hasta las más novedosas: los Transformers, que, mediante diferentes capas, son capaces de obtener embeddings contextualizados.
Un ejemplo de esta arquitectura es el modelo de lenguaje BERT, que sirve a su vez como un modelo pre-entrenado para ajustar a diferentes tareas con los corpus anotados mencionados. De esta forma, con su liberación y la de otros modelos similares, se ahorran tiempo y costes para seguir avanzando en el campo del PLN.
VER EL VÍDEO COMPLETO