Hace 10 años, el Procesamiento del Lenguaje Natural (PLN) era bastante menos conocido. No teníamos ni a Siri ni a Alexa en nuestras casas y empezábamos a ser conscientes de que la Inteligencia Artificial iba a formar parte de nuestro día a día. Por ello, la apuesta del Instituto de Ingeniería del Conocimiento (IIC) en aquellos años por el PLN supuso una línea de investigación pionera que hoy da sus frutos con un modelo de lenguaje en español propio.
Por eso, este aniversario era motivo de celebración, con un evento en el que se encontraron profesionales del PLN, interesados y empresas que ya lo están aplicando. En total, 60 asistentes en modalidad presencial y casi 150 inscritos online se unieron al repaso de la evolución de unas técnicas que todavía tienen mucho recorrido.
Entre los temas recurrentes en la mayoría de intervenciones, escuchamos hablar de la importancia de los profesionales detrás del PLN, de la adaptación de las herramientas a ámbitos y lenguajes específicos como el legal o el biomédico y de la reciente revolución de los modelos de lenguaje que aún no ha terminado.
Todo ello estuvo presente en el discurso de apertura de Alberto Barrientos, director general del Instituto de Ingeniería del Conocimiento, que destacó precisamente el trabajo de los equipos multidisciplinares junto a los expertos de cada área en la que se aplica el PLN. Su conocimiento del negocio es esencial para darle sentido a la tecnología y desarrollar soluciones realmente útiles.
Evolución y presente del PLN
Partiendo de que el lenguaje es difícil de procesar, por lo creativos que somos y la influencia del contexto, Pablo Haya, director del área de Social Business Analytics en el IIC, hizo un repaso de cómo se ha ido abordado el Procesamiento del Lenguaje Natural (PLN) en este tiempo.
Hace diez años, se utilizaban los denominados diccionarios, para asociar a cada palabra distintas puntuaciones que se sumaban o restaban con el objetivo de determinar, por ejemplo, si un comentario era negativo o positivo. Esto se sofisticó con otros análisis, pero la metodología era difícil de escalar. Para Haya, “en 2019 apareció una tecnología que lo cambió todo”: el modelo de generación del lenguaje GPT-2.
No obstante, fue el primero en destacar que, a pesar de tener modelos de lenguaje cada vez más potentes, sigue siendo necesario un trabajo previo con los datos con los que se entrenan, como la anotación de corpus, para lo que de momento siguen siendo necesarias las personas. “Por muy sofisticada que sea la tecnología, al final las maquinas son marionetas y las personas quienes mueven los hilos”, concluyó.
En IBM, el PLN también tiene un lugar preferente. Mikel Díez, director de Innovación de la compañía, comentaba que son las aplicaciones reales las que verdaderamente nos abstraen de toda su complejidad y nos animan a seguir avanzando. Aunque es cierto que, a nivel empresarial, hay que enfrentarse a problemas concretos: “hay que aceptar que vas a tener que trabajar dominios del lenguaje y corpus muy determinados”, comentó.
Por ello, desde IBM, proponen trabajar cuestiones fundacionales para ir construyendo soluciones agregadas. Ahora mismo están poniendo el foco en la recuperación de información y en la generación del lenguaje, pero dentro del PLN hay ya más de 30 tareas definidas.
Modelos de lenguaje en español
Los modelos de lenguaje han iniciado la última revolución del Procesamiento del Lenguaje Natural (PLN), siendo actualmente la base para desarrollar estos sistemas. Sin embargo, sigue habiendo un sesgo idiomático y la mayoría de la investigación y los recursos lingüísticos hablan inglés. Tras diez años de trabajo, el IIC quiso aportar para que el boom del PLN fuera también en español, y se propuso desarrollar un modelo del lenguaje en español propio que ya tiene nombre: RigoBERTa.
En su brevísima historia del PLN moderno, Álvaro Barbero, Chief Data Scientist del IIC, se encargó de explicar cómo en poco tiempo han surgido varios proyectos en nuestro idioma: además de RigoBERTa, puso el ejemplo de BETO, MarIA y Bertín. Todos ellos están entrenados para aprender del lenguaje en general, de su estructura, con el fin de que después se adapten más fácilmente a tareas concretas de PLN: clasificar temas, detectar emociones, resumir documentos, contestar preguntas, etc.
Además, en el modelo de lenguaje del IIC se incluye un paso más: la adaptación al dominio con corpus específicos del sector legal o el ámbito biomédico. De hecho, tras esta tercera fase, RigoBERTa demuestra ser mejor que modelos creados concretamente para estos ámbitos. Barbero asegura que la clave es el trabajo con las fuentes de datos y los corpus, para que sean representativos y de calidad.
También, sin duda, opina que “los modelos de lenguaje nos abren la puerta a nuevas aplicaciones de PLN y nos permiten seguir mejorando las tareas que ya desarrollamos”. Para el experto, los sistemas serán más sofisticados y eficientes, pero las personas seguiremos apoyándolos.
Un lenguaje común entre data scientists y lingüistas computacionales
Son los lingüistas computacionales los que se ocupan en primer lugar de esa selección y tratamiento de los datos en texto. Y tras su anotación, serán los data scientists o expertos en Machine Learning los que entrenen a la máquina con esos ejemplos.
El diálogo entre Álvaro Barbero y Marta Guerrero, coordinadora de los proyectos de PLN en el IIC, fue la demostración más clara de que esta tecnología sigue necesitando de la intervención humana y, además, de la colaboración de disciplinas tradicionalmente alejadas. Ambos estuvieron de acuerdo en que todo el trabajo previo con los corpus requiere incluso más dedicación que el entrenamiento del modelo.
Por ello, la experiencia hizo al IIC incorporar una fase de consultoría en la que también participa el experto del sector donde se quiere aplicar el PLN, para que el sistema resultante se adapte a sus necesidades y, sobre todo, a su lenguaje. Los tres perfiles definen el objetivo, la tarea a automatizar, los criterios a seguir y el alcance del proyecto, porque al final es más importante que sea útil a que se consiga un nivel muy alto tecnológicamente hablando.
Luego, el experto de negocio también guiará a los lingüistas computacionales en la anotación del corpus. Según Marta Guerrero, “hay que anotarlo con un objetivo concreto y un corpus anotado no sirve para diferentes tareas”. Puso el ejemplo del proyecto Mapa del Expediente con Garrigues, para el análisis automático de expedientes judiciales.
De cara al futuro, Álvaro Barbero predijo que el PLN continuará evolucionando junto a los modelos de lenguaje –“los proyectos serán más ágiles y podremos abordar tareas más complejas” – pero que está colaboración humana también seguirá funcionando. “A corto-medio plazo, vamos a seguir trabajando de esta manera, aunque cambie la tecnología o el tiempo que dedicamos a cada tarea”, aseguró Barbero.
Aplicaciones reales del PLN
La mesa redonda dejó entrever muchas de las aplicaciones del Procesamiento del Lenguaje Natural (PLN) con casos de uso reales. Todos los participantes estuvieron de acuerdo, en primer lugar, en que el PLN supone una gran ventaja para la gestión del conocimiento y el tratamiento de la información en todo tipo de ámbitos. Y precisamente lo que denominan content intelligence en IBM es, junto a los asistentes conversacionales, una de sus dos prioridades si hablamos de PLN, comentó Ángel Sevillano, AI Solutions Offering Leader en IBM Consulting para España, Portugal y Grecia.
Ya en el sector legal, por ejemplo, León Vidaller, abogado en el área de Derecho Penal en Garrigues, considera que el PLN es una herramienta útil para la catalogación e indexación de información con el objetivo de acceder rápidamente a ella. “Esto permite que podamos dedicar tiempo a tareas mucho más empáticas y humanas”, explicó.
Por otro lado, en el sector seguros, Diego Bodas, Director Advanced Analytics en MAPFRE España, expuso que estas técnicas son clave para automatizar procesos relacionados con la comunicación. “En MAPFRE, tenemos el objetivo de mejorar los tiempos de respuesta y adaptarlas a muchos tipos de clientes”, comentó.
Él mismo introdujo otro de los temas de debate: la conexión con la realidad de las aplicaciones de PLN. Para Bodas, “hay que llevar los avances a producción. Hay que ver cómo equilibramos la ambición científica con el día a día y las necesidades en un entorno real”. Un desafío que se combate con divulgación para Borja Adsuara: “el principal reto no es tecnológico, es divulgativo, pedagógico. Más que de las entrañas de la tecnología, hay que hablar de para qué sirve y qué problemas puede solucionar”. Además, considera que en este proceso se necesita de materias transversales y expertos en ética, por ejemplo.
Por último, los ponentes también destacaron la utilidad del trabajo conjunto con los expertos en PLN. Para León Vidaller, “ha sido enriquecedor ver cómo se hace PLN y cómo se puede aplicar” y Diego Bodas apuntó a que “no cualquiera puede hacer Inteligencia Artificial, sino que hay que tener una base teórica importante”.
Ángel Sevillano también puso en valor la labor de los lingüistas computacionales en el proyecto conjunto de IBM y el IIC para desarrollar, en pleno confinamiento, un chatbot que contestaba a preguntas sobre COVID-19.
Ya en el cierre, Antonio Moreno, volvió a dar importancia a esos equipos multidisiciplinares que demostraron ser la verdadera base del PLN durante todo el evento y en estos diez años de trabajo del IIC. “La revolución es ahora, pero hace tiempo que se está preparando”, concluía.
> Ver fotografías del evento < | > Ver entrevistas del evento < |