Hemos visto ya muchos enfoques para que las máquinas “entiendan” y trabajen con el lenguaje. Ahora podemos hablar de un Procesamiento del Lenguaje Natural moderno, tras el uso del Deep Learning o la aparición de los Transformers.
Para hablar de la evolución del PLN, contaron en el podcast Pensamiento Digital con Álvaro Barbero, chief data scientist en el Instituto de Ingeniería del Conocimiento (IIC). Él mismo tiene amplia experiencia en este campo de la Inteligencia Artificial y trabaja actualmente en un modelo de lenguaje en español, con un equipo multidisciplinar de científicos de datos y lingüistas computacionales del IIC.
Entre otras cosas, hablaron de los avances reales del PLN y del funcionamiento de los modelos de lenguaje, incidiendo en cómo se entrenan y aplican los más conocidos.
Deep Learning y Transformers
La evolución del PLN ha sido una carrera de fondo en los últimos años. El uso del Deep Learning y las redes neuronales recurrentes fue determinante en este proceso, pues una misma red es ya capaz de representar numéricamente las palabras de un texto en bruto y utilizar estos embeddings o vectores para aprender a resolver una tarea de PLN. También llegaron a tener en cuenta el orden de las palabras de un texto, relevante para su significado, mezclando esos vectores en diferentes capas.
Sin embargo, fue con los Transformers cuando se perfeccionó ese aprendizaje por capas, en un modelo que también aprende qué palabras deben mezclarse –por ejemplo, nombres con adjetivos– y consigue los llamados embeddings contextuales, que tienen información relevante del resto del texto.
Los Transformers son la base de los modelos de lenguaje más conocidos: BERT de Google y GPT de OpenAI. Estos se entrenan con millones de textos que podemos encontrar en la red, como Wikipedia, y de esta forma, aprenden cómo se estructura el lenguaje en general y el significado genérico de las palabras.
Por ello, al venir con el lenguaje más o menos aprendido, sirven a su vez como modelos pre-entrenados y aplicables a tareas más concretas de PLN. En un proceso conocido como transfer learning, estos se re-entrenan con menos textos que representen el problema a resolver en cualquier ámbito.
Modelos de lenguaje generalizados
Tras la idea de que estos modelos de lenguaje son capaces de hacer tareas de PLN para las que no han sido entrenados específicamente, en la entrevista también se abordó si estos serían los primeros pasos para conseguir una Inteligencia Artificial general.
En este sentido, Álvaro Barbero cree que queda mucho por hacer hasta ese razonamiento general de las máquinas que se busca conseguir. Según explica, “estos modelos tienen capacidad de generalización en base a haber visto millones de textos”. Es decir, aunque no esté entrenado para la tarea que le propongamos, busca algo parecido entre todo lo que ha visto y lo replica. Le damos las respuestas con antelación.
Además, añade que los humanos somos más eficientes a la hora de hacer esa extrapolación. “Algo tenemos nosotros, nuestro cerebro, para incluso aprender de experiencias ajenas, de algo que no hemos hecho directamente, y encontrar una solución”, comenta Barbero.
Lo que sí está claro es que cada vez se desarrollan sistemas más complejos, se avanza y la Inteligencia Artificial ya no es solo cosa de los grandes, sino que se integra cada vez más en empresas más pequeñas. Ha demostrado que no es un boom y que crea un valor real.