En pleno auge de la inteligencia artificial generativa (IAGen), el procesamiento de lenguaje natural y concretamente los modelos de lenguaje (large language models, LLM), se han convertido en herramientas clave en la construcción de aplicaciones como asistentes virtuales, traducción automática o análisis de sentimientos en textos.
Sin embargo, el rendimiento y la precisión de estos modelos de lenguaje dependen en gran medida de los corpus lingüísticos. Estos conjuntos masivos de textos determinan qué idioma comprende la IA, qué variantes reconoce y qué sesgos arrastra.
De todo esto hablamos en el episodio número 12 de InnovaDATA ¿Cómo debe ser un buen corpus?. Para ello, invitamos a Marta Guerrero, directora técnica del área de Business & Language Analytics del IIC, y a Pablo Gamallo, Catedrático de Lingüística e investigador del Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS).
En esta conversación reflexionaron sobre cómo construir corpus de calidad, cómo abordar la inclusión de lenguas minoritarias y qué desafíos enfrentan los modelos de IA para lenguas como el español y el gallego.
¿Por qué son importantes los corpus en inteligencia artificial?
Los modelos de lenguaje funcionan aprendiendo patrones del lenguaje humano a partir de grandes cantidades de texto. Estos textos conforman lo que se conoce como corpus.
Los corpus son fundamentales para el entrenamiento de modelos de lenguaje, y este entrenamiento es esencial para que los modelos puedan aprender gramática, léxico y contexto de manera efectiva. Así, si los corpus son variados, representativos y de alta calidad, el modelo puede generar respuestas más precisas, coherentes y culturalmente relevantes.
La calidad de los corpus depende en primera estancia de la cantidad de textos con los que se les alimenta. Éstos pueden ser datos de internet, noticias prensa y redes sociales, entre otros, lo que plantea preocupaciones sobre el balanceo, la representatividad y la diversidad de los textos.
El tamaño del corpus es crucial, ya que los modelos requieren billones de palabras de entrenamiento para funcionar correctamente. Sin embargo, la calidad no debe renunciar por la cantidad. Como explica Marta Guerrero: “un buen corpus no solo es grande, sino que tiene que estar bien equilibrado y reflejar el uso real del lenguaje”.
Cuando los corpus están desbalanceados —por ejemplo, con una abrumadora mayoría de textos en inglés y con poca o nula representación de otras lenguas o registros—, los modelos replican ese sesgo. Esto tiene consecuencias en el resultado final, como pueden ser traducciones erróneas, respuestas sesgadas o incluso, la exclusión de comunidades lingüísticas.
Pablo Gamallo insiste en que:
“la calidad de un modelo de lenguaje está directamente relacionada con la calidad del corpus que lo alimenta”.
Al entrenar los modelos de lenguaje con estas fuentes sesgadas o limitadas, los modelos tienden a adoptar una visión anglocéntrica del mundo, ignorando contextos regionales, históricos o culturales de otras lenguas.
¿Cómo se crean corpus para lenguas minoritarias?
La representación lingüística en modelos de lenguaje generativos es crucial para la supervivencia de las lenguas minoritarias. Es complicado que estas lenguas tengan representación en estas tecnologías actuales, en gran parte, por la dificultad de encontrar datos para entrar los modelos en esas lenguas.
El desarrollo de corpus para lenguas minoritarias como el gallego, euskera o catalán requiere superar obstáculos importantes, tanto técnicos como sociales:
- Acceso legal y ético a textos: Se necesitan convenios con medios, editoriales y organismos públicos para usar textos protegidos por derechos de autor.
- Diversificación de fuentes: Para evitar sesgos, es fundamental incluir textos de diferentes géneros (literatura, periodismo, conversaciones, textos técnicos, etc.) y registros (formal, coloquial, institucional).
- Técnicas de alineamiento y limpieza: Se utilizan herramientas automáticas para eliminar duplicados, corregir errores y asegurar la coherencia del corpus.
- Colaboración con hablantes nativos y lingüistas: Su participación asegura que las traducciones, anotaciones y adaptaciones respeten las características propias de la lengua.
- Uso de datos sintéticos: Cuando no hay suficientes textos, se pueden generar nuevos datos a partir de modelos ya entrenados, aunque esto conlleva riesgos de circularidad y pérdida de autenticidad.
Gamallo pone especial énfasis en el gallego:
“Si no hay corpus de calidad en gallego, los modelos no sabrán tratarlo bien. Y eso nos relega tecnológicamente”.
Una de las acciones en las que se está trabajando para el desarrollo de corpus de estas lenguas minoritarias es la firma de acuerdos y convenios. Esto garantiza el uso de variedad de texto que poseen las editoriales, medios de comunicación, archivos oficiales, museos, etc. Esto es crucial para asegurar la representatividad y calidad de los textos recolectados.
En el caso del gallego, ha sido esencial la colaboración entre investigadores de diferentes países como España, Portugal o Brasil. Gracias al uso de herramientas de recolección y limpieza de datos, se ha logrado crear un corpus extenso, que mejora notablemente el desempeño de los modelos específicos para esta lengua.
Desafíos para el español y otras lenguas en IA
Aunque el español es uno de los idiomas más hablados del mundo, no está exento de desafíos en el contexto de los modelos de lenguaje:
- Representación desequilibrada: Muchos corpus de español están dominados por textos de España, dejando fuera variantes regionales de América Latina.
- Falta de contenido especializado: Textos legales, médicos o técnicos no siempre están disponibles o bien representados en los corpus, lo que limita el desarrollo de modelos específicos.
- Coste de evaluación: Validar la calidad del corpus y los resultados generados por los modelos requiere análisis lingüístico humano, una tarea intensiva en tiempo y recursos.
- Dependencia de datos de internet: Aunque abundantes, estos textos pueden estar sesgados por modas, polarización o falta de revisión editorial.
Por eso, además de corpus multilingües genéricos, es fundamental construir modelos monolingües profundos que aborden las particularidades gramaticales y culturales de cada lengua.
La colaboración en la construcción de corpus
Una de las principales conclusiones de este podcast es que la construcción de corpus no puede ser solo tarea de ingenieros o empresas tecnológicas. Requiere una red colaborativa compuesta por:
- Lingüistas computacionales, que diseñan y validan las estructuras del corpus.
- , necesarios para textos técnicos específicos (medicina, derecho, ciencia, tecnología. etc).
- Instituciones públicas, que garantizan acceso legal a textos y promueven la igualdad lingüística.
- Comunidad hablante, que aporta diversidad y autenticidad cultural.
- Estudiantes y académicos, que participan en labores de curación, anotación y evaluación.
También se necesita colaboración en el proceso de limpieza y evaluación de los corpus.
Guerrero menciona que uno de los grandes retos es:
“la obtención de datos representativos sin vulnerar derechos de autor o privacidad”.
Conclusiones sobre los corpus de calidad
- Los corpus son el combustible de la inteligencia artificial lingüística. Su calidad y diversidad determinan el desempeño de los modelos, desde su capacidad gramatical hasta su sensibilidad cultural.
- Las lenguas minoritarias necesitan políticas activas de inclusión tecnológica. No basta con traducir modelos desde el inglés; hay que crear corpus y modelos propios, adaptados a cada idioma y cultura.
- La colaboración entre lingüistas, tecnólogos e instituciones es esencial. Los equipos multidisciplinares son esenciales en este trabajo conjunto. Sin ellos, ess imposible garantizar corpus representativos y éticos.
- El español, a pesar de su tamaño, aún enfrenta retos. La necesidad de representación regional, especialización temática y evaluación rigurosa sigue siendo una asignatura pendiente.
- El futuro de la IA debe ser multilingüe y culturalmente diverso. No solo para garantizar equidad, sino para asegurar que nadie quede fuera de los beneficios de la tecnología, modelos más inclusivos y representativos.