“Hola, soy Clara. Soy el resultado de una investigación en lenguaje claro. Mido la probabilidad de que un texto sea claro”. Así se presenta el ayudante virtual creado por Prodigioso Volcán y el Instituto de Ingeniería del Conocimiento (IIC). Clara es un sistema de Inteligencia Artificial entrenado para reconocer el lenguaje claro.
Aunque todavía se encuentra en fase beta, con características que deben mejorar, la aplicación ya es útil como apoyo a la redacción y distingue entre textos claros y oscuros en base a 9 criterios lingüísticos.
Recientemente, en la presentación de la interfaz de Clara, se mostró cómo funciona, qué analiza y qué es el Machine Learning aplicado a la lengua española. Esto último de la mano de Carmen Torrijos, lingüista computacional del IIC, a la que acompañaron además Mario Tascón, socio fundador de Prodigioso Volcán, Itxaso Redondo, responsable del área de Comunicación Clara, y Quique Herrero, socio y director de Arte.
Primeros resultados tras evaluar la comunicación clara
El objetivo de Clara es contribuir a facilitar una comunicación sencilla, clara y transparente. El asistente evalúa automáticamente la claridad de los textos y, en un primer análisis, repasa los indicadores individualmente y da consejos para mejorarlos.
Para evaluar a Clara, se seleccionaron 300 textos de páginas web: sobre todo, de administraciones y organismos públicos (168), pero también de empresas (81), universidades (27), redes sociales (19) y organismos internacionales (7).
Todos ellos eran textos relacionados con la crisis sanitaria o con trámites frecuentes para la ciudadanía. Después de analizarlos y medir su grado de claridad, la mayoría de los textos administrativos suspendieron la prueba. “La nota media fue de un 49,12 %. Nosotros los consideramos claros a partir del 65 %”, matizó Mario Tascón.
Entre los textos con menos probabilidad de ser claros, encontramos los de la Agencia Tributaria, el SEPE, la Seguridad Social, el Ministerio de Trabajo o los relacionados con el Ingreso Mínimo Vital o la pandemia. Y entre los fallos más frecuentes, destacan:
- Ausencia de conectores discursivos.
- Insuficiencia de palabras de uso común en español, usando tecnicismos.
- Excesivo número de palabras por frase, dificultando la lectura y, por tanto, la comprensión.
Por otro lado, los textos redactados por las principales compañías de redes sociales (Facebook, Twitter, etc.) para sus usuarios son los que obtienen una mayor probabilidad de ser claros. Usan frases cortas, conectores discursivos, palabras comunes y un estilo directo con una estructura sintáctica sencilla.
Machine Learning y PLN para medir la claridad de los textos
Clara es una herramienta apoyada en la Inteligencia Artificial para evaluar la claridad del lenguaje. Sin embargo, según explicaba Carmen Torrijos, no se puede decir que “aprende” o “comprende” sin tener en cuenta que se trata de metáforas sobre procesos cognitivos humanos, que debemos cuidar para no crear falsas expectativas en cuanto a la capacidad de las máquinas.
“A Clara, un equipo multidisciplinar le ha enseñado a distinguir un texto claro de otro que no lo es. Mediante un corpus anotado, métricas lingüísticas específicamente diseñadas y técnicas de Machine Learning y Procesamiento de Lenguaje Natural (PLN)”, matizó. Ella misma fue la encargada de aclarar los conceptos en torno al desarrollo del asistente y la lingüística computacional, disciplina mixta que se ocupa del procesamiento automático del lenguaje humano.
¿Cómo se ha entrenado el modelo de Inteligencia Artificial?
Para llegar a automatizar el análisis de la claridad de cualquier texto en español se ha seguido un proceso de trabajo que combina PLN y Machine Learning:
- Elaboración de un corpus anotado: 1000 textos administrativos y jurídicos reales etiquetados como “claro” y “no claro” según la opinión de los especialistas.
- Desarrollo de 9 métricas lingüísticas para evaluar la claridad.
- Entrenamiento del modelo de Machine Learning, en base a las etiquetas y, por tanto, a la opinión humana, junto con el resultado de las mediciones.
- Desarrollo de una API Rest para que Clara sea un servicio online fácilmente consumible.
Tras el desarrollo del asistente, se escogieron los 300 textos adicionales para comprobar con qué nivel de acierto podía medir la claridad del lenguaje.
¿Cómo puede evolucionar el ayudante de lenguaje claro?
Clara está lista para analizar la claridad de los textos, pero el objetivo ahora es mejorar sus funcionalidades. La herramienta pretende servir de apoyo en una redacción más clara para el lector y además ahorrar tiempo al que redacta; por ello, sería útil que corrigiera en tiempo real aquello que detectase como confuso, o recomendara términos más sencillos. Por ahora, las mejoras que se plantean son:
- Aumentar el corpus para reentrenarla y mejorar su rendimiento con nuevos ejemplos.
- Nuevas métricas lingüísticas: tratamiento de tú y usted, identificación de siglas y acrónimos, reconocimiento de nombres propios…
- Aprender de los usuarios. Con los nuevos textos que aporten en la interfaz, conseguir un reentrenamiento continuo.
- Modelo de lenguaje BERT. Uno de los últimos avances del PLN permitiría tener en cuenta el contexto para “comprender” mejor los mensajes.
También se contempla adaptar el modelo a otros ámbitos. De momento, Clara está pensada para un sector administrativo y jurídico, para facilitar la comunicación con los usuarios y que dé pie a mejorar la claridad de los mensajes que se dan a la ciudadanía desde empresas e instituciones.