Agrupar automáticamente documentos y otros textos en función de un tema o interés.
En la clasificación automática de textos se suelen utilizan distintas técnicas de Procesamiento del Lenguaje Natural (PLN).
¿Qué es la clasificación automática de textos?
La clasificación automática de textos consiste en agrupar automáticamente documentos, comentarios y otros textos en función del tema sobre el que tratan u otras características.
Normalmente, se establecen una serie de categorías o clases, y se utilizan distintas técnicas de Inteligencia Artificial para clasificar y ordenar los textos en cuestión.
La clasificación automática de textos es aplicable a todo tipo de sectores y textos: documentos, comentarios, indicencias, mensajes, facturas, currículums, etc.
Con la clasificación automática de textos podemos identificar de manera rápida grupos o clusters de textos que tratan de lo mismo, aunque la información relacionada con el tema sea diferente en cada uno de ellos. Se trata de una aplicación especialmente útil en sectores que manejan mucha información, como el legal, o que necesitan una clasificación de textos ágil, como la atención al cliente o RR. HH.
El primer paso para automatizar cualquier tarea de PLN es seleccionar un corpus que sirva de ejemplo al modelo que se desarrolle. Después, dependiendo de la información que tengamos de este conjunto de textos, se decidirá hacer una clasificación no supervisada o clustering, con técnicas más avanzadas, o una clasificación supervisada, para la que se etiquetarán y clasificarán los textos seleccionados en categorías pre-establecidas.
Una vez decididas las categorías y entrenado el modelo con los textos etiquetados, se pueden realizar dos tipos de clasificación automática:
Clasificación MULTI-CLASE
(multi-class classification), que otorga una única etiqueta a cada texto.
Clasificación MULTI-ETIQUETA
(multi-label classification), que permite que un mismo texto se clasifique en ninguna, una o varias categorías prefijadas.
¿Cómo se realiza la clasificación automática de textos?
Para la clasificación automática de textos se suelen utilizar distintas técnicas de Procesamiento del Lenguaje Natural (PLN): recursos léxicos, sistemas basados en reglas o algoritmos de clasificación basados en Machine Learning.
Dependiendo del tipo de textos que se manejen, se puede adaptar la clasificación automática a las necesidades de cada proyecto.
La clasificación automática de documentos se puede realizar a distintos niveles:
Clasificación del documento completo
La clasificación se aplica a nivel de documento, es decir, se clasifican documentos completos en función de las temáticas que recogen.
Clasificación de sección del documento
La clasificación se aplica a nivel de sección dentro del documento, es decir, se clasifican las secciones, párrafos u oraciones según los temas de los que hablan.
Clasificación de comentarios en redes sociales
Para clasificar comentarios de redes sociales, se utilizam herramientas de escucha y monitorización de redes sociales como Lynguo, desarrollada por el IIC.
También se puede hacer una clasificación de textos más ágil o en tiempo real, con las preguntas, incidencias o peticiones que llegan a un call center, por ejemplo. En este caso, se requiere además una implementación: el modelo clasificará los mensajes y el sistema redirigirá la información a los usuarios u operadores apropiados.
Al abordar un proyecto de clasificación automática, muchas veces, nos encontramos con textos no estructurados (escritos en texto libre) o en papel.
A la hora de analizar la presencia de temas o marcas concretas en redes sociales, esta permite visualizar la clasificación que se hace de los comentarios al respecto (en categorías como producto, precio o imagen). Además, se puede caracterizar y enriquecer la clasificación mediante el análisis de la opinión, análisis del sentimiento, de las emociones o de la concienciación.
En el IIC también aplicamos distintas técnicas, como las OCR (Optical Character Recognition), para digitalizar y transcribir estos documentos antes de la clasificación.
Beneficios de la clasificación automática de textos
Algunas de las ventajas de la clasificación automática de textos aplicada a diferentes ámbitos son:
Ahorro de tiempo
Con la automatización de la clasificación de textos se ahorra tiempo de tareas que se ejecutaban de forma manual y reducción del error humano.
Segmentación
Facilita labores de etiquetado o segmentación de clientes conforme a estudios realizados.
Nuevas entrategias
Ayuda a adoptar nuevas estrategias y tomar decisiones de manera más ágil.
Satisfacción del cliente
Mayor satisfacción del cliente, al reducir los tiempos de espera y aplicar acciones de mejora.
Volumen de datos
Tratamiento de mayor volumen de datos procesados, pudiendo realizar una clasificación de toda la información disponible en menos tiempo.