Una de las tareas más comunes del Procesamiento del Lenguaje Natural (PLN) es la clasificación temática de documentos según su contenido. La principal utilidad de la clasificación temática es agrupar automáticamente documentos en función del tema o temas sobre los que trata. De esta manera es posible identificar fácilmente grupos o clusters de documentos que versan sobre un mismo contenido, aunque la información relacionada con dicho tema sea diferente en cada documento.
La clasificación temática automática de documentos presenta dos claras ventajas frente a cualquier proceso manual de clasificación: reducción del tiempo de clasificación y aumento el volumen de datos a procesar.
Un posible caso de uso es la segmentación y análisis de la conversación en redes sociales en base a unos temas predeterminados según el foco de interés. Este tipo de clasificación despierta gran interés entre las marcas y compañías debido a que permite conocer sobre qué aspectos hablan los usuarios de redes como Twitter o Facebook.
Para llevar a cabo la segmentación de la conversación se utiliza distintas técnicas de PLN: recursos léxicos, sistemas basados en reglas o algoritmos de clasificación. Además, existen herramientas de escucha y monitorización de redes sociales como Lynguo, que permiten visualizar esa segmentación, además de estudiar temas concretos y caracterizarlos mediante el análisis de la opinión, emociones o concienciación (Sentiment Analysis).
La base sobre la que se construye la clasificación temática de documentos es un repertorio de categorías o temas en los que se quieren clasificar los textos y que se establecen previamente. Estas categorías deben ajustarse al foco de interés o estudio.
Por ejemplo, pongamos que se quiere analizar la conversación generada en Twitter durante los meses de confinamiento en función de las actividades de tiempo libre sobre las que los usuarios han hablado. En este caso, sería interesante crear un repertorio de categorías que agrupen comentarios y tweets en torno a temas como cultura y ocio, ejercicio físico, cocina, relaciones sociales o compras. Si, otro caso, el objeto de estudio es conocer sobre qué aspectos de un producto concreto hablan los usuarios, la gama de categorías iría orientada a conceptos como usabilidad, precio, durabilidad, satisfacción o calidad.
Esta selección previa de categorías constituye un paso esencial en la clasificación temática y es lo que la diferencia de otras tareas de PLN como la extracción de temas de conversación (topic extraction), que trata de extraer automáticamente, desde la propia conversación, los temas más comunes que la componen.
Una vez establecidas las categorías, en función de las necesidades del análisis de los datos, existen dos tipos de clasificación aplicada a documentos: la clasificación multi-clase y la clasificación multi-etiqueta.
La clasificación multi-clase de documentos
La clasificación multi-clase (multi-class document classification) otorga una única etiqueta a cada documento. Es decir, las categorías del repertorio son discretas: un mismo documento se puede clasificar o no únicamente en una de ellas. Un ejemplo de uso de la clasificación multi-clase es diferenciar entre distintos tipos de documentos que forman parte de un mismo corpus (contratos, facturas, nóminas, patentes y reclamaciones).

Clasificación multi-clase de documentos.
La clasificación multi-etiqueta de documentos
La clasificación multi-etiqueta (multi-label document classification) permite que un mismo documento se clasifique en ninguna, una o varias categorías prefijadas. La clasificación multi-etiqueta se aplica, por ejemplo, cuando se quiere saber sobre qué tema o temas habla un documento. Un caso de uso real sería, por ejemplo, el análisis de trending topics en Twitter.
Además, la clasificación temática puede darse a distintos niveles: puede aplicarse a nivel de documento (se clasifican documentos completos en función de las temáticas que recogen) o a nivel de sección dentro del documento (se clasifican las secciones, párrafos u oraciones según los temas de los que hablan).
Veamos un ejemplo real de clasificación temática de documentos. En la tabla 1., que contiene una muestra de los comentarios recogidos en torno a la conversación sobre actividades de tiempo libre en el confinamiento, se puede observar que aparecen actividades diversas ligadas a las distintas categorías: cocina, compras, cultura y ocio, ejercicio físico y relaciones sociales.
ID | COMENTARIO | CATEGORÍA |
---|---|---|
1 | Cuando llegue el próximo confinamiento recurrirás a cómics, cine, música, videojuegos, series o teatro para no perder la cabeza! | Cultura y ocio |
2 | Muchas personas que aumentaron sus familias con una mascota durante el confinamiento empiezan a darse cuenta de la responsabilidad que conlleva. | Sin categoría |
3 | Espero que en esta cuarentena te haya dado tiempo a aprender a hacer videollamadas… sino, aprende, aprende que aún te queda confinamiento pa rato! XD | Relaciones sociales |
4 | Mi primera compra online durante el confinamiento no ha sido helado y cerveza, sino 4 cómics, una novela y unas entradas para la visita guiada virtual de un museo… #atopemeculturizo #cultura #todovaasalirbien | Compras | Cultura y ocio |
5 | Odio el confinamiento… qué sensación de claustrofobia! | Sin categoría |
6 | Nuevo consumidor durante la pandemia: compra online, pago con tarjeta y marcas blancas. | Compras |
7 | Hoy he hecho la primera clase de zumba de mi vida y creo que no me voy a poder mover en lo que queda de estado de alarma. | Ejercicio físico |
8 | Antes del confinamiento, era más productivo: hacía ejercicio, miraba series, leía y todo. Las últimas semanas todo se está yendo a la mierda y estoy más gordo. | Cultura y ocio |
9 | Disfrutando de los ratos en casa que no tenía desde hace tiempo. ¡¡¡¡Confinado y FELIZ!!!! | Sin categoría |
10 | Tercer bizcocho que hago en 5 días. Francamente, creo que saldré rodando del confinamiento. | Cocina |
Además, la aproximación al mismo también puede variar dependiendo de cada comentario: el comentario 6 muestra una descripción más objetiva de los nuevos hábitos de consumo mientras que el comentario 4 habla en primera persona de su experiencia de compra particular. Otros de los comentarios recogidos en la muestra (5 y 9), quedan fuera de la clasificación temática establecida por tratar sobre temas ajenos al diseño de la propia clasificación de actividades de tiempo libre.
Visualización de las categorías de documentos con Lynguo
Una vez realizada la clasificación temática sobre el corpus de documentos, los resultados de esta clasificación, tanto si es multi-etiqueta como si es multi-clase, pueden visualizarse a través de la herramienta Lynguo.
Lynguo permite la visualización de cada uno de los documentos junto con las categorías de clasificación temática correspondientes. Además, permite la creación de tags (etiquetas) personalizados, que sirven para marcar temas concretos adicionales, independientes de la clasificación temática preestablecida.
A través de los filtros superiores de la interfaz web de Lynguo, es también posible filtrar por cada categoría de clasificación temática y comparar las gráficas del Dashboard relativas a cada uno de ellas.
En definitiva, la clasificación temática de documentos es una de las técnicas más útiles de PLN para el análisis temático y permite procesar automáticamente el contenido de los documentos para su posterior clasificación, proporcionando soluciones tecnológicas, por ejemplo, a la segmentación por contenido de la conversación en redes sociales. Una tarea que sería inabarcable en tiempo y esfuerzo de tener que realizarla manualmente.