Clasificación automática de textos

Clasificación automática de textos

Agrupar automáticamente documentos y otros textos en función de un tema o interés.

En la clasificación automática de textos se suelen utilizan distintas técnicas de Procesamiento del Lenguaje Natural (PLN).

clasificación de documentos

¿Qué es la clasificación automática de textos?

La clasificación automática de textos consiste en agrupar automáticamente documentos, comentarios y otros textos en función del tema sobre el que tratan u otras características.

Normalmente, se establecen una serie de categorías o clases, y se utilizan distintas técnicas de Inteligencia Artificial para clasificar y ordenar los textos en cuestión.

La clasificación automática de textos es aplicable a todo tipo de sectores y textos: documentos, comentarios, indicencias, mensajes, facturas, currículums, etc.

Con la clasificación automática de textos podemos identificar de manera rápida grupos o clusters de textos que tratan de lo mismo, aunque la información relacionada con el tema sea diferente en cada uno de ellos. Se trata de una aplicación especialmente útil en sectores que manejan mucha información, como el legal, o que necesitan una clasificación de textos ágil, como la atención al cliente o RR. HH.

El primer paso para automatizar cualquier tarea de PLN es seleccionar un corpus que sirva de ejemplo al modelo que se desarrolle. Después, dependiendo de la información que tengamos de este conjunto de textos, se decidirá hacer una clasificación no supervisada o clustering, con técnicas más avanzadas, o una clasificación supervisada, para la que se etiquetarán y clasificarán los textos seleccionados en categorías pre-establecidas.

Una vez decididas las categorías y entrenado el modelo con los textos etiquetados, se pueden realizar dos tipos de clasificación automática:

Clasificación MULTI-CLASE

(multi-class classification), que otorga una única etiqueta a cada texto.

Clasificación MULTI-ETIQUETA

(multi-label classification), que permite que un mismo texto se clasifique en ninguna, una o varias categorías prefijadas.

documentos

¿Cómo se realiza la clasificación automática de textos?

Para la clasificación automática de textos se suelen utilizar distintas técnicas de Procesamiento del Lenguaje Natural (PLN): recursos léxicos, sistemas basados en reglas o algoritmos de clasificación basados en Machine Learning.

Dependiendo del tipo de textos que se manejen, se puede adaptar la clasificación automática a las necesidades de cada proyecto.

QUIERO SABER MÁS

La clasificación automática de documentos se puede realizar a distintos niveles:

Clasificación del documento completo

La clasificación se aplica a nivel de documento, es decir, se clasifican documentos completos en función de las temáticas que recogen.

Clasificación de sección del documento

La clasificación se aplica a nivel de sección dentro del documento, es decir, se clasifican las secciones, párrafos u oraciones según los temas de los que hablan.

Clasificación de comentarios en redes sociales

Para clasificar comentarios de redes sociales, se  utilizam herramientas de escucha y monitorización de redes sociales como Lynguo, desarrollada por el IIC.

También se puede hacer una clasificación de textos más ágil o en tiempo real, con las preguntas, incidencias o peticiones que llegan a un call center, por ejemplo.  En este caso, se requiere además una implementación: el modelo clasificará los mensajes y el sistema redirigirá la información a los usuarios u operadores apropiados.

Al abordar un proyecto de clasificación automática, muchas veces, nos encontramos con textos no estructurados (escritos en texto libre) o en papel.

A la hora de analizar la presencia de temas o marcas concretas en redes sociales, esta permite visualizar la clasificación que se hace de los comentarios al respecto (en categorías como producto, precio o imagen). Además, se puede caracterizar y enriquecer la clasificación mediante el análisis de la opinión, análisis del sentimiento, de las emociones o de la concienciación.

En el IIC también aplicamos distintas técnicas, como las OCR (Optical Character Recognition), para digitalizar y transcribir estos documentos antes de la clasificación.

Beneficios de la clasificación automática de textos

Algunas de las ventajas de la clasificación automática de textos aplicada a diferentes ámbitos son:

Ahorro de tiempo

Con la automatización de la clasificación de textos se ahorra tiempo de tareas que se ejecutaban de forma manual y reducción del error humano.

Segmentación

Facilita labores de etiquetado o segmentación de clientes conforme a estudios realizados.

Clasificación de documentos

Nuevas entrategias

Ayuda a adoptar nuevas estrategias y tomar decisiones de manera más ágil.

Satisfacción del cliente

Mayor satisfacción del cliente, al reducir los tiempos de espera y aplicar acciones de mejora.

Volumen de datos

Tratamiento de mayor volumen de datos procesados, pudiendo realizar una clasificación de toda la información disponible en menos tiempo.

Contacta con nosotros


    He leído y acepto las condiciones de uso y la política de privacidad*.

     Sí deseo recibir comunicaciones comerciales.

     

    Información básica sobre Protección de Datos

    • Responsable: Asociación para el Desarrollo de la Ingeniería del Conocimiento.
    • Dirección: Ctra. de Colmenar Viejo, km.15, Calle Francisco Tomás y Valiente 11; EPS, Edificio B, 5ª planta; 28049 Madrid.
    • Teléfono: 914972323
    • Correo electrónico: contacto.iic@iic.uam.es
    • Delegado de Protección de Datos: dpd@iic.uam.es

    En nombre de Asociación para el Desarrollo de la Ingeniería del Conocimiento, tratamos la información que nos facilita con el fin de dar respuesta a la solicitud realizada por usted en relación con los servicios que prestamos y los productos que suministramos. Los datos proporcionados se conservarán mientras se mantenga el contacto, siendo eliminados una vez finalizada la solicitud. Los datos no se cederán a terceros salvo en los casos en que exista una obligación legal. Usted tiene derecho a obtener confirmación sobre si en Asociación para el Desarrollo de la Ingeniería del Conocimiento estamos tratando sus datos personales, por tanto, tiene derecho a acceder a sus datos personales, rectificar los datos inexactos o solicitar su supresión cuando los datos ya no sean necesarios. Asimismo, podrá oponerse al tratamiento de sus datos, solicitar la limitación al tratamiento y la portabilidad de sus datos. Si considera que sus datos personales no han sido tratados conforme a la normativa, puede contactar con derechosrgpd@iic.uam.es. Asimismo, podrá presentar una reclamación ante la Agencia Española de Protección de Datos, especialmente cuando no haya obtenido la satisfacción en el ejercicio de sus derechos, a través de la sede electrónica en www.aepd.es.

    Asimismo, se desean utilizar sus datos para ofrecerle productos y servicios relacionados con los solicitados por Usted, por cualquier medio, incluido el electrónico, incluso una vez terminada la relación negocial/contractual.