El Instituto de Ingeniería del Conocimiento – IIC y la Secretaría de Estado de la Sociedad De La Información Y Agenda Digital – SESIAD, firmaron un proyecto de 6 meses que se ejecutó durante el 2016.
El proyecto consistió en dos servicios centrados ambos en la investigación del empleo de técnicas de aprendizaje automático, y propuesta de algoritmos de procesamiento de lenguaje natural.
El primero de ellos estaba aplicado a la clasificación de empresas del sector TIC, donde la fuente de datos son las páginas web de las empresas, la detección automática de comercio electrónico y la clasificación y detección de similitud en solicitudes de patentes.
El segundo estaba centrado en identificar y clasificar las empresas pertenecientes al sector TIC a partir del contenido de los sitios web, así como en identificar aquellas empresas con actividad de comercio electrónico.
Este proyecto ha tenido una fuerte carga de investigación, donde se han probado variados algoritmos de clasificación de documentos que forman parte del estado del arte. Es un problema complejo, al tratarse de etiquetas organizadas jerárquicamente. Independientemente de todo el trabajo exploratorio, el resultado del proyecto ha sido un sistema en producción que ha sido implementado mediante una metodología ágil en el que se ha involucrado al cliente en todas las fases del proyecto.
La solución implementada por el IIC, basada en redes neuronales profundas y tecnologías de procesamiento del lenguaje natural, permite clasificar automáticamente las patentes escritas en cualquier idioma y buscar otras patentes similares para detectar plagios y originalidad entre las patentes. Propone hasta 10 etiquetas distintas para un texto y el grado de certeza que tiene en cada una.
Estas mismas tecnologías se han aplicado en el problema de perfilado de empresas, donde se han implementado dos clasificadores que identifican la actividad TIC y de comercio electrónico respectivamente, con una precisión muy elevada.
La Secretaría de Estado de la Sociedad De La Información Y Agenda Digital forma parte del Ministerio de Energía, Turismo y Agenda Digital y, según la Oficina Española de Patentes y Marcas (OEPM), recibe alrededor de 3.000 solicitudes de patentes al año.
En este tipo de proyectos el IIC ofrece soluciones prácticas para las empresas con las tecnologías más punteras. Puedes ver más proyectos como este en nuestra sección de Clientes.