Perfilado de empresas

Objetivo

El Instituto de Ingeniería del Conocimiento – IIC y la Secretaría de Estado de la Sociedad De La Información Y Agenda Digital – SESIAD firman un contrato para la investigación del empleo de técnicas de aprendizaje automático, propuesta de algoritmos y su realización, aplicado a la clasificación de empresas del sector TIC y la detección automática de comercio electrónico.

La Secretaría de Estado de la Sociedad De La Información y Agenda Digital forma parte del Ministerio de Energía, Turismo y Agenda Digital y se encarga de dar servicio de proyectos tecnológicos a otros organismos públicos. Una necesidad muy relevante es conocer la posición del sector español respecto a las economías de su entorno, entre otras cosas, para ayudar a las empresas españolas en las labores de internacionalización de su actividad industrial.

En esta línea de interés, se plantea realizar un perfilado de las empresas según la información pública de sus portales web. De esta manera, se puede obtener información actualizada y fiable sobre la actividad de las empresas que permite caracterizar los distintos sectores industriales.

Solución

La solución implementada por el IIC, basada en redes neuronales profundas y tecnologías de procesamiento del lenguaje natural, permite extraer y clasificar información sobre la actividad de una empresa a partir de su página web.

Nuestra herramienta ha sido probada en corpus de 200.000 webs de empresas bajo el dominio .es, cuya información ha sido extraída mediante webcrawling. Se han construido dos clasificadores binarios: uno que indica si una empresa pertenece al sector TIC o no, y otro que determina si una empresa tiene actividad de comercio electrónico o no. Se ha conseguido una precisión superior al 96%.

Beneficio

Con la aplicación de estas tecnologías, la herramienta del IIC permite clasificar con elevada precisión a cada empresa según su actividad extraída de la información publicada en su web. Este perfilado de empresas es extensible a otros atributos que se quieran inferir de la empresa.

La información obtenida puede ser relevante, además de para la administración pública, en los sectores financiero y asegurador.

Proyectos relacionados