La comprensión y análisis de información compleja pasa muchas veces por una buena visualización de los datos. Actualmente existen distintos algoritmos útiles para representar conjuntos de datos de alta dimensión en un espacio bidimensional, siendo así más manejables.
Además, una representación más simple de la información ayuda a identificar características relevantes de los datos, detectar patrones no lineales e interpretarlos, aplicándose, por ejemplo, en el ámbito de la salud para el procesamiento de imágenes o el análisis de datos genómicos.
WhitePaper sobre «Algoritmos de visualización 2D: PCA y alternativas»
Desde el Instituto de Ingeniería del Conocimiento (IIC) proponemos en este whitepaper una comparativa de diferentes algoritmos de visualización de datos en dos dimensiones, partiendo de las conocidas técnicas de Análisis de Componentes Principales (Principal Component Analysis, PCA) y explorando otras alternativas: Sparse PCA, Kernel PCA, ISOMAP, autocodificadores, t-SNE y UMAP.
Aplicamos los diferentes algoritmos a un conjunto de datos de flores (iris), para visualizar cómo se distribuyen los datos en un espacio bidimensional, y detallamos ventajas y desventajas de cada uno, para elegir las más apropiadas a cada caso o conjunto de datos. Una investigación que parte de la experiencia del IIC con estas técnicas.