No sorprende a nadie oír que un proyecto de analítica será, en el mejor de los casos, tan bueno como la calidad de los datos y del modelo predictivo que lo sostienen. De hecho, este es un tema que ya se ha tratado previamente en este blog, donde se puso de manifiesto la importancia de obtener medidas precisas y válidas para abordar un proyecto de HR Analytics con garantías. Por desgracia, esto no siempre es fácil en la evaluación de atributos psicológicos.
En este artículo, hablamos de cómo aplicar técnicas procedentes de la psicometría–disciplina que se encarga de la medición, modelado y análisis de cualidades psicológicas– y de si las nuevas variables obtenidas con técnicas de machine learning son susceptibles de ser analizadas desde esta perspectiva. En el Instituto de Ingeniería del Conocimiento (IIC), hemos investigado en concreto la fiabilidad de los indicadores paraverbales.
¿Qué es calidad en psicometría?
Calidad es una palabra comodín. Un término positivo y que nos hace sentir satisfechos, que resulta fácil nombrar, pero difícil definir. En psicometría, la calidad habitualmente implica:
- Fiabilidad. Garantías de que la medición es estable en el tiempo.
- Validez. Garantías de que la medición, a nivel grupal y/o individual, se asocia a una interpretación y una toma de decisiones adecuada. Por ejemplo, que una puntuación elevada en una prueba de razonamiento fluido garantiza realmente un mejor rendimiento en el puesto de trabajo.
- Ausencia de sesgo. Es decir, que el instrumento empleado no discrimine de forma sistemática a nadie por razones de género, raza o cualquier otro factor.
- Existencia de un modelo teórico que explique las relaciones encontradas. Idealmente, si la evidencia es suficiente, esto nos permitirá asumir una relación de causa – efecto.
Existen procedimientos de reconocido valor científico para evaluar estos aspectos. En el IIC, la plataforma de evaluación de competencias eValue se ha desarrollado atendiendo a estas consideraciones, tanto en el caso de las pruebas más tradicionales (cuestionarios, tests de juicio situacional, etc.) como de aquellas que utilizan las tecnologías más innovadoras, como la gamificación. Sin embargo, estas herramientas, basadas en la investigación psicométrica teórica y aplicada, no son las únicas opciones disponibles hoy en día.
Machine learning y evaluación de RR. HH.: estado del arte
Entra en juego la inteligencia artificial. En sus variadas aplicaciones (PLN, visión artificial, etc.), los nuevos algoritmos de IA y machine learning parecen estar revolucionando muy diversos aspectos de negocio. En la evaluación de RR. HH., esto se concreta no solo en nuevas formas de analizar los datos, sino también en la posibilidad de analizar nuevas fuentes de información. Según la herramienta empleada, estos indicadores pueden trabajar con información verbal, paraverbal (acústica y prosodia), movimiento corporal y expresión facial, intereses mostrados en redes sociales, localización, etc.
Al contrario que en el proceso científico, los modelos de machine learning empleados para este fin a menudo trabajan mediante la extracción de miles de indicadores, sin necesidad de que exista una teoría previa que guíe su selección. Es decir, se recoge toda la información disponible sobre la persona y se usa para predecir el criterio deseado, incluso si no existe ninguna relación aparente entre las variables predictoras y la variable predicha, ya que en descubrirla reside parte de su potencial.
En ocasiones, las variables predictoras se obtienen mediante algoritmos de extracción automática. Por ejemplo, a partir de una grabación de una persona, se pueden extraer multitud de variables sobre el audio, sin necesidad siquiera de que el analista entienda de qué informan estas variables. Posteriormente, se usa un algoritmo de análisis que busca obtener predicciones sobre el criterio con la menor cantidad de error posible, a partir de las variables predictoras. A este método de selección de variables se le llama empirical keying.
Limitaciones del empirical keying en psicometría
El empirical keying, de naturaleza inductiva, contrasta con el más habitual método hipotético-deductivo del que presume la psicología, en el que las variables predictoras se seleccionan de forma premeditada y atendiendo a un enfoque teórico, buscando maximizar no solo el poder predictivo, sino también la interpretabilidad del resultado.
Por tanto, una consecuencia directa del uso de algoritmos de machine learning junto con la selección por empirical keying es la mayor dificultad para interpretar las soluciones obtenidas. Al poder existir miles de predictores distintos, es difícil ver la relación que puede tener cada uno de ellos con el criterio. Además, al no haber un modelo teórico detrás del modelo estadístico, puede ser complicado entender las relaciones encontradas en términos sustantivos.
Las nuevas metodologías siempre generan interés y expectación, pero su objetivo real debe ser aportar valor al servicio de las personas. Y para ello, una de las principales tareas a abordar es evaluar la calidad de las soluciones aportadas. Esto implica asegurar que los datos contengan información fiable, relevante, no redundante y no contaminada, que los modelos tengan un margen de error aceptable y no presenten sesgos, y que los resultados que devuelve la herramienta se interpreten de una forma válida.
Recientemente se han hecho investigaciones sobre la eficacia de los nuevos métodos basados en machine learning, y los resultados son prometedores (Koutsoumpis et al., 2024; Liff et al., 2024). Una dificultad que resolver, sin embargo, es el elevado número de predictores utilizado. Por ello, es muy interesante emplear técnicas que permitan preseleccionar aquellos indicadores de mayor calidad, de cara a eliminar ruido del modelo.
Investigamos la fiabilidad de los indicadores paraverbales
Con el objetivo de evaluar la calidad de los datos obtenidos con machine learning, desde el área de Talent Analytics del Instituto de Ingeniería del Conocimiento, se realizó un estudio piloto en el que se evaluó la fiabilidad o repetibilidad de un conjunto de indicadores paraverbales (aquellos sonidos vocales que complementan el lenguaje hablado o, dicho de otra forma, aspectos relacionados con el tono, el ritmo o la melodía de la voz). Se eligió este conjunto por haber sido utilizado ampliamente en tareas muy diversas relacionadas con el procesamiento de audio (inteligibilidad del lenguaje hablado, etc.). Estos se extrajeron automáticamente de una serie de video entrevistas asíncronas, que formaban parte de un proyecto de investigación mayor. También se evaluó el grado de redundancia entre ellas, para saber en qué medida se pueden eliminar sin riesgo de perder información.
El resultado fue que hasta un 43% de las variables evaluadas resultaron poco fiables o redundantes, lo cual es problemático en tanto que la inclusión de predictores irrelevantes a menudo se asocia con un mayor sobreajuste a la muestra disponible. Otro descubrimiento fue que la fiabilidad de estas medidas, de hecho, se ve directamente afectada por la longitud del material evaluado. En concreto, utilizar fragmentos de audio de 30 segundos o más aumentó el coeficiente de fiabilidad utilizado (coeficiente de correlación intraclase de dos vías) de casi 30 variables a valores superiores a 0.75, un punto de corte que indica una estabilidad “buena” (Koo y Li, 2016).
La conclusión más importante que extraer, por tanto, es la importancia de diseñar cuidadosamente las herramientas empleadas, incluyendo los procedimientos de recogida de información, selección de variables y los algoritmos de predicción.
Más allá de una evaluación de calidad, una evaluación ética
Este artículo quedaría incompleto sin mencionar la importancia de considerar la naturaleza sensible de los datos que se tratan en los procesos de evaluación de personas. Esta información debe ser recogida siempre en cumplimiento con la normativa vigente en materia de protección de datos y privacidad, para lo cual es necesario informar a las personas del tipo de información recogida, su uso esperado y garantizar su confidencialidad.
Estos resultados nos permiten reforzar el argumento que ya hemos defendido: la importancia de atender a la calidad de los datos y la toma de decisiones válida y ética en procesos de evaluación. Las decisiones que se toman desde el área de RR. HH. afectan directamente a la calidad de vida de los trabajadores y a eventos tan importantes como la contratación o promoción de una persona. Por ello, es importante guiar la práctica profesional de acuerdo con la investigación científica y los más altos estándares éticos, garantizando el respeto a la dignidad y los derechos de los individuos.
Referencias:
Koo, T. K., & Li, M. Y. (2016). A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research. Journal of chiropractic medicine, 15(2), 155–163. https://doi.org/10.1016/j.jcm.2016.02.012
Koutsoumpis, A., Ghassemi, S., Oostrom, J. K., Holtrop, D., van Breda, W., Zhang, T., & de Vries, R. E. (2024). Beyond traditional interviews: Psychometric analysis of asynchronous video interviews for personality and interview performance evaluation using machine learning. Computers in Human Behavior, 154. https://doi.org/10.1016/j.chb.2023.108128