El falseamiento de respuestas supone una amenaza tanto a la fiabilidad como a la validez de un proceso de evaluación en Recursos Humanos. En este artículo, nos centraremos en el falseamiento en cuestionarios psicométricos, y revisaremos algunos métodos para detectarlo y buenas prácticas de actuación.
En cualquier proceso de evaluación, sea del tipo que sea, una persona puede intentar manipular las impresiones que causa, o los resultados que obtendrá, pero en ningún caso es esto tan obvio como en los cuestionarios psicométricos. Y es fácil entender el por qué.
El diseño racional, que se sigue en la mayor parte de instrumentos actuales, hace evidente lo qué se está evaluando y, a menudo, que se espera del evaluado. En los procesos de selección de personal, en los que hay un incentivo evidente por obtener un buen resultado (incluso si este no refleja una competencia real), esta es una preocupación habitual.
¿Qué hacer frente al falseamiento en test psicotécnicos?
Los test psicotécnicos suponen un instrumento fundamental en la evaluación psicológica, que la gran mayor parte de los profesionales usa como una fuente de información valiosa en la toma de decisiones, y que fomenta la práctica basada en la evidencia.
En selección de personal, en concreto, son una herramienta eficaz, económica, y con aplicaciones cada vez más interesantes (detección de sesgos, equiparación de puntuaciones, gamificación, etc.). Por tanto, la solución no es abandonarlos, sino entender que el falseamiento es una realidad, por qué se produce, y decidir cómo actuar ante él.
Rendimiento típico y óptimo en los test psicotécnicos
Para continuar hablando de falseamiento en test psicotécnicos debemos tener claro los conceptos de rendimiento típico y rendimiento óptimo.
En el caso de un test psicotécnico de rendimiento típico, se busca recoger información sobre el comportamiento habitual de la persona, mientras que, en el casode un test de rendimiento óptimo, se busca determinar su máximo potencial. Un ejemplo de cada uno pueden ser una prueba de personalidad y una batería de problemas de razonamiento espacial, respectivamente. Esta distinción es relevante de cara a seleccionar una estrategia de detección.
Falseamiento en test psicotécnicos de rendimiento típico
En test de rendimiento típico, habitualmente nos encontramos con el problema de la deseabilidad social (DS), o deseo de mostrar una imagen favorable, a veces, distorsionando la real. Aunque habitualmente imaginamos una distorsión intencionada (“manejo de impresiones”), los teóricos de la DS han distinguido desde hace tiempo entre este escenario y la distorsión no consciente (“autoengaño”). Ambas son problemáticas, aunque la primera es más característica en los contextos de selección.
Existen diversos métodos para detectar la deseabilidad social, siendo posiblemente el más popular el uso de escalas. En ellas, además de presentar al evaluado el cuestionario de interés, se incluye una serie de ítems que describen virtudes exageradas o poco comunes. Si la persona puntúa alto en estos ítems, se asume que hay un riesgo elevado de que sus respuestas al cuestionario estén distorsionadas. Una solución analítica más avanzada, basada en el uso de estas escalas, es utilizar un modelo factorial semirrestringido para aislar la varianza correspondiente a la DS de los ítems de interés (Ferrando et al. 2009).
Otro método, favorecido por los avances psicométricos recientes, es el uso de cuestionarios de respuesta forzada. En ellos, en vez de pedirle a una persona que identifique su acuerdo con una afirmación, se le presentan dos o más opciones, y se le pide que las ordene total o parcialmente en función de cual la representa mejor. Idealmente, todas las opciones serán igualmente deseables, pero habrá algunas que sean de mayor interés para la empresa. Entre los posibles formatos de respuesta forzada, lo más recomendable es emplear tests quasi-ipsativos.
Por último, una opción interesante, y que no complica la interpretación para el técnico de selección, es el uso de baremos específicos para la población objetivo. Si se sabe que una prueba va a aplicarse preferentemente sobre personas con un interés especial por causar una buena impresión, es conveniente realizar la validación en una muestra similar, y evitar, por tanto, el uso de cuestionarios diseñados para su aplicación sobre la población general. De esta forma, los baremos que guían la interpretación ya incluirán, al menos en parte, el efecto de la deseabilidad social.
Falseamiento en test psicotécnicos de rendimiento óptimo
En rendimiento óptimo, la DS no es un sesgo preocupante. Al fin y al cabo, no se puede fingir una respuesta correcta a un ítem. En estos casos, el falseamiento de la respuesta en los test de procesos de evaluación se suele presentar mediante diversas formas de “hacer trampa”, como el conocimiento previo de ítems o la copia. También existen otros problemas, como el descenso en el rendimiento causado por la fatiga, o por una mala interpretación del ítem, y que, hasta cierto punto, podemos intentar detectar.
Habitualmente estos problemas se han aproximado desde el enfoque person-fit. La lógica de estos métodos se basa en cuantificar la verosimilitud del patrón de respuestas de la persona, teniendo en cuenta su puntuación estimada, y partiendo de un modelo que describa las respuestas a cada uno de los ítems (Meijer y Sijtsma, 2001). Un patrón poco congruente puede sugerir escenarios problemáticos, como un mal rendimiento causado por cansancio (especialmente si observamos un patrón poco congruente en ítems al final de la prueba), o la copia/filtración de algunos ítems.
El enfoque person-fit también se puede aplicar a la detección de la deseabilidad social en rendimiento típico. Aunque este es un método potente y con importantes implicaciones teóricas, es importante mostrar cautela al interpretar estos estadísticos, y partir de nuestro conocimiento sobre el propio proceso de selección para identificar el escenario más plausible.
Las respuestas al azar son otro problema que puede surgir en tests de rendimiento óptimo. Los métodos person-fit nos pueden ayudar a detectarlo, especialmente si observamos una puntuación baja en general con aciertos a preguntas muy difíciles. Pero por lo general, será necesario recabar más evidencia para confirmarlo. Lo más habitual es emplear una de las fórmulas correctoras de la TCT, si bien esto puede no ser recomendable en algunos casos. Una solución mejor puede ser la modelización del parámetro de pseudo-azar desde la TRI, aunque necesitaremos grandes muestras para efectuar la calibración.
Buenas prácticas para detectar falseamiento de test psicotécnicos
Todos estos métodos para detectar falseamiento de test psicotécnicos son de naturaleza estadística y, por tanto, no nos permiten afirmar con absoluta seguridad que se haya producido o no, falseamiento.
Nuestra recomendación es concebir la detección de este problema como un proceso de recogida de evidencias, entre las que se incluye información cualitativa (sobre el propio proceso, sobre la persona, etc.) y cuantitativa (escalas de DS, análisis de patrones), procedente de varias pruebas (cuestionarios, entrevista, prueba de trabajo, etc.). En general, no será apropiado eliminar a una persona de un proceso si se encuentra, por ejemplo, que tiene una puntuación alta en una escala de DS. Es mejor, desde una dimensión ética y legal, utilizar esta información para cualificar la interpretación de los resultados de futuras pruebas, en fases más avanzadas del proceso.
Por otro lado, la prevención es siempre la mejor estrategia. En este sentido, informar a los/las evaluados/as del uso de estrategias para detectar y castigar el falseamiento de test psicotécnicos, puede ser un método simple y efectivo para disminuir su frecuencia.
Otra buena solución para evitar el falseamiento de test es emplear test adaptativos informatizados. Esto permite paliar los efectos de problemas como la copia o la filtración de ítems, al requerir que cada persona complete una prueba única. También reduce la fatiga, al permitir una estimación más rápida, y reduce la necesidad de dar respuestas al azar, al ajustar el nivel de dificultad de los ítems a la capacidad del evaluado/a.
Por último, queda por ver cuáles son las aportaciones de las nuevas tecnologías al problema del falseamiento. Algunas de ellas, como el uso de test gamificados, pueden al mismo tiempo disminuirlo (al proporcionar un entorno inmersivo en el que se dé un comportamiento más natural) y facilitar su detección (al proveernos de muchísimas fuentes de información antes no disponible). Otras, como la generación automática de ítems, pueden volver casi irrelevantes problemas como la filtración de preguntas (si permiten generar ítems de calidad con una inversión mínima de recursos), mientras que aún algunas, como el scoring automático mediante algoritmos de Machine Learning, prometen acceder a nuevas fuentes de información difíciles de falsear. Estaremos atentos al devenir de estas tecnologías que, de una forma u otra, marcarán el desarrollo de la psicometría a lo largo del próximo siglo.
Referencias
Ferrando, P. J. (2015). Assessing person fit in typical-response measures. In S. P. Reise & D. A. Revicki (Eds.), Handbook of item response theory modeling: Applications to typical performance assessment (pp. 128–155). Routledge/Taylor & Francis Group.
Ferrando, P. J., Lorenzo-Seva, U., & Chico, E. (2009). A general factor-analytic procedure for assessing response bias in questionnaire measures. Structural Equation Modeling, 16(2), 364–381.
McFarland, L. (2003). Warning Against Faking on a Personality Test: Effects on Applicant Reactions and Personality Test Scores. International Journal of Selection and Assessment, 11, 265-276.
Meijer, R. R., & Sijtsma, K. (2001). Methodology review: Evaluating person fit. Applied Psychological Measurement, 25(2), 107–135.
Muñiz, J., Hernández, A., y Fernández-Hermida, J. R. (2020). Utilización de los test en España: El punto de vista de los psicólogos. Papeles del Psicólogo, 41(1), 1-15.
Paulhus, D. (1984). Two-component models of socially desirable responding. Journal of Personality and Social Psychology, 46, 598-609.
Salgado, J. F., Anderson, N., Y Tauriz, G. (2014). The validity of ipsative and quasi‐ipsative forced‐choice personality inventories for different occupational groups: A comprehensive meta‐analysis. Journal of Occupational and Organizational Psychology, 88(4), 797–834.
