Tipos de Test Psicológicos: Guía Completa de Diseño y Validación

Tipos de Tests Psicológicos

Test de Elección Binaria

Un test que no necesita un alto nivel de comprensión. Tipo de respuesta: elección binaria.

Problemas en el Emparejamiento

El principal problema del emparejamiento: las conjeturas en los últimos ítems a emparejar.

Test de Velocidad

Cuando en un test todos sus ítems son de baja dificultad, el test es DE VELOCIDAD.

Tipo de test ajustado en dificultad para que se acabe en un 20%: DE VELOCIDAD.

Discriminación en un Ítem

Tipos de procedimientos para calcular la discriminación en un ítem:

  • Con correlación
  • Con diferencias en sujetos o extremos…

TODAS SON CORRECTAS.

Curva Característica de un Ítem

El desplazamiento lateral de la curva indica DIFICULTAD.

Escalogramas

Qué permiten ver los escalogramas: DIFICULTAD.

Fiabilidad de un Test

Cómo se puede comprobar la fiabilidad (escoger incorrecta): La fiabilidad no asegura la validez.

Análisis de la Correlación

Para mirar la correlación, lo que más se utiliza: ANÁLISIS FACTORIAL.

Coeficiente Alfa de Cronbach

El valor de alfa de Cronbach de un test es 0’80, pero si eliminamos uno de los ítems sube su valor a 0’85. Esto implica que el ítem presenta algún tipo de error de medida.

Validez de Criterio

El coeficiente de correlación entre el test que estoy creando y otro test que mide el mismo constructo o uno muy similar puede considerarse validez de: CRITERIO.

Índice de Dificultad

Un índice de dificultad de 4’9 en un ítem de respuesta graduada de 5 nos está indicando que es un ítem: MUY FÁCIL.

Clasificación de los Ítems

Ítems Cerrados o de Elección

Elección Múltiple

Muy frecuente en tests cognitivos. Oscila entre 4 y 10 alternativas de respuesta. Suele usarse en la medida de la inteligencia, conocimientos, personalidad e intereses.

Tabla: Elección Múltiple
  • Operatividad, fácil manipulación de la dificultad.
  • Dificultad de construcción, azar, puntuación dicotómica, empleo de hojas de respuestas.

Triada

Se emplea para cuestionarios de personalidad, donde una alternativa muestra una posición neutra.

Elección Binaria

Se emplea en pruebas cognitivas como en las de conocimientos, personalidad, intereses y actitud (VERDADERO-FALSO).

Tabla: Binarios o Triadas
  • Útiles ante poca comprensión verbal, rapidez y objetividad, fiabilidad alta.
  • Valoración dicotómica, menor discriminación, exceso de reduccionismo.

Escalas Graduadas

Asociadas a medidas de actitudes. Incluyen frases graduadas ordinalmente en las que el sujeto debe coincidir. Se pueden agrupar en: Consentimiento, frecuencia, importancia, probabilidad, calidad, cantidad, sentimientos.

Tabla: Escalas Graduadas
  • Rapidez y objetividad de corrección, ya no emplea puntuaciones dicotómicas, por lo que es más fiable el global, puntuación graduada.
  • Reduccionismo de respuestas posibles, en ocasiones son difíciles de entender.
  • Evitar las respuestas neutrales, es preferible que incluya ítems favorables y desfavorables, preferible evitar el valor central.
  • Se tiende a la aquiescencia y deseabilidad social.

Ítems de Respuesta Abierta

Tabla: Respuesta Abierta
  • Información personal sin ningún tipo de restricción, muy útiles en pruebas de conocimientos y rendimiento.
  • Necesita alto nivel de comprensión y expresión verbal, difícil conseguir una síntesis, falta de criterios objetivos de evaluación.

Emparejamiento

Tabla: Emparejamiento
  • Muy útiles en la evaluación de conocimientos, requiere poco esfuerzo de comprensión, corrección rápida.

Ordenamiento y Comparación

Tabla: Ordenamiento y Comparación
  • Resultados muy consistentes, suelen ser ítems que generan mucho cansancio.
  • Ordenamiento: Debemos incluir menos de 20 elementos sin introducir en el que se pueda dar empate.
  • Comparación: Debemos ordenar bien los ítems para disminuir cansancio.

Validez

Validez de Contenido

Se refiere al grado en que un test mide lo que quiere medir (test de operaciones aritméticas, si un sujeto sabe sumar o restar). Los ítems medidos por la validez de contenido deben tener dos cualidades:

  • Relevantes para la medida de ese contenido.
  • Representativos de la globalidad del dominio.

Fases del proceso de validez de contenido:

  1. Definimos el campo del test.
  2. Seleccionamos una serie de expertos en la materia.
  3. Emparejamos los ítems con los temas de interés.
  4. Seleccionamos los ítems adecuados para nuestro test.

Validez de Criterio

Grado en que un test mide un criterio que no podemos medir directamente por los ítems. Evalúa si una prueba refleja un cierto conjunto de habilidades o no. Dos tipos de validez de criterio:

  • Concurrente: Los resultados del instrumento se correlacionan con el criterio en el mismo momento o punto del tiempo.
  • Predictiva: Los resultados se correlacionan con el criterio en otro momento temporal.

Validez de Constructo

Grado en que el sujeto tiene el atributo medido por el test (sujeto que obtiene puntuaciones altas en operaciones de mates, tiene gran capacidad numérica). La validez de constructo no puede resumirse en una sola medida como la de criterio.

Registro de la Conducta

Ventajas e Inconvenientes del Registro de la Conducta (RAT)

Ventajas RAT: Proporciona las medidas conductuales verdaderas (frecuencia, duración…). Permite proceder a un análisis de las secuencias de conducta.

Desventajas RAT: Requiere que el observador preste atención constante a la conducta. Requiere el uso de cronómetros y/o grabaciones audiovisuales.

Ventajas e Inconvenientes del Registro de la Conducta por Muestreo de Intervalos (RAUT)

Ventajas RAUT: Basta utilizar una señal sonora que avise de los puntos de muestreo. No requiere el uso de grabaciones audiovisuales.

Desventajas RAUT: No proporciona las medidas conductuales verdaderas y no permite proceder a un análisis de secuencias de conducta.

Kappa de Cohen

Calcular una Kappa para cada grupo de categorías EME cuando: Se han definido un sistema multidimensional de categorías.

Calcular una Kappa para cada categoría de conducta por separado (tabla 2×2) cuando: Se han definido varias unidades de conducta que se solapan (no son EME) o cuando se ha utilizado un muestreo de intervalo parcial en el que el intervalo puede contener más de una categoría.