Interpretación de Resultados Estadísticos: ANOVA, Tablas Cruzadas, Correlaciones y Regresión

Interpretación de Resultados Estadísticos

ANOVA

Al analizar ANOVA:

  • LAVANE: Si la significancia basada en la media es > 0,05, hay homogeneidad, por lo que se puede hacer el análisis. Varianzas de los grupos son iguales.
  • PRUEBAS DE EFECTOS INTER-SUJETOS:
    • Si el ETA Cuadrado es 0, la fuerza de relación es inexistente. Si es menor a 0,3 es débil, si es entre 0,3 y 0,6 es moderada y si es > 0,6 es fuerte.
    • Si la significancia es < 0,05, existen diferencias entre las medias de los grupos.
  • COMPARACIONES MÚLTIPLES: Si la significancia es < 0,05, existe diferencia entre los indicadores.

Tablas Cruzadas

Al analizar TABLA CRUZADA:

  • Chi cuadrado: Si la significancia del chi cuadrado de Pearson da < 0,05, hay asociación significante (relación sistemática entre variables).
  • V de Cramer (cuando al menos una variable es nominal):
    • Si la sig. < 0,05, la asociación entre variables es significativa a nivel poblacional.
    • Si el valor es < 0,3, la asociación es débil; si es > 0,7, es fuerte.
  • Tau-C de Kendall (cuando ambas variables son ordinales):
    • Si la sig. < 0,05, la asociación entre variables es significativa a nivel poblacional.
    • Si el valor es < 0,3, la asociación es débil; si es > 0,7, es fuerte.

Correlaciones

Al analizar CORRELACIONES:

  • Si la sig. < 0,05, la correlación es significativa.

Regresión

Al analizar REGRESIÓN:

  • Durbin Watson: Entre 1,5 y 2,5 los errores son independientes (se cumple el supuesto).
  • R2 (fuerza de asociación): < 0,3 débil, > 0,7 fuerte.
  • COEFICIENTES:
    • Si VIF < 10, no existe colinealidad para esa variable (se cumple con el supuesto).
    • Si la tolerancia es > 0,1, no existe colinealidad (se cumple con el supuesto).

Tipos de Muestreo

Muestreo Probabilístico

  • MAS (Muestreo Aleatorio Simple): Cada elemento se selecciona de manera independiente a los otros elementos y la muestra se extrae mediante un procedimiento aleatorio del marco de muestreo. Es la única manera a través de la que se puede generalizar.
  • Muestreo sistemático: La muestra se elige seleccionando un punto de inicio aleatorio, para luego elegir cada n elemento en sucesión del marco de muestreo. (elijo uno, dejo pasar 4, de nuevo uno, dejo pasar otros 4).
  • Muestreo por conglomerados: Primero se divide a la población meta en subpoblaciones (conglomerados) mutuamente excluyentes y colectivamente exhaustivas. Luego se selecciona una muestra aleatoria de conglomerados con base en una técnica de muestreo probabilístico, como el muestreo aleatorio simple (MAS). Abarata los costos. Son heterogéneos internamente y son homogéneos entre sí. (Ej. barrios). Es muy común cuando tengo distintos grupos.

Muestreo No Probabilístico

  • Por conveniencia: Busca obtener una muestra de elementos convenientes. La selección de las unidades de muestreo se deja principalmente al entrevistador (por su experiencia). “Se hace lo que se puede”. El investigador toma como muestra la gente que está cerca; hay que ser cauteloso con los resultados y cómo los interpretamos.
  • Por juicio:
  • Por cuotas: Primero armamos cuotas y después seleccionamos los elementos en base a nuestro juicio. Es muy usado cuando no tenemos marco muestral, y tratamos de acercarnos lo más que podemos a la población meta. Ej: personas que terminaron el secundario, personas que terminaron la facultad.
  • Bola de nieve: Se selecciona al azar al grupo inicial de encuestados. Los encuestados posteriores se seleccionan con base en las referencias o la información proporcionada por los encuestados iniciales.

Pruebas Estadísticas

ANOVA

Para examinar diferencias entre las medias de 2 o más poblaciones/grupos (ej: cómo tratan la depresión 4 grupos y los resultados de cada uno). Visualizar antes y después.

  • De un factor: Sólo incluye un factor.
  • De n factores: 2 o más factores.
  • De medidas repetidas: Cuando los sujetos estaban expuestos a más de un tratamiento y se obtienen medidas repetidas (ej: se expone a un grupo de personas a leer en computadora, libro, etc. y se analiza en qué medio entendieron mejor).
  • ANCOVA: Procedimiento avanzado donde los efectos de una o más variables métricas extrañas se eliminan de la variable dependiente antes de realizar el ANOVA.

Regresión

Para analizar las relaciones de asociación entre una variable dependiente métrica y una o más variables independientes. La diferencia con la correlación es que en la regresión considero que una variable es dependiente y la otra independiente (dependencia estadística).

  • Bivariada: Entre una sola variable dependiente métrica y una sola variable independiente métrica.
    • Coeficiente de Relación (R2): Fuerza de asociación. Entre 0 y 1 (menos de 0,3 débil, más de 0,7 fuerte).
    • Diagrama de dispersión: Gráfica de los valores de 2 variables para todos los casos (pongo todos los casos -puntos- que forman parte de mi muestra).
  • Múltiple: Relación matemática entre dos o más variables independientes y una variable dependiente de intervalo.
    • R2 Ajustada: El R2 se ajusta al número de variables independientes y al tamaño de la muestra para explicar regresiones menores.
    • Coeficiente de determinación múltiple: Fuerza de asociación.
    • Prueba F (de Fisher): Se utiliza para probar la hipótesis nula que afirma que el coeficiente de determinación múltiple en la población es igual a cero.
  • Progresiva: Las variables predictivas participan o se eliminan una por una de la ecuación de regresión.
    • Inclusión hacia adelante: No hay variables predictivas.
    • Eliminación hacia atrás: Se incluyen todas las variables predictivas y después se eliminan una por una en la razón de F.
    • Solución progresiva (stepwise): Combinación entre las primeras dos.

Análisis Factorial

Se usa para resumir/reducir datos. Permite identificar los factores que explican las correlaciones entre un conjunto de variables.

  • Prueba de esfericidad de Bartlett: Es una prueba estadística que se utiliza para examinar la hipótesis de que las variables no están correlacionadas en la población.
  • Matriz de correlación: Muestra las correlaciones simples, r, entre todos los pares posibles de variables incluidas en el análisis.
  • Contribución común: Es la cantidad de varianza que una variable comparte con todas las otras variables consideradas. También es la proporción de la varianza explicada por los factores comunes.
  • Valor propio: Representa la varianza total explicada por cada factor.
  • Cargas de los factores: Son correlaciones simples entre las variables y los factores.
  • Gráfica de las cargas de los factores: Es una gráfica de las variables originales que usa las cargas de los factores como coordenadas.
  • Matriz factorial: Contiene las cargas de los factores de todas las variables en todos los factores extraídos.
  • Porcentaje de varianza: Es el porcentaje de la varianza total atribuida a cada factor.
  • KMO: Indicador que sirve para analizar si el análisis factorial es adecuado (cuando KMO > 0,5).
  • Gráfica de sedimentación: Es una gráfica de los valores propios contra el número de factores en orden de extracción. (En las muestras grandes (mayores de 200), es probable que muchos factores sean estadísticamente significativos, aunque desde un punto de vista práctico, muchos de ellos sólo explican una pequeña proporción de la varianza total.)

Tabla Cruzada

Para analizar 2 o más variables de manera simultánea, y que produce tablas que reflejan la distribución conjunta de dos o más variables con un número limitado de categorías o valores distintivos.

  • Chi cuadrado: Comprueba la significancia estadística de la asociación observada en una tabulación cruzada. Nos ayuda a determinar si existe una relación sistemática entre 2 variables. Ejemplo: género (hombre, mujer) y qué mascota tienes (perro, tortuga, gato, pez) – fuerza de la relación.
  • Variables nominales:
    • Coeficiente Fi (Phi): Medida de la fuerza de la asociación para tablas de 2×2.
    • Coeficiente de contingencia C: Medida de la fuerza de la asociación en una tabla de cualquier tamaño. No es muy útil porque sus valores no están normalizados y es difícil su interpretación, por lo que se usa la V de Cramer.
    • V de Cramer: Medida de la fuerza de la asociación que se utiliza en tablas más grandes que 2×2. En tablas de 2×2 toma los mismos valores que Phi. Sirve para cualquier tabla.
  • Variables ordinales:
    • Tau B: Mide la asociación entre dos variables de nivel ordinal. Esta medida hace un ajuste para los empates y es más apropiada para tablas cuadradas porque solo ahí alcanza los valores extremos (0 y 1). No alcanza valores extremos.
    • Tau C: Similar a la Tau B, pero es apropiada tanto para tablas cuadradas como rectangulares. Se adapta a cualquier tipo de tabla, no importa si tienes 2 categorías o 15.
    • Gamma: Mide la asociación entre dos variables de nivel ordinal. Esta medida no hace un ajuste para los empates, por lo que sobreestima la relación entre variables.