Técnicas Estadísticas Multivariantes: Clustering, Correspondencias y Regresión Lineal
Clustering
El clustering es un conjunto de técnicas multivariantes utilizadas para clasificar a un conjunto de individuos en grupos homogéneos. Se basa en criterios de similitud, divergencia, distancia y la distancia de Mahalanobis.
Métodos Jerárquicos
La representación de la jerarquía de clústeres obtenida suele llevarse a cabo por medio de un diagrama en forma de árbol invertido llamado dendrograma. En estos métodos, los individuos no se dividen en clústeres directamente, sino que se construye una jerarquía.
Criterios de Distancia
- Distancia Mínima: Se procede de acuerdo con el algoritmo general, considerando la distancia entre clústeres como la distancia mínima entre los individuos más próximos.
- Distancia Máxima: Se considera la distancia entre los individuos más alejados de cada clúster.
- Ward: Este método debería considerar, en cada paso del análisis, la posibilidad de la unión de cada par de grupos y optar por la fusión de aquellos dos grupos que menos incrementen la suma de los cuadrados de las desviaciones al unirse.
Métodos No Jerárquicos
En los métodos no jerárquicos, se busca determinar los centroides iniciales de los k grupos para asignar cada conglomerado cuyo centroide esté más cerca. Un inconveniente de estos métodos es que pueden dejarse influir excesivamente por los grupos de mayor tamaño.
Análisis de Correspondencias
El Análisis de Correspondencias es una técnica que permite visualizar las relaciones entre variables categóricas.
Conceptos Clave
- Inercia: Mide la importancia de cada dimensión. Por ejemplo, si D1 = 0,052 es la más importante y D2 = 0,023, están ordenadas de mayor a menor. A mayor inercia en las dos primeras dimensiones, mejor se representan las similitudes y diferencias entre las variables. Los atributos como ‘Precio’ y ‘Marcas’ juegan un rol importante en la explicación de cada dimensión, ya que tienen las inercias más altas.
- Chi-cuadrado (Xi-square): Muestra la existencia de una relación significativa entre ambas variables. Con respecto a ‘Sig.’, se busca que siempre sea menor a 0,05 para considerar la relación significativa.
- Proporción de Inercia: Es la varianza y la cantidad de información contenida en cada dimensión. Por ejemplo, la dimensión 2 explica el 28% de la información. Las dos primeras dimensiones pueden explicar el 91,1% de la información total. Cuanto más cercano a 100% mejor, y al menos que explique un 70% para considerarlo como válido.
- Masa (Mass): Es el porcentaje total de asociaciones. Por ejemplo, ‘Trato del personal’ es el atributo más citado con el 17,3%.
- Puntuación de Dimensión: Son las coordenadas donde se dibuja el punto en el gráfico.
- Contribución de los puntos a la inercia de la dimensión: Es el grado en el que el atributo ha influido en la formación de la dimensión. Por ejemplo, ‘Marcas’ es el atributo más importante para la orientación de la D1 y ‘Precios’ para la D2.
Interpretación Gráfica
Una regla de interpretación del gráfico es que la proximidad entre dos atributos quiere decir que tienen perfiles parecidos y están fuertemente intercorrelacionados. Por ejemplo, ‘Trato del personal’ y ‘Condiciones de pago’ tienen perfiles parecidos.
Regresión Lineal
Concepto y Aplicación
La Regresión Lineal es una técnica para estudiar la relación entre variables, con el fin de predecir el efecto de una variable sobre otra. Las variables involucradas son cuantitativas, donde una es la variable dependiente y la otra la independiente.
Pasos Clave
- Construir un diagrama de dispersión.
- Calcular el coeficiente de correlación de Pearson.
- Calcular la recta de regresión.
- Estudiar si dicha recta de regresión puede considerarse válida. Para ello, se efectúa un contraste de hipótesis y se calcula un coeficiente llamado ‘coeficiente de bondad de ajuste’.
Interpretación del Diagrama de Dispersión
- 1ª Situación: Puntos muy juntos y orientados hacia la derecha. Esto indica una fuerte relación entre ambas variables, que están relacionadas de forma directamente proporcional. Por ejemplo, cuando aumenta el gasto en publicidad, aumentan también los beneficios.
- 2ª Situación: Puntos no muy juntos, pero orientados hacia la derecha. Esto sugiere que no existe una fuerte relación entre ambas variables y que, si se calcula la recta de regresión, esta no ajustará muy bien. Sin embargo, ambas variables están poco relacionadas, pero de forma directamente proporcional. Es decir, cuando aumenta el gasto en publicidad, aumentan también los beneficios.
- 3ª Situación: Puntos muy dispersos. Esto quiere decir que no existe ninguna relación entre ambas variables, y que no tendría ningún sentido calcular un modelo de regresión.
- 4ª Situación: Puntos muy juntos y orientados hacia la izquierda. Esto indica una fuerte relación entre las variables, y tendría sentido calcular un modelo de regresión. Además, ambas variables están relacionadas de forma inversamente proporcional. Es decir, cuando aumenta el gasto en publicidad, disminuyen los beneficios.
«