Agrupamiento por Conglomerados: Una Metodología Esencial para la Clasificación de Datos

Introducción al Agrupamiento por Conglomerados (ADC)

El Agrupamiento por Conglomerados (ADC) es un conjunto amplio de técnicas que tienen en común la resolución del problema de la clasificación: cómo separar entidades que pueden ser consideradas distintas y cómo unir diferentes entidades que son similares. El ADC es cualquier procedimiento que se ocupe de formar grupos o conglomerados.

Dos entidades son similares cuando sus puntuaciones son parecidas o iguales en un conjunto de variables. Para aplicar el ADC, debe existir una medida cuantitativa entre las entidades, permitiendo determinar algún tipo de medición entre ellas.

El ADC es una técnica de Análisis Multivariante (AM) cuando hay más de dos dimensiones implicadas. Al igual que el Análisis Factorial (AF), busca reducir el volumen de información. En el ADC, se trata de reducir el conjunto de entidades a un número menor de grupos o conglomerados. En el ADC se pueden conglomerar variables o casos, aunque lo más habitual es que reduzca el número de casos. El ADC es una técnica de interdependencia.

Objetivos del ADC

  1. Desarrollar una clasificación: Determinar qué casos pertenecerán a qué grupos (conglomerados), agrupando aquellos que se parecen entre sí.
  2. Desarrollar una pauta de clasificación: Crear un modelo que pueda servir para casos posteriores. Por ejemplo, en el ámbito de la televisión y los padres, se podría generar una tipología de pautas de control paterno sobre el consumo televisivo de los niños, que luego pueda extrapolarse a otros países.

Procedimiento del ADC

El ADC puede partir del mismo punto que el Análisis Factorial (AF), como una tabla de correlaciones, pero también puede emplear otras medidas de similitud o diferencia entre los casos. El punto de partida en el ADC es la matriz de distancias, que es una medida cuantitativa de la diferencia entre los casos que se están conglomerando.

El ADC se basa en agrupar aquellas entidades que sean más parecidas y separarlas de las que sean más diferentes. Una de las decisiones más importantes en el ADC es elegir el número de grupos o clústeres. Es crucial identificar desde el principio los casos más aislados para formar grupos y comprender la importancia de cada caso. Es importante destacar que en el ADC no hay una conclusión única; algunas soluciones son mejores que otras al elegir los grupos.

Medidas de Similitud

Existen varias medidas de similitud utilizadas en el ADC:

  1. Medidas correlacionales: Toman en cuenta la correlación existente entre los casos. Dos casos serán más parecidos cuanto mayor sea su correlación. Si todos tienen el mismo valor, la correlación será 1; si son muy diferentes, la correlación tenderá a 0. A partir de estos valores, se obtiene el factor de correlación.

  2. Medidas de distancia: Incluyen la distancia euclídea y la distancia euclídea al cuadrado (la más habitual). La condición para su uso es que las variables sean métricas (variables que tengan diferencias de grado).

  3. Medidas de asociación: Se utilizan cuando las variables son categóricas. Habitualmente, se basan en las frecuencias.

Tipos de Métodos de Agrupamiento

Hay dos grandes tipos de métodos de conglomerados:

  1. Método Jerárquico

    Es aquel que procede paso a paso. Hay dos tipos de procedimientos jerárquicos:

    • Ascendente (Aglomerativo)

      En una primera fase, se conglomeran los dos casos que más se parezcan entre sí. En fases sucesivas, se van añadiendo casos, los más «cercanos», hasta que solo haya un grupo que englobe a todos los casos (similar a la formación de un sistema solar).

    • Descendente (Divisivo)

      Es el proceso inverso al ascendente, comenzando con un solo grupo y dividiéndolo progresivamente.

    El objetivo fundamental del método jerárquico es determinar cuántos grupos existen.

  2. Método No Jerárquico

    No hay un proceso de conglomeración paso a paso. Estos métodos, una vez que se sabe cuántos grupos hay, asignan cada uno de los casos a cada uno de los grupos. El objetivo fundamental del método no jerárquico es determinar qué casos pertenecen a qué grupos.

Fases del Agrupamiento por Conglomerados

  1. Fase 1: Objetivos

    Se determinan los objetivos del ADC. Básicamente, hay dos tipos:

    • Exploratorio

      Se trata de determinar cuántos grupos de casos se pueden diferenciar de forma adecuada. Es mejor partir de un método jerárquico.

    • Confirmatorio

      Se trata de confirmar que los grupos que se suponían efectivamente se producen así en un nuevo ejemplo. Es mejor partir de un método no jerárquico.

  2. Fase 2: Diseño

    • Condiciones previas de las variables

      Afecta tanto a variables métricas como no métricas. Se pueden distinguir tres tipos de variables, y no deben mezclarse en un mismo ADC:

      1. Métricas: Todas las demás variables deberían ser métricas.
      2. Categóricas: Todas las demás variables deberían ser categóricas.
      3. Binarias: Todas las demás variables deberían ser binarias.

      No se debe realizar un ADC sin tipificar las variables, ya que así se consigue que todas tengan el mismo peso relativo.

    • Tamaño de la muestra

      Si hay muchos casos, la matriz será más grande. Es preferible trabajar con menos casos. Sin embargo, si la muestra es muy heterogénea, existe el peligro de dejar a algún grupo fuera. Es necesario combinar la interpretabilidad con la exhaustividad. Lo ideal sería entre 50 y 100 casos.

  3. Fase 3: Supuestos

    No hay un conjunto limitado de supuestos a seguir, siempre que se respeten las condiciones previas mencionadas.

  4. Fase 4: Extracción

    Esta es la fase más relevante. Si el objetivo es exploratorio, en esta fase habrá que determinar el número de conglomerados adecuado y replantearse la solución. Para saber el número de conglomerados a elegir, podemos recurrir a:

    • Historial de conglomeración

      Es una tabla en la que aparecerán las distintas fases del proceso de conglomerados (solo en el caso del procedimiento jerárquico). Irá desde 1 hasta el número de casos que contiene las diferentes fases en el proceso de conglomeración. Habrá tantas fases como casos que estén conglomerándose. Es útil para determinar el número de conglomerados a extraer. De una fase a la siguiente, el coeficiente será cada vez mayor, pero habrá que detenerse cuando el salto sea importante, y tomar tantos conglomerados como indique ese punto.

    • Diagrama de témpanos

      Es una tabla en la que las columnas representan cada una de las entidades y las filas el número de conglomerados. Mediante el trazado de una línea horizontal, se pueden simular diferentes soluciones y determinar la solución adecuada.

    • Dendrograma

      Cada línea vertical representa la formación de un conglomerado y cada línea horizontal la distancia entre la formación de uno y el siguiente. En la etapa 1, se conglomeran los casos más parecidos y, por ejemplo, en la etapa 25, los más disimilares.

  5. Fase 5: Interpretación

    Una vez decidido cuántos conglomerados distinguir, la fase de interpretación implica dos tareas:

    • Asignación a conglomerados: Asignar las entidades a cada uno de los conglomerados de la solución final.
    • Denominación de los conglomerados: Determinar el contenido sustantivo de cada uno de los conglomerados y, a partir de ellos, asignarles un nombre.
  6. Fase 6: Validación

    Determinar si los conglomerados extraídos en la solución final pueden generalizarse a otros estudios o extenderse a otras muestras (generalidad), o si son representativos de grupos existentes (representatividad). Como métodos, podemos mencionar utilizar una muestra diferente y compararla con la original, dividir la muestra en dos mitades y analizar cada una por separado, y determinar los centroides de los grupos para utilizarlos en su redefinición.