Estudio de casos en biologia

ANÁLISIS DE CONGLOMERADOS DEFINICIÓN El ADC es un conjunto amplio de técnicas, que tienen en común que se ocupan del problema de la clasificación (como separar las entidades de otras que pueden ser consideradas distintas y también como unir diferentes entidades que son similares). El ADC es cualquier procedimiento que se ocupe de formar grupos. Conglomerados,Análisis de Racimos Don entidades son similares cunado las puntuaciones son parecidas o iguales en un conjunto de variables. Tiene que existir una medida cuantitativa entre las entidades. Se tiene que poder determinar algún tipo de medición entre las entidades. EL ADC es una técnica de AM cuando hay más de 2 dimensiones implicadas. Al igual que el AF se trata de reducir el volumen de información. En el ADC se trata de reducir el conjunto de entidades a un número menor de grupos o conglomerados. En el ADC se pueden conglomerar variables o casos. Lo normal es que el ADC reduzca el número de casos. El ADC es una técnica de interdependencia. OBJETIVOS 1-­‐ Desarrollar una clasificación, que casos pertenecerán a que grupos (conglomerados). Se meten en cada grupo los que se parecen entre si. 2-­‐ Desarrollar una pauta de clasificación que pueda servir para casos posteriores. Ej: Televisión-­‐Padres: Crear guías para aconsejar. Generar una tipología de pautas de control paterno sobre el consumo televisivo de los niños y que se pueda extrapolar a otros países. PROCEDIMIENTO El ADC puede partir del mismo punto que el AF (tabla de correlaciones) pero puede tomar otras medidas de la similitud o diferencia entre los casos. El punto de partida en el ADC es la matriz de distancias, que es alguna medida cuantitativa de la diferencia entre los casos que se están conglomerando. El ADC se basa en coger aquellas entidades que sean más parecidas y separarlas de las que sean más diferentes. Una cosa de las más importantes en el ADC es elegir el número de grupos o clústers a elegir. Es muy importantes buscar que casos están más aislados desde el principio para formar grupos y percibir bien que casos son más importantes. En el ADC no hay una conclusión única, alguna solución es mejor que otras (eligiendo grupos) que no se cuente. MEDIDAS DE SIMILITUD Existen varias: 1-­‐ Medidas correlacionales: Toman en cuenta la correlación que existen entre los casos, de modo que dos casos serán más parecidos cuanto más correlación haya. Si todos tienen el mismo valor, la correlación será 1, si son muy diferentes la correlación tenderá a 0. De los valores sacas el factor de correlación. 2-­‐ Medidas de distancia: Distancia euclidea, distancia euclídea al cuadrado (la más habitual). La condición es que las variables sean métricas (variables que tengan diferencias de grado). 3-­‐ Medidas de asociación: Cuando las variables son categóricas hablamos de medidas de asociación. Habitualmente basadas en las frecuencias.



Hay 2 grandes tipos de métodos de conglomerados: 1-­‐ JERÁRQUICO: Es aquel que procede paso a paso. Hay 2 tipos de procedimientos jerárquico: Ascendente: Es una primera fase se conglomeran aquellos 2 casos que más se parezcan entre si y en fases sucesivas se van añadiendo caso a caso por los que más “cerca” estén hasta que solo haya un grupo (sistema solar). Al final hay un solo grupo que engloba a todos los casos. Descendente: Lo inverso El objetivo fundamental del método jerárquico es determinar cuantos grupos hay 2-­‐ NO JERÁRQUICO: No hay un proceso de conglomeración paso a paso. Son aquellos que, una vez sabemos cuantos grupos hay, se asigna cada uno de los casos a cada uno de los grupos. El objetivo fundamental del método no jerárquico es determinar qué casos pertenecen a que grupos. FASES: 1-­‐ OBJETIVOS: Determinamos los objetivos del ADC. Básicamente hay 2 objetivos: Exploratorio: Se trata de determinar cuantos grupos de casos se pueden diferenciar de forma adecuada. Mejor partir de un análisis jerárquico Confirmatorio: Se trata de confirmar que los grupos que suponíamos efectivamente se producen así en un nuevo ejemplo. Mejor partir de un análisis no jerárquico. 2-­‐ DISEÑO: Condiciones previas de las variables: afecta tanto a variables métricas como no métricas. Se pueden distinguir 3 tipos de variables: 1-­‐ Métricas. Todas las demás deberían de ser métricas. 2-­‐ Categóricas. Todas las demás deberían de ser categóricas. 3-­‐ Binarias. Todas las demás deberían de ser binarias. No se deben de mezclarse en un mismo ADC. No se debe de hacer un ADC sin tipificar las variables, así conseguimos que todas tengan el mismo peso relativo. Tamaño de la muestra: Si hay muchos casos, la matriz será más grande. Es mejor trabajar con menos casos. El peligro es que si la muestra es muy heterogénea, hay el peligro de dejar a algún grupo fuera. Hay que combinar ambas, la interpretabilidad con la exhaustividad. Lo ideal sería entre 50 y 100 casos. 3-­‐ SUPUESTOS: No hay un conjunto limitado de supuestos a seguir, lo único que se respete lo dicho antes. 4-­‐ EXTRACCIÓN: Es la más relevante. Si el objetivo es exploratorio, en esta fase habrá que determinar El número de conglomerados adecuado y replantearse la solución. Para saber el número de conglomerados a elegir podemos recurrir a: a. Historial de conglomeración: Es una tabla en la que aparecerán las distintas fases del proceso de conglomerados (solo en caso del procedimiento jerárquico). Irá desde 1 hasta el número de caso que contiene las diferentes fases en el proceso de conglomeración. Habrá tantas fases como casos que estén conglomerándose. Útil para determinar el número de conglomerados a extraer , de una fase a la siguiente el coeficiente será cada vez mayor, pero habrá que parar cuando el salto sea importante, entonces ahí hay que detenerse y coger tantos conglomerados como indique. b. Diagrama de témpanos: Es una tabla en que las columnas representan cada una de las entidades y las filas el número de conglomerados. Mediante el trazado de una línea horizontal se pueden simular diferentes soluciones y determinar la solución adecuada. c. Dendrograma: Cada línea vertical representa la formación de un conglomerado y cada línea horizontal la distancia entre la formación de una y la del siguiente. En la etapa 1 se conglomeran los casos más parecidos y en la etapa 25 los más disimilares. 5-­‐ INTERPRETACIÓN Una vez decidido cuantos conglomerados distinguir, la fase de interpretación implica 2 tareas: • Asignación a conglomerados: Asignar la entidades a cada uno de los conglomerados de la solución final. • Denominación de los conglomerados: Determinar el contenido sustantivo de cada uno de los conglomerados y a partir de ellos asignarles un nombre. 6-­‐ VALIDACIÓN Determinar si los conglomerados extraídos en la solución final pueden generalizarse a otros estudios o extenderse a otras muestras (generalidad) o si son representativos de grupos representativos (representatividad). Como métodos podemos mencionar el utilizar una muestra diferente y compararla con la original, dividir la muestra en dos mitades y analizar cada una por separado, y determinar los centroides de los grupos y utilizarlos para redefinirlos.