Procesamiento de Datos y Métodos de Muestreo para Estudios Cuantitativos

Procesamiento y Análisis de Datos

Preparación de Datos

Tareas Principales de Preparación

El procesamiento de los datos empieza desde el diseño del cuestionario, enumerando preguntas y codificando categorías de respuesta. Los datos de los cuestionarios se graban o capturan en un fichero informatizado (Excel, CSV, ASCII). El analista elaborará un plan de explotación de estos datos.

Las principales tareas de preparación de datos incluyen:

  • La precodificación del cuestionario.
  • El diseño de registro y grabación, en su caso.
  • El tratamiento de preguntas abiertas.
  • La detección de inconsistencias.
  • La depuración.
  • La ponderación.
  • El tratamiento de la no respuesta.
  • Las recodificaciones.
  • Las transformaciones de variables.

Análisis Estadístico

Análisis Univariable y Bivariable

Principales técnicas de análisis de datos:

  • Distribuciones de frecuencias (univariable cualitativa).
  • Medidas de tendencia central (univariable cuantitativa).
  • Tablas de contingencia (bivariables cualitativas).
  • Comparación de medias (bivariables cuantitativas/cualitativas).
  • Correlaciones (bivariables cuantitativas).
  • Prueba de significancia estadística.

Correlaciones Parciales y Control de Variables

Formas de controlar la relación entre variables:

  • Correlaciones parciales (variables métricas).
  • Tablas de contingencia (variables cualitativas).
  • Segmentación de medias (ambas).

La correlación parcial mide la variación conjunta de una variable independiente y dependiente, y controla los efectos que sobre esa variación pudiera ejercer otra variable independiente.

Se expresa en términos de coeficientes de correlación de Pearson, y en la fórmula, se separa con un punto la variable controlada de las variables dependientes/independientes.

Análisis Multivariante

Es una familia de análisis estadísticos que tienen en común estar concebidas para el análisis conjunto de un número amplio de variables. Nos referimos a estas cuando aplicamos técnicas distintas a las univariables y bivariables.

  • Univariables: Distribución de frecuencias, descriptivos (medidas de tendencia central).
  • Bivariables: Tablas de contingencia, comparación de medias, correlaciones.
  • Análisis Multivariantes:
    • Explorar y reducir: AFCP (Análisis Factorial de Componentes Principales), Factor Común, Máxima Verosimilitud, Correspondencias AFCS (Análisis Factorial de Correspondencias Simples), AFCM (Análisis Factorial de Correspondencias Múltiples).
    • Clasificar (casos o variables): Conglomerados, Árboles de Segmentación, Análisis Discriminante.
    • Explicar (causalmente): Modelos de regresión lineal, logística (entre otros), modelos Path, análisis de ecuaciones estructurales.

Presentación de Resultados

Representación de los Resultados

La tabulación general de la encuesta:

  • Variables de cabecera: Variables en columnas. Ej: Sexo (varones, mujeres), Edad (24 y -, 25-44, 45 y +).
  • Variables de análisis: Variables en filas. Ej: Todas las preguntas de la encuesta o parte de ellas.

Plan de tabulación: Se enumeran todas las variables que se desean analizar (por lo común, todas las preguntas del cuestionario), en el orden que se desea obtener (por lo común, el orden del cuestionario). Se especifica en qué preguntas deben aparecer los filtros y cuáles deben ser estos. Si en alguna pregunta se desea obtener una media, también se especifica.

Elaboración de Informes y Documentos Académicos

Estructura común:

  • Introducción.
  • Antecedentes o estado del arte.
  • Objetivos.
  • Metodología.
  • Resultados.
  • Diversos apartados o capítulos.
  • Conclusiones.
  • Bibliografía.
  • Anexos y tabulaciones.

Normas para la Presentación de Tablas

Elementos clave:

  • Título.
  • Base de cálculo (n=xxx).
  • Fuente (si no es una única encuesta).
  • Dato (%, absoluto, media, correlación, etc.).
  • Tipo de porcentaje y sentido de lectura.
  • Criterios para decidir entre tabla o gráfico.
  • Verbatims.

Control de Muestra y Métodos de Ponderación

Control del Trabajo de Campo y Supervisión

Es necesario ejercer un control sobre el trabajo de campo y sus resultados. Es necesario planificar la labor de campo y estar al tanto de las incidencias. Es necesario comprobar cómo es la muestra que se ha obtenido (aprovecharemos para conocer algunos conceptos importantes del control de campo, más allá del control muestral).

Supervisión y Depuración de Cuestionarios

Una vez cumplimentadas las rutas o cuotas, los cuestionarios son supervisados y se depuran los defectos encontrados.

La supervisión consiste en:

  • Revisar que todas y cada una de las preguntas han sido debidamente cumplimentadas.
  • Verificar si los filtros se han realizado correctamente.
  • Comprobar si hay un número excesivo de no respuesta.
  • Asegurar que las rutas o cuotas son correctas.
  • Detectar si hay inconsistencias en el cuestionario.
  • Identificar si pudiera haber fraudes en el trabajo de campo.

Además, los supervisores de campo se vuelven a poner en contacto con una parte de la muestra (entre el 5% y el 10% por lo común, a veces más). A veces por teléfono y otras personalmente, realizando dos o tres preguntas para verificar la veracidad de la información y algún dato de clasificación.

  • Con el objeto de comprobar la veracidad de las respuestas dadas y la honestidad de los entrevistadores.

[No se puede hacer en entrevistas online]

Criterios de Anulación de Entrevistas

A veces se procede a anular una parte de las entrevistas. Los casos más frecuentes son:

  • Tasa excesiva de no respuesta o entrevistas incompletas.
  • Comportamiento fraudulento por parte de algún entrevistador.
  • Falta de coherencia en las respuestas que no sea subsanable.

En tales casos, las entrevistas anuladas se sustituyen por otras.

Criterios de Calidad en la Supervisión

  • Contactar de nuevo, si es posible, siempre que en un cuestionario se detecte un problema de información no depurable sin contacto adicional.
  • Contactar de nuevo, de forma aleatoria, con al menos el 10% restante de cuestionarios en los que no se aprecien problemas, para contrastar:
    • Que la encuesta se ha realizado.
    • La veracidad de la información de algunas de las preguntas más importantes.
  • Cuando no es posible contactar, la entrevista debe ser anulada.

Criterios de Calidad en la Depuración

  • Eliminar registros vacíos en las recogidas de datos digitalizadas.
  • Eliminar casos duplicados en las recogidas digitalizadas.
  • Eliminar encuestas en las que se detecte fraude y someter a control todas las realizadas por el entrevistador.
  • La categoría «Otras respuestas» no debe exceder el 10%.
  • Intentar depurar o eliminar cuestionarios si:
    • No responden al menos al 25% del total de preguntas correspondientes (criterio más laxo).
    • Falta información en alguna variable considerada importante (para ponderar, por la temática, etc.).
    • Se detectan inconsistencias entre respuestas.
    • Hay errores de enrutamiento (routing) o filtros.

Posibilidades de Supervisión por Tipo de Encuesta

  • Personal en hogares: Muy buena (supervisiones personales o telefónicas).
  • Personal en otros sitios: Buena (supervisiones personales o telefónicas).
  • Telefónica en hogares: Muy buena (telefónica).
  • Telefónica en otros sitios: Muy buena (telefónica).
  • Online no anónima: Regular (limitada a conservar o no la forma de contacto, que podría ser email, telefónico, etc.).
  • Online anónima: No es posible (solo cabe anular).
  • Autocumplimentada en papel: Mala (solo si voluntariamente proporcionan una forma de contacto).

Gestión del Fichero y Revisión de Cuestionarios

Se asigna un número único a cada entrevista (o cuestionario). Esto es fundamental para detectar posibles problemas durante el procesamiento o análisis, permitiendo revisar los datos.

Los cuestionarios o datos identificativos se conservan hasta que el estudio haya concluido, a efectos de revisión (cada cuestionario debe tener un número único).

Posteriormente, se debe anonimizar la recogida de datos destruyendo la información sensible (solo debe quedar el número de cuestionario).

Supervisión de Datos

Es necesario comprobar que los cuestionarios han sido adecuadamente rellenados.

Comprobar: los filtros, la coherencia en las respuestas y que no haya demasiadas preguntas en blanco (no respondidas).

Los cuestionarios en los que estén en blanco un 25% o más de las preguntas correspondientes deberán ser anulados (existen criterios de calidad más restrictivos).

La Ponderación de la Muestra

La ponderación: comprobación de la muestra, control a posteriori.

Antes de procesar estadísticamente la información, se debe comprobar la calidad de la muestra obtenida:

  • Comprobando que los estratos y/o cuotas teóricos se han cumplido y no se han producido desviaciones.
  • Comprobando que otras variables no controladas en la muestra (pero de las que hay información respecto a su distribución en el Universo) han quedado reflejadas en la muestra tal y como se esperaba.

Comprobación de la Muestra

En caso de apreciarse desviaciones en variables importantes para la investigación (controladas o no en la muestra), se debe reequilibrar la muestra mediante ponderación antes de obtener tablas de datos definitivas.

Solo así quedaría garantizado que se trabaja con una muestra proporcional al Universo.

Variables Más Ponderadas

Las variables que suelen ser más ponderadas son:

  • Sexo.
  • Edad (por intervalos).
  • Estudios (3-4 grupos).
  • Variables socioeconómicas.
  • Ideología política en estudios políticos.
  • Otras de la temática si están disponibles.

Criterios para Ponderar Variables

Se debe ponderar una variable cuando las diferencias entre los valores esperados y observados exceden los límites de error aleatorio. Solo se podrá hacer con variables con parámetros conocidos. Si muchas variables pudieran exceder los límites de error, ¿qué hacer?

¿Cuántas variables ponderar?

Pocas, las menos posibles (hasta 3-4).

Si hay muchas candidatas, hay que elegir. Los criterios de selección son:

  • Las más discriminantes.
  • Las que más se han desviado.
  • Las más independientes entre sí.

La ponderación no es una cuestión única.

Variables que se suelen ponderar:

  • Sexo.
  • Edad.
  • Nivel de estudios.
  • Otras variables socioeconómicas.
  • Variables territoriales.
  • Otras relacionadas con el tema de investigación, ej. ideología política o voto a partidos en estudios políticos.

Criterios de Calidad en Preguntas Abiertas

Plan de codificación realizado con un mínimo del 70% del total de respuestas.

Plan de codificación (categorías de respuestas en una lista, con ejemplos de codificación por variedades temáticas) realizado por un técnico especialista.

Las preguntas abiertas funcionan mejor cuando intervienen pocos codificadores (cuantas menos personas, mejor). Además, las dudas que surjan deben ser chequeadas.

Doble Codificación

La tasa de discrepancias (cuando en codificación abierta, un codificador asigna un código diferente a una codificación previa) debe ser inferior al 1% del total máximo (existen criterios más restrictivos). Si es superior al 1%, se debe seguir revisando hasta que la totalidad sea inferior al 1%.

Cuando hay grabación de datos, también se aplica la doble codificación y la tasa de discrepancia.

Métodos de Muestreo

Conceptos Fundamentales del Muestreo

Conceptos de Muestreo: Muestra, Universo, Error Aleatorio, Nivel de Confianza.

La Elección del Tamaño de una Muestra.

Tipos de Muestreo y Situaciones Adecuadas:

  • Muestras no probabilísticas.
  • Muestreo aleatorio simple.
  • Muestreo aleatorio sistemático.
  • Muestreos estratificados y por cuotas.
  • Muestreos por clusters (conglomerados).

La finalidad de toda muestra es representar a un Universo, dada la imposibilidad de entrevistar a todos los individuos.

Universo (o Población)

Se define como el conjunto de individuos sobre el que se desea obtener información. (Ej. La población española de más de 18 años, o todos los consumidores de un determinado producto).

Muestra

Se define como el grupo de individuos que serán entrevistados, en representación del Universo. Es una parte del Universo que, por sus características, permite sacar conclusiones generales sin necesidad de preguntar a todos.

Error Aleatorio

  • Disminuye a medida que el tamaño de la muestra es mayor.
  • Será mayor o menor en función del nivel de confianza con el que se trabaje.
  • El tamaño del Universo también puede afectar al margen de error en poblaciones pequeñas.

Otros Tipos de Errores (No Aleatorios)

Error no aleatorio = error sistemático. Es un sesgo en la información obtenida, de origen diverso:

  • Diseño de la muestra.
  • Realización del trabajo de campo.
  • Tratamiento, gestión, procesamiento.
  • Diseño de cuestionario.

Nivel de Confianza

Hace referencia al grado de precisión con el que se decide trabajar.

Tipos de Muestreo

Muestreo Aleatorio Simple

Todos los elementos de la muestra son elegidos de forma absolutamente aleatoria. Todos tienen la misma probabilidad de ser elegidos, así como las combinaciones de elementos.

Ejemplo: Selección, mediante función aleatoria, de una parte del total de registros en un fichero de clientes.

Aunque no se controla ninguna variable (áreas geográficas, edad, etc.), garantiza que se obtendrá una representación proporcional de todas las variables medidas, con un margen de error conocido y controlado.

Muestreo Aleatorio Sistemático

Similar al anterior, pueden obtenerse los mismos resultados. En lugar de seleccionar a los individuos de forma aleatoria, se hace mediante un criterio sistemático.

Se puede usar para seleccionar muestras a partir de listados o para seleccionar elementos fijos en el espacio.

Ejemplo: El primer elemento se selecciona al azar puro, y a partir de este, se selecciona uno de cada 10 elementos (el décimo, vigésimo, trigésimo, etc.).

Muestreo Estratificado

Se divide la muestra en grupos o categorías llamados estratos.

Cada estrato es una ‘submuestra’ que se elaborará de forma independiente.

Es importante que cada elemento figure en uno y solo uno de los estratos.

Ejemplo: Áreas geográficas y tamaños de hábitat.

Etapas del Muestreo Estratificado Polietápico

Las 6 etapas clave del muestreo estratificado polietápico:

  1. Segmentar el universo en estratos.
  2. Aplicar segmentación en la muestra (estratificar).
  3. Determinar el número de puntos de muestreo total y por estratos.
  4. Determinar geográficamente dónde aplicar los puntos de muestreo en cada estrato (Sorteo de conglomerados).
  5. Determinar el número de entrevistas, por estrato y por punto de muestreo (Afijación de entrevistas).
  6. Determinar los criterios de selección desde el punto de muestreo a la selección de unidades últimas (Puede dividirse en varias subetapas).

Tipos de Afijación

  • Proporcional: Cuando los tamaños de los estratos se establecen en proporción a su peso real en el Universo.
  • No Proporcional:
    • Óptima: Tamaño proporcional al producto de su desviación por su cuasi desviación típica (además de tener en cuenta el tamaño del estrato en el Universo, considera también su variabilidad).
    • Igual: El mismo tamaño muestral en cada estrato.
    • Por Conveniencia: Para asegurar bases suficientes o abaratar los costes.

Selección de Puntos Muestrales

Normalmente, los puntos de muestreo equivalen a municipios; es decir, las ciudades y pueblos que han sido seleccionados en la muestra por sorteo.

Antes, hay que decidir el número de municipios a sortear.

Suele considerarse adecuado elegir 100 en una muestra de 1.000 individuos, representativa a nivel nacional.

Criterios:

  • Con igual probabilidad.
  • Con probabilidad proporcional a su peso poblacional.
  • Con otra relación de probabilidad (o conveniencia).

Selección de los Sujetos

  • Por Rutas.
  • Por Cuotas.
  • Combinando rutas y cuotas.

Ejemplos de Tipos de Muestreo Frecuentes

  • Mediante entrevistas personales en el hogar.
  • Mediante entrevistas telefónicas en el hogar.
  • Encuesta online aspirando a proporcionalidad distributiva.
  • Muestra no probabilística por cuotas.