Periodismo de Datos: Fases, Tipos, Beneficios y Proceso
Fases de la Pirámide Invertida en el Periodismo de Datos
El periodismo de datos se basa en un proceso estructurado que se asemeja a una pirámide invertida. Estas son sus fases:
1. Recopilación
Es la parte más importante del proceso, ya que un error aquí se arrastra en las fases siguientes. Se parte de una cuestión (problema) que precisa datos o de datos que necesitan ser analizados para descubrir qué hay detrás de ellos. Las fuentes de datos pueden ser:
- Oferta directa: comunicados de prensa, envíos de las partes interesadas.
- Búsqueda en bases de datos o sitios web de Gobiernos o instituciones.
- Web scraping.
- Transformación de documentos de texto.
- Extracción de datos de las API de otros servicios.
- De manera manual: observación, encuestas, formularios en línea, etc.
2. Limpieza
Conversión y adaptación de los datos a una forma de presentación que sea consistente con los otros datos empleados. Tareas a realizar:
- Eliminación de duplicados.
- Ajuste de nombres.
- Unificación de unidades.
- Revisión de las entradas (vacías o erróneas) y el formato.
3. Contextualización
Profundizar en la temática, comprender las categorías que la configuran y los términos que le son propios. Se pueden compilar otros datos que puedan guardar relación con el contexto que se está ofreciendo.
4. Combinación
Relacionar datos de diversas fuentes para enriquecer el producto.
5. Comunicación
Es la parte más evidente: la que llega a la audiencia y es el objetivo del proceso. Se cuenta con distintas opciones de comunicación, como la visualización y la narración.
Tipos de Estadísticas
- Descriptiva o deductiva: descripción y análisis preciso de un grupo determinado, sin sacar conclusiones o inferencias sobre un grupo más grande. Ejemplos: tendencias centrales (media, mediana, moda), dispersión (cuartiles, deciles, varianza, desviación estándar).
- Inferencial o inductiva: descripción y análisis no preciso de muestras representativas de una población para realizar estimaciones aplicables a un conjunto mayor. Estas inferencias no llegan a ser precisas por completo, por lo que para la extracción de conclusiones se emplea la probabilidad.
Beneficios de la Visualización de Datos
- Evita el exceso de información: es una herramienta útil que realiza una labor de filtrado y se enfoca en lo relevante.
- Facilita la comprensión por su forma visual: la imagen genera más recuerdo que lo leído.
- Mejora la socialización del contenido: hay múltiples impactos informativos, pero al elaborar contenidos atractivos, sencillos de consultar y que aporten conocimiento se logra una mayor popularidad, empleando la visualización como elemento de reclamo.
Ciclo de los Datos
1. Captura (fase vital)
Recopilación de los datos de fuentes diversas (creación propia o de fuentes externas) para ser organizados y almacenados en bases de datos a través de diferentes herramientas o métodos manuales o asistidos. Los errores en la captura se arrastran en las fases posteriores y dificultan la tarea de limpieza y archivo. Los datos son generados por los usuarios (y registrados por las propias organizaciones) o son fruto de la investigación. Su almacenaje puede ser en tiempo real (conforme se crean los datos) o por lotes (ingestión cada cierto período de tiempo).
2. Mantenimiento
Procesamiento de los datos a modo de filtrado o limpieza para homogeneizar su formato de presentación (distinto origen y formato), para lo cual se emplean los softwares automatizados de la fase de captura. No se obtiene aún beneficio o conocimiento de los datos.
3. Utilización (fase crucial)
Empleo de los datos para generar ideas, beneficios y resultados, realizando diferentes tareas en función del tipo de datos y de la actividad. Usos: informar, mejorar procesos, identificar debilidades o comprender el estado de una organización, proyecto o realidad.
4. Publicación (fase condicional)
No siempre se publican los datos, y las bases de datos que se generan permanecen cerradas a una organización o a un uso exclusivo. Existen dos modalidades de publicación: Open Data y la específica, exclusiva a determinadas personas u organizaciones externas.
5. Archivo
Almacenaje de los datos por si vuelven a ser necesarios, manteniéndolos seguros. Los datos no se encuentran ni en fase de enriquecimiento o de utilización para ninguna finalidad.
6. Eliminación (final de su vida)
Borrado de todas las copias generadas. Muchas veces la eliminación se vincula a medidas de protección de datos. En ocasiones, se salta la fase de archivo y se pasa directamente a la eliminación.
Tipos de Variables
Según el Tipo de Valores
- Cualitativas (atributos): valores no cuantificables numéricamente (hombre/mujer).
- Cuantitativas (variables): valores cuantificables numéricamente (edad), que a su vez pueden ser:
- Discretas: solo toman un número finito de valores.
- Continuas: pueden tomar un número infinito de valores dentro de un intervalo.
Según la Escala de Medición
- De escala nominal (nombre): variable cualitativa y no numérica (marcas de productos); con categorías sin orden entre ellas.
- De escala ordinal (orden): variable cualitativa y no numérica (grado de estudios); con categorías con orden entre ellas.
- De escala de intervalo: variable cuantitativa y numérica (temperatura); con categorías con orden y hay valores negativos.
- De escala de razón o proporcional: variable cuantitativa y numérica; con punto cero absoluto (no hay valores negativos).
Propiedades de una Base de Datos
- Capacidad para que los datos sean compartidos (data sharing): accesibilidad de los datos almacenados a varias personas.
- Integración de los datos (data integration): garantía de que no existan datos redundantes (duplicados) debido al acceso de múltiples personas.
- Integridad de los datos (data integrity): relación plena entre lo que se representa (en el mundo real) y lo que recoge la base de datos. Si acontecen cambios en el mundo real, deben quedar registrados en la base de datos.
- Seguridad de los datos (data security): limitación del acceso a los datos y/o edición a personas autorizadas.
- Abstracción de los datos (data abstraction): una base de datos puede ser vista como un modelo de la realidad, pero tan solo es una abstracción de la misma. Ninguna base de datos puede registrar absolutamente todas las características del mundo real.
- Independencia de los datos (data independence): compromiso de que los cambios que se realicen en los datos no afecten a los programas o aplicaciones ni a los procesos en los que se usan los datos. Si se realiza algún cambio en las aplicaciones o procesos que utilizan esos datos, tampoco deberían afectar a la estructura de estos dentro de la base de datos.
Dimensiones o Características de los Datos
- Singularidad: las entidades deben ser únicas, ninguna entidad va a existir más de una vez dentro de una base de datos.
- Precisión: capacidad de los valores registrados para ser datos de referencia sobre una realidad.
- Coherencia: los valores de datos extraídos de conjuntos de datos distintos no deben entrar en conflicto entre sí.
- Completitud: existencia de valores no nulos asignados a elementos de datos específicos.
- Actualidad/velocidad para el acceso: tiempo en el que se espera que la información esté disponible y accesible desde que se forma.
- Actualización/vigencia: grado de actualización de la información conforme al mundo que describe con los cambios que puedan acontecer.
Características del Periodismo de Datos
- «80% sudor, 10% gran idea, 10% resultado»: trabajo de horas y horas profundizando en conjuntos de datos.
- El periodista como figura puente entre los datos y la ciudadanía: tenemos que evaluar siempre la manera en la que vamos a comunicar esos datos para que sean comprendidos por nuestra audiencia.
- Mayores plazos o tiempos de trabajo, pues requiere más tiempo de trabajo que otras formas de periodismo.
- Importancia de la tecnología que agiliza procesos y hace más sencillo el trabajo.
- Accesible por la aparición de múltiples herramientas que facilitan el trabajo con los datos en sus diferentes fases:
- Búsqueda: gran cantidad de portales de datos de todo tipo.
- Gestión: Microsoft Excel, Google Sheets…
- Visualización: Datawrapper.
- Difusión: redes sociales.
Proceso del Conocimiento
Los datos pasan de encontrarse en bruto a ser comprendidos por el ser humano.
- Datos: números tomados de manera singular sin utilidad para el público general si los tomamos de manera aislada.
- Información: recogida y presentación de los datos en bruto de una manera comprensible y acompañados de su contexto. Los datos sufrieron una transformación y una organización.
- Conocimiento: enlace del trabajo de visualización con algo visto o conocido anteriormente (experiencia).
- Sabiduría (etapa más alta del proceso de conocimiento): establecimiento de relaciones y juicios sobre los datos de los que parte una visualización.
Open Data
Datos que pueden ser utilizados, reutilizados y distribuidos libremente por cualquier persona y que, como máximo, están sujetos al requerimiento de atribución.
- Disponibilidad y acceso: la información debe estar disponible como un todo y a un coste razonable de reproducción. Además, la información debe estar disponible de forma que convenga y sea modificable.
- Reutilización y redistribución: los datos deben ser proveídos bajo términos que permitan reutilizarlos y redistribuirlos, incluso integrarlos con otros conjuntos de datos.
- Participación universal: todos deben poder utilizar, reutilizar y redistribuir la información sin discriminación ni restricción.
¿Qué se Necesita para el Periodismo de Datos?
- Habilidades técnicas: trabajo con hojas de cálculo, gestión de bases de datos, conocimientos estadísticos, etc.
- Conocimientos sobre los datos: habilidad para la petición de datos y conocimientos sobre los datos abiertos, conocimientos sobre las fuentes de datos, capacidad para comprender los metadatos, etc.
- Desempeño del trabajo e interacciones con otros: consulta con personas del ámbito de la estadística, relación con las organizaciones para las peticiones de datos, etc.
- Toma de decisiones y resolución de problemas: juzgar la fiabilidad de los datos y la noticiabilidad de los conjuntos de datos y de las historias que se pueden elaborar con ellos, capacidad para liderar, etc.
Etapas de una Investigación Estadística
- Planificación: definición de los objetivos e identificación de las características que queremos estudiar para poder comprender aquello que va a ser necesario.
- Recogida de datos estadísticos a través de una encuesta/cuestionario.
- Datos no registrados = elaboración del cuestionario: diseño de la muestra (cuánta gente voy a necesitar para que mi encuesta sea representativa), recogida de los datos y tratamiento de los datos (limpieza y corrección de errores y tratamiento estadístico).
- Datos inscritos: recopilamos, limpiamos y contextualizamos los datos.
- a) Análisis descriptivo de los datos obtenidos (frecuencias, medidas de posición central, etc.): estimación de errores (de la muestra y externos a la muestra). Empleo de métodos estadísticos.
- b) Modelización estadística: se formula un modelo y se contrastan las hipótesis dentro del mismo.