Big Data y Periodismo de Datos
February 11, 2017 | Author: Fabiola Torres | Category: N/A
Short Description
Big Data y Periodismo de Datos...
Description
BIG DATA Y PERIODISMO DE DATOS
ALICIA TAPIA Profesora de “Documentación y gestión de fuentes de comunicación”
UNIR Universidad Internacional de la Rioja
2
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
ÍNDICE DE CONTENIDOS Explicaremos y analizaremos cuatro puntos fundamentales para poder entender los conceptos de Big Data y Open Data, y la relación de ambas materias con los medios de comunicación mediante el Periodismo de Datos:
BIG DATA Y OPEN DATA PERIODISMO DE DATOS EXPEDICIÓN POR EL BIG DATA Y OPEN DATA HERRAMIENTAS DE EXTRACCIÓN Y VISUALIZACIÓN
3
ACERCA DE LA AUTORA ALICIA TAPIA es profesora de la asignatura “Documentación y gestión de fuentes de comunicación en UNIR, la Universidad Internacional de la Rioja. Es doctora en Ciencias de la Información, licenciada en Periodismo y magister universitario por la Universidad Complutense de Madrid. Su actual línea de investigación gira en torno al Periodismo de Datos, la Big Data y Open Data, con el proyecto de periodismo de datos “Puntos negros urbanos”. Este proyecto de investigación social pretende tomar conciencia y visibilidad de la peligrosidad hacia los peatones en las ciudades y las deficiencias en los trazados urbanos, y cuenta con la participación en expediciones de datos organizadas por el grupo español de la Open Knowledge Foundation (OKFN, Fundación por el Conocimiento Abierto). Anteriormente ha sido responsable del proyecto de investigación “Incidencia de las nuevas tecnologías en técnicas y procedimientos de trabajo y contenidos de los medios audiovisuales”, del que se han publicado diferentes artículos en revistas españolas y extranjeras con impacto en el JCR. Entre 1999 y 2008 fue responsable de Documentación de Informativos en Telemadrid, momento en el que se iniciaron los cambios tecnológicos en la televisión autonómica con la implantación de los sistemas de videoservidores y edición no lineal. Un año antes había participado en el proyecto de Normalización y Migración de las bases de datos documentales de Telemadrid al nuevo sistema. Además ha impartido clase desde 1998 en las universidades Francisco de Vitoria, Complutense y Carlos III de Madrid.
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
BIG DATA Y OPEN DATA La era digital inició su andadura en el año 2002 al ser el primer año donde la capacidad de almacenamiento digital superó la capacidad de almacenamiento analógica1. En 2007 casi el 94% de toda la información estaba en formato digital. El último informe sobre el Universo Digital de la consultora internacional IDC de junio de 2011 destaca que toda la información digital del mundo se duplica cada dos años. En 2010 la información alcanzaba y superaba la barrera del zettabyte, llegando a 1,2 de esta última medida. Para tener una idea aproximada, un zettabyte son 1.000.000.000 billones de bytes2.
ESTIMACIÓN DE CUÁNTA INFORMACIÓN REPRESENTA UNA MEDIDA: UN BYTE (1 B) UN NÚMERO EN UN CÓDIGO INFORMÁTICO DOS KILOBYTES (2 KB) SON UNA PÁGINA DE SÓ LO TEXTO
4
CINCO MEGABYTES (5 MB) TODAS LAS OBRAS DE S HAKESPEARE ENTRE UNO Y DOS GIGA BYTES (1 Ó 2 GB) UNA PELÍCULA COMPRIMIDA DE DOS HORAS 1 TERABYTES (15 TB) TODOS LOS LIBROS CAT ALOGADOS DE LA BIBLI OTECA DEL CONGRESO DE EE.U U. 1 UN PETABYTE (1 PB) TODA LA INFORMACIÓN QUE GOOGLE PROCESÓ EN UNA HORA EN 2010 1 UN EXABYTE (1 EB) MIL MILLONES DE COPI AS DE LA REVISTA THE ECONOMIST 1,2 ZETTABYTE (1,2 Z B) ES LA CANTIDAD DE INFORMACIÓN QUE HABÍA EN TOTAL EN 2010
1 Hilbert,
Martin; López, Priscila. La capacidad tecnológica del mundo para almacenar, comunicar y calcular información, Ciencia, vol. 332, nº 6025, 1 de abril de 2011, pp. 60-65. 2
Mariño, Ángeles. La relación del Periodismo de Datos con Big Data y Open Data, Trabajo fin de Master en Investigación en Documentación, Facultad de Humanidades, Comunicación y Documentación, Universidad Carlos III, 2012, pág. 44. Disponible en: http://es.scribd.com/doc/111830154/La-relacion-del-Periodismo-de-Datos-con-Big-Data-y-Open-Data UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
Toda esta información es conocida como Big data y se encuentra guardada en una nube virtual, no palpable, denominada cloud computing. Según el Informe Global de la Nube (2010 – 2015) de Cisco, el tráfico de datos se duplicará para 2015 hasta llegar a los 4,8 zettabytes. Un dispositivo inteligente, como un IPhone, tiene más poder de computación del que tenía la NASA cuando llegó el primer hombre a la luna. Los datos están en todas partes, en los códigos de barras, en las tarjetas de crédito, en las antenas de telefonía, en los sensores de humedad, en los contadores de la luz y el agua. Es en Internet donde se produce el mayor volumen de información a través de emails, piezas de contenido de Facebook, búsquedas en Google, tuits y vídeos en YouTube. Es por esta razón que muchos autores, al hablar del paisaje de los datos, dicen que nosotros somos Big Data.
LA PERIODISTA SORAYA PANIAGUA DESTACA QUE EN LA DÉCADA DE 1980 LA REVOLUCIÓN INFORMÁTI CA PUSO EL PC A NUESTRO ALCANCE. EN LA DÉCADA DE 1990, LA REVOLUCIÓN DE INTERNET NOS CONECTÓ A LA WEB Y A TODO EL 3 PLANETA . LA ENTRADA EN EL NUE VO SIGLO NOS TRAJO L A REVOLUCIÓN DE LA W EB 2.0. AHORA, EN ESTA SEGUNDA DÉCADA DEL SIGLO XXI ESTAMOS ASISTIENDO AL SURGIMIENTO DE UNA NUEVA REVOLUCIÓN: LA DE LOS DATOS 4.
Los grandes datos ya no se encuentran sólo en manos de las empresas y administraciones. Pueden llegar al ciudadano, pero la captura y análisis de estos datos es algo muy complejo. El estudio de los datos depende de programas informáticos capaces de procesar y relacionar datos no estructurados, unos obtenidos a través de PDFs y otros mediante tablas Excel. Los expertos hablan de las tres “V” de Big data: volumen, variedad y velocidad5. VOLUMEN
GRANDES VOLÚMENES DE DATOS, A PARTIR DE TERABYTES O PETABYTES.
VARIEDAD
DIVERSOS TIPOS DE FUENTES DE DATOS, YA SEAN ESTRUCTURADOS O NO ESTRUCTURADOS.
VELOCIDAD
FRECUENCIA DE LAS AC TUALIZACIONES DE EST AS BASES DE DATOS. EL ANÁLISIS HA DE REALIZARSE PRÁCTICAMENTE EN TIE MPO REAL.
3
Paniagua, Soraya. De los datos al Big Data, Telos – Cuadernos de Comunicación e Innovación, nº 95, junio – septiembre de 2013. Disponible en: http://sociedadinformacion.fundacion.telefonica.com/seccion=1266&idioma=es_ES&id=2013062110130001& activo=6.do 4 Idem 5 Fernández, Pablo. Tendencias 2012: Las tres ‘V’ de Big Data, SilicomWeek, 14 de enero de 2012. Disponible en: http://www.siliconweek.es/knowledge-center/tendencias-2012-las-tres-v-de-big-data-17819
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
5
Precisamente por el gran volumen de datos y su variedad existe una necesidad de generar bases de datos homogéneas, en formatos que faciliten un análisis abierto. La actualización de estos datos es trascendental de cara a la visualización y publicación de los mismos.
OPEN DATA Datos abiertos es una filosofía que persigue que determinados datos estén disponibles de forma libre a todo el mundo. Sin restricciones de copyright, patentes u otros mecanismos de control. Los datos deben publicarse en bruto (sin procesar), bien estructurados y en formatos conocidos que faciliten la reutilización 6 . Datos abiertos en un formato abierto, en aquel que es independiente de la plataforma (sistema operativo de nuestro PC, ya sea Windows, Mac o cualquier otro).
Open Data tiene un ámbito global y no contempla el pago por el uso de los datos. La apertura de datos del sector público permite que cualquier persona u organización pueda construir sobre ellos una nueva idea que resulte en nuevos datos, conocimientos, mejorar procesos, dar valor añadido a los existentes o incluso crear nuevos servicios. 6
Un servicio de apertura de datos públicos es aquel que proporciona datos en formatos digitales, estándares y abiertos para ser reutilizados de forma automática7. Lo más conveniente reside en publicar los datos en bruto, con un catálogo en línea8. Este concepto de reutilización automática de los datos es el que distingue la Open Data de la información disponible en una página web. Esta automatización proporciona la posibilidad de vincular los datos abiertos, lo que se ha denominado Linked Data, término que se utiliza en informática en general para relacionar unos datos con otros9. Tim Berners-Lee10, inventor de la Web, adoptó este término para exponer una de las iniciativas más interesantes de la web semántica, denominada Linked Open Data, de forma que pudieran conectarse el contenido de las páginas web con el objetivo de mejorar su búsqueda, acceso y reutilización.
6
Junta de Castilla y León - Portal de Datos Abiertos, 2013. http://www.datosabiertos.jcyl.es/web/jcyl/RISP/es/Plantilla66y33/1284162104384 7 Garriga Portolà, Marc. El Frankenstein español del Open Data, Telos – Cuadernos de Comunicación e Innovación, nº 94, enero – abril de 2013. http://sociedadinformacion.fundacion.telefonica.com/DYC/TELOS/REVISTA/Dossier/DetalleArtculoTELOS _94TELOS_DOSSIER3/seccion=1266&idioma=es_ES&id=2013021317580001&activo=6.do 8 Disponible en: http://www.w3.org/TR/gov-data/ 9 Antón Bravo, Adolfo. El periodismo de datos y la web semántica, Cuadernos de Información y Comunicación – CIC, Universidad Complutense, vol. 18, 2013, pp. 99-116. Disponible en: http://revistas.ucm.es/index.php/CIYC/article/view/41718/39756 10 Director del consorcio que se ocupa de las tecnologías de la Web, W3C (World Wide Web Consortium o Consorcio W3) UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
En 2010 anunciaron un sistema de cumplimiento con Linked Data basado en cinco estrellas11: UNA ESTRELLA *
DOS ESTRELLAS **
TRES ESTRELLAS ***
CUATRO ESTRELLAS ****
Los datos están disponibles en la red, en cualquier formato y con licencia abierta, aunque sean difíciles de manipular, como por ejemplo un archivo PDF o una imagen escaneada.
Los datos están disponibles como datos estructurados, legibles por ordenadores, como en un archivo Excel.
Datos estructurados legibles por ordenador y sin formato propietario. Por ejemplo, csv, acrónimo de ‘comma separated values’, valores separados por comas. Se trata de un tipo de documento en formato abierto y muy sencillo que sirve para representar los datos en forma de tabla, donde las columnas están separadas por comas -o punto y coma, si la coma es el separador decimal- y las filas por salto de línea. http://es.wikipedia.org/wiki/CSV
Utiliza estándares de la web, como RDF y SPARQL, para identificar los datos, lo que permite que otras personas puedan enlazarlos. RDF: modelo de datos para metadatos en la Web. SPARQL: lenguaje de consulta de bases de datos, capaz de recuperar y manipular los datos almacenados en Resource Description Framework (RDF).
CINCO ESTRELLAS *****
Si además de lo anterior, los datos se enlazan con otros, se vinculan, dotándolos de contexto.
Conseguir las cinco estrellas es un logro para cualquier institución que quiera avanzar en el mundo de Open Linked Data. No sólo deben ofrecer los datos para su reutilización; eso da la primera estrella.
11
Antón Bravo, Adolfo. El periodismo de datos y la web semántica, Cuadernos de Información y Comunicación – CIC, Universidad Complutense, vol. 18, 2013, pp. 99-116. Disponible en: http://revistas.ucm.es/index.php/CIYC/article/view/41718/39756
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
7
También deben entregarse de forma estructurada. Como tercer requisito, deben estar en formatos no propietarios, en software libre. Por ejemplo, no se pueden entregar los datos sólo en formatos de Excel porque obligan a un usuario que quiera leerlos a pagar por un software que los lea. Contar con tres estrellas quiere decir que cualquier persona e institución puede acceder a datos en formatos que permiten su manipulación. La cuarta y quinta estrella ya son mucho más difíciles de obtener, ya que tienen que entregar sus datos bajo un estándar que permita intercambiar datos entre diferentes fuentes de datos.
La Fundación CTIC, dedicada al Open Data y que lidera la iniciativa mundial de eGoverment en W3C, ofrece una tabla y un mapa con Catálogos de Datos en el mundo, clasificados según el número de estrellas12. En 2013, el portal de Datos Abiertos del Ayuntamiento de Zaragoza y el Catálogo de Datos de Asturias son los dos únicos portales españoles con las cinco estrellas. Les siguen con cuatro estrellas los portales de Aragón, Galicia, Castilla La Mancha, Islas Baleares, Cataluña, Barcelona, Terrassa, Gijón, Castilla y León y País Vasco13.
8
12 13
Disponible en: http://datos.fundacionctic.org/sandbox/catalog/faceted/ Idem
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
A continuación se presentan algunos portales internacionales y nacionales relevantes: FUENTES OFICIALES DE DATOS
PORTALES INTERNACIONALES DE OPEN DATA DATA.GOV
http://www.data.gov
http://data.gov.uk
La disposición de los gobiernos a entregar o abrir sus datos varía de país en país. Los pioneros han sido los gobiernos de Estados Unidos y de Reino Unido a partir del año 2009.
DATOS ABIERTOS EN EL MUNDO
PORTAL DE DATOS DEL BANCO MUNDIAL
http://datacatalogs.org/ Aspira a ser un índice global actualizado de portales de datos abiertos en el mundo. Incluye a representantes de los gobiernos locales, regionales y nacionales, organizaciones internacionales como el Banco Mundial y numerosas organizaciones no gubernamentales. 9
http://data.worldbank.org/ · Acceso libre y abierto a los datos sobre el desarrollo de los países de todo el mundo. El catálogo de datos del Banco Mundial incluye bases de datos, tablas con formato previo, informes y otros recursos. · La colección principal es la de los indicadores del desarrollo mundial e incluye las estimaciones nacionales, regionales y mundiales.
PORTAL DE DATOS DE NACIONES UNIDAS
http://data.un.org Es un sistema de acceso a las bases de datos de la ONU. · ONU de Datos unifica las principales bases de datos de las Naciones Unidas y las de distintas organizaciones internacionales en un único entorno de Internet. · El usuario puede acceder a un gran número de bases de datos de las Naciones Unidas ya sea navegando por la serie de datos o a través de una búsqueda por palabra clave. · Los objetivos de UN Datos son facilitar el libre acceso a las estadísticas mundiales.
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
EL DATA HUB
http://datahub.io/es/ Un recurso comunitario manejado por la Open Knowledge Foundation14 que facilita buscar, compartir y reutilizar fuentes de datos abiertamente disponibles, especialmente de maneras automatizadas15.
PORTAL DE OPEN DATA DE LA UE
http://open-data.europa.eu/ Punto de acceso a los datos de las instituciones y órganos de la Unión Europea. · Contiene una lista de sitios web de datos abiertos de los Estados miembros de la UE.
FUENTES OFICIALES DE DATOS
PORTALES NACIONALES DE OPEN DATA 10 PORTAL DE DATOS DEL GOBIERNO DE ESPAÑA
DATOS ABIERTOS DE ZARAGOZA
http://datos.gob.es/datos/ y http://aporta.es Permite accede a través del catálogo a los distintos sitios web y recursos del Sector Público. · Este portal forma parte del proyecto Aporta, una iniciativa del Ministerio de Industria, Turismo y Comercio para promover la reutilización de información en el sector público.
http://www.zaragoza.es La administración local pionera en abrir sus datos. El catálogo de datos incluye cientos de conjuntos de datos ordenados por temática, etiquetas o “tags” y por formatos de representación. · Contiene también una decena de conjuntos de datos en formato “Linked Data” (Tecnología Web 3.0 ó Web Semántica).
14
Open Knowledge Foundation (OKF) es una organización sin fines de lucro fundada en 2004 en Cambridge, Reino Unido. Sus objetivos son defender el ‘conocimiento libre’: cualquier material, dato o contenido libre para que cualquiera pueda usarlo o redistribuirlo sin restricciones. 15 Manual de Periodismo de Datos, European Journalism Centre y la Open Knowledge Foundation, Londres, 2011. Traducción La Nación Data. Disponible en: http://interactivos.lanacion.com.ar/manual-data/ UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
· El catálogo utiliza tecnologías muy avanzadas para la representación, como RDFa, que permite incrustar datos semánticos dentro del código HTML.
CATÁLOGO DE DATOS DE ASTURIAS
http://www.asturias.es/portal/site/webasturias/ El Gobierno del Principado de Asturias fue pionero en publicar un portal de datos abiertos. · Cada conjunto de datos está representado en diferentes formatos, la mayoría de ellos estándar, lo que hace posible la reutilización universal de los mismos. · Fue el primer portal a nivel mundial compuesto íntegramente mediante tecnologías Linked Data (Web Semántica). La Fundación CTIC desarrolló para este portal una herramienta que permite conservar datos en un almacén semántico.
ARAGÓN OPEN DATA
http://opendata.aragon.es/ El portal está desarrollado íntegramente sobre tecnología abierta con código libre. · Se pueden realizar búsquedas de información acotando por el formato seleccionado.
OPEN DATA EUSKADI
http://opendata.euskadi.net/w79-home/es/ Uno de los portales pioneros de España. · Publica los datos en diferentes formatos.
En un futuro, la evolución y desarrollo de todas estas iniciativas nos conducirá a una nueva etapa de Internet, donde un sitio web sea un servidor de archivos…
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
11
PERIODISMO DE DATOS El periodismo de datos consiste en usar herramientas estadísticas y de visualización para contar mejor las viejas historias y descubrir nuevas historias que contar16. El periodismo de datos es un dosificador de datos, de la Big Data, de la Open Data. No sólo es importante poder obtener un dato. Lo verdaderamente valioso en contextualizarlo y situarlo, saber qué significa y de ahí poder construir una historia con fundamento17. Se reafirma el doble objetivo del periodismo de datos: crear historias a partir de los datos y que las historias ayuden a formar bases de datos (utilizables a posteriori en otros relatos y por otros profesionales). El periodismo de datos puede diferenciarse según su objetivo: si, por un lado, busca conformar sus propias bases de datos, funciones del documentalista; o si, por otro, pretende recoger e interpretar una serie de datos para contar una historia, funciones de los periodistas.
12
En el Periodismo de Datos cobra importancia la infografía, pero la diferencia se encuentra en la participación del sujeto receptor. Mediante una infografía, el periodista expone una noticia. A través de las visualizaciones interactivas del periodismo de datos se deja al lector que consiga sus historias. “LA ORGANIZACIÓN (DE LOS DATOS) LES DA SENTIDO Y, UNIDOS, CRUZADOS, PUEDEN DESVELAR REALIDADES ESCONDIDAS HASTA ENTONCES. ESO ES LO QUE HACE EL PERIODISMO DE DATOS Y LA VISUALIZACIÓN DE DAT OS 18.
Paul Bradshaw, profesor de la Universidad de Birmingham (RU), investigador y gran impulsor de esta especialidad, distingue cuatro fases en el proceso de producción, lo que denomina, la pirámide invertida del periodismo de datos: obtención de datos, limpieza de datos, contextualización y combinación. También define seis posibles formas de comunicarlo: visualización, narración, comunicación social, humanizar, personalizar y utilidad de la información19.
16
Flores Vivar, Jesús. Ecosistema del periodismo de datos, Comunicação & Sociedade, 2012, pp. 7-35. Zorraquín Catalán, Jorge. El periodismo de datos: periodismo de hoy, periodismo de siempre, Comunicación y la red. Nuevas formas de hacer periodismo, Asociación de Periodistas de Aragón, 2013, pág. 211. 18 ABAD, Mar. ¿Olvidan los periodistas el potencial del periodismo?, Yorokobu, 8 de noviembre de 2012. Disponible en: http://www.yorokobu.es/peridosimodatos/ 19 Vicente Domínguez, Aida María. Recursos digitales para la investigación: Periodismo de datos, Comunicación y la Red. Nuevas formas de periodismo, Asociación de periodistas de Aragón, Zaragoza, 2013, pág. 334. 17
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
LA PIRÁMIDE INVERTIDA DEL PERIODISMO DE DATOS 20: FASES DEL PROCESO DE PRODUCCION
Compilar
Limpiar Contextualizar Combinar
FORMAS DE COMUNICAR LOS DATOS
Visualiza ción
Narración Comunicación social Humanizar Personalizar
Comunicación
20
Bradshaw, Paul. The Inverted Pyramid of data Journalism, Online Journalism Blog, 2011. Disponible en: http://ojournalism.blogspot.com.es/
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
13
FASES DEL PROCESO DE PRODUCCION 1. COMPILAR Bradshaw considera que el periodismo de datos empieza en una de las dos formas: o tienes una pregunta que necesita datos o tienes un set de datos que necesitan ser interrogados. La compilación de la información puede tener varias formas:
Datos encontrados en los sitios web
Al hacer scraping (rascar) de bases de datos online
Convertir documentos en algo que pueda ser analizado mediante DocumentCloud
Tomando información de APIs
Recolectando los datos a través de encuestas, formularios online o crowdsourcing
2. LIMPIAR 14
Tener información es sólo el comienzo. Para Bradwshaw “estar confiado en las historias escondidas dentro de las bases de datos significa poder confiar en la calidad de los datos y eso significa limpiar los datos”21. Hay formas de limpiar los datos en Excel o en Google Docs. 3. CONTEXTUALIZAR Con este punto, Bradwshaw pretende advertir sobre la fuente de dónde obtenemos los datos: “Viene con sus propias historias, prejuicios y objetivos”. Por tanto es necesario preguntar a los datos:
¿Quién recolectó los datos encontrados?
¿Cuándo y por qué motivos?
¿Cuál fue la metodología utilizada para la recolecta de datos?
Es necesario entender la jerga: códigos que representan categorías, clasificaciones, ubicaciones y terminología de especialistas.
21
Bradshaw, Paul. Data journalism, 22 de enero de 2011. Traducción Mauro Accurso. Disponible en: http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-ofdata-journalism/ UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
Por ejemplo, conocer el número de accidentes de tráfico en una ciudad es interesante, pero sólo se vuelve relevante cuando se contextualiza junto con la población, la densidad de tráfico, el parque de vehículos, y demás. 4. COMBINAR A menudo las buenas historias se obtienen combinado varios set de datos. La combinación clásica a la que se refiere Paul Bradshaw es el mashup de mapas: tomar un set de datos y combinarlo con datos de mapas para proveer una visualización instantánea de cómo algo está distribuído en el espacio. FORMAS DE COMUNICAR LOS DATOS Finalmente hay que comunicar los datos. Esto nos lleva a la segunda pirámide del periodismo de datos. 1. Visualización: la forma más rápida de comunicar los resultados del periodismo de datos.
Evitar el espectáculo sin profundidad o Churnalism22
Enfocarse en no más de cuatro puntos de datos
Asegurarse que el gráfico es autosuficiente, contiene un enlace a la fuente
2. Narración: una visualización siempre debe ir acompañada de un texto que lo contextualice. 3. Comunicación Social: es importante comunicar las visualizaciones e infografías a través de los medios sociales: blogs, Facebook. La información también es social. Existen iniciativas de crowdsourcing con el objetivo de recolectar data. 4. Humanizar: graba entrevistas con personas que humanicen los datos abstractos. 5. Personalizar: intenta mostrar al público la cercanía de los datos, cómo le afectan personalmente. 6. Utilidad: atrae usuarios en varios puntos de la cadena de comunicación.
22
Una forma de periodismo sin control ni investigación. (http://en.wikipedia.org/wiki/)
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
15
A continuación se muestran algunas iniciativas en Periodismo de Datos: PERIODISMO DE DATOS:
MEDIOS DE COMUNICACIÓN INTERNACIONALES EL DATABLOG DE THE GUARDIAN
http://www.theguardian.com/news/datablog Pionera del periodismo de datos con herramientas libres. El periódico inglés fomenta la reutilización, liberando los datos de sus visualizaciones. · Contiene el blog del periodista Simon Rogers, The Guardian’s Datablog, iniciado en 2009 y conocido como el mejor blog de datos relativos al periodismo. El 90% del trabajo que realizan se lleva a cabo en Excel, mediante las tablas de Google Fusion y Tableau. · The Guardian recibió cinco nominaciones a los favoritos de los Premios de Periodismo de Datos (DJA 2013), el único premio internacional de periodismo exclusivamente por datos.
16
http://www.theguardian.com/news/datablog/2013/apr/27/ data-journalism-awards-2013-shortlist#list
LA NACIÓN DATA
http://www.lanacion.com.ar/nacion-data-t48587 El diario argentino La Nación es también pionero en ofrecer datos e investigaciones utilizando el periodismo de datos. · El Blog La Nación Data obtuvo el primer premio de los Data Journalism Awards (DJA 2013), en la categoría de Periodismo de Datos e Investigación en grandes medios, sobre la investigación exclusiva sobre los gastos en el Senado argentino. · Nación Data ha traducido al español el Manual de Periodismo de Datos, cuyo documento original Data Journalism Handbook es el trabajo colectivo de periodistas, investigadores, programadores y diseñadores de diferentes países para abordar el uso de datos en periodismo. Se encuentra disponible en línea, abierto y gratuito.
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
PERIODISMO DE DATOS
MEDIOS DE COMUNICACIÓN NACIONALES LAB DE RTVE
http://lab.rtve.es/datos Laboratorio de Periodismo de Datos del Departamento de Innovación Audiovisual de Televisión Española. · Ofrece gráficos interactivos sobre diferentes temáticas.
ELDIARIO.ES
http://www.eldiario.es Periódico digital que inició su andadura en septiembre de 2012. Ha publicado visualizaciones interesantes de periodismo de datos. · Eldiario.es eligió en mayo de 2013 el proyecto sobre la memoria histórica “Vidas contadas”, como ganador del premio eldiario.es al mejor proyecto de periodismo de datos entregado en colaboración con el grupo español de la Open Knowledge Foundation (OKF).
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
17
EXPEDICIÓN POR EL BIG DATA Y EL OPEN DATA La Escuela de Datos de OKFN divide a los exploradores en: Cuenta cuentos: Son clave para definir la pregunta de arranque y la finalización de la misión. Los cuentacuentos se encargan de hallar ángulos y perspectivas interesantes para contar una historia y cautivar a la audiencia. Scout: Encargados de buscar y cazar datos interesantes en la web. Los scouts tienen la dificultad de normalizar algunos datos de libre acceso.
18
Analista: Resuelven las hipótesis que el cuentacuentos ha planteado tras interpretar y comparar los datos que los scouts han presentado. Diseñadores: Embellecen los datos que proporcionan historias mediante gráficos estáticos e interactivos. Guía: Debe monitorear las aventuras de la misión y guiar a los exploradores. Si es necesario, aporta material adicional. UNA EXPEDICIÓN DE DA TOS ES LA EXPLORACIÓ N DE UN TERRITORIO SALVAJE, SIN TRATAR, POCO EXPLORADO 23.
23
Open Knowledge Foundation (OKF). Escuela de Datos, 21 de octubre de 2013. Traducción Soci@l TIC. Disponible en: http://es.schoolofdata.org UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
EN LA BÚSQUEDA DE DATOS ABIERTOS En primer lugar se debe acudir a la persona que tiene los datos. Algunos autores le llaman “el gurú de los datos”, el encargado de la información demandada, no a la persona de relaciones públicas o comunicación de la empresa, ni a través de un pedido de acceso a la información (PAI)24. 1. Es preferible no buscar determinado contenido directamente, sino lugares donde puede haber datos disponibles en gran cantidad. 2. Imprescindible ajustar la búsqueda: incluir términos relacionados con el contenido, pero también sobre el formato. Google y otros motores de búsqueda permiten buscar por tipo de archivo. Por ejemplo, la búsqueda: accidentes tráfico Madrid Excel, conduce al portal de la Dirección General de Tráfico, apartado Estadísticas e indicadores. 3. Durante la exploración de los datos, es recomendable preguntar en foros y asociaciones relacionadas con el tema, ya que a veces no les importa compartir información que ya han obtenido de la administración pública con otros proyectos similares. 4. Las primeras búsquedas nos ayudan, además de a encontrar información, a concretar lo que se quiere contar, por lo que es aconsejable iniciar de nuevo la búsqueda de la información. 5. Si se cree que un ente oficial tiene los datos necesarios, un Pedido de Acceso a Información (PAI) puede ser la mejor herramienta. Se aconseja:
Guardar una copia del registro de pedido de modo que en el futuro se pueda demostrar el envío, en caso de tener que apelar por falta de respuesta.
Acelerar la respuesta haciendo público la presentación de un pedido. De esta forma se crea presión sobre la institución pública para que responda al pedido.
Si finalmente no hay respuesta, se transforma en noticia por el derecho de acceso a la información
24
Manual de Periodismo de Datos, European Journalism Centre y la Open Knowledge Foundation (OKF), Londres, 2011. Traducción La Nación Data.
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
19
EN LA INTERPRETACIÓN DEL OPEN DATA LA ALFABETIZACIÓN EN MATERIA DE DATOS ES LA CAPACIDAD DE MANEJAR DATOS PARA CONOCER, PRODUCIR COHERENTEMENTE Y PENSAR CRÍTICAMENTE ACERCA DE DATOS. 25
Esta alfabetización también incluye el ejercicio de trabajar con grandes conjuntos de datos, conociendo cómo se obtuvieron y establecer posteriormente diferentes combinaciones con las que podamos llegar a distintas interpretaciones.
20
Lo más importante, siempre, es tener un pensamiento crítico, y, en segundo lugar, ser creativo pensando en las historias alternativas que podrían ser coherentes con los datos obtenidos. Otro aspecto importante es el rigor al analizar los datos. Si estamos explorando el número de accidentes que ha habido en una ciudad, tendremos que cruzar esos datos con el número de coches y habitantes que han pasado por los diferentes barrios de esa ciudad. La interpretación de los números varía según se combinen. No tiene la misma relevancia tres accidentes en una calle por donde circulan 500 coches al día, que el mismo dato de siniestros en una zona que sólo circulan 50 coches diarios. Por ello hay que intentar universalizar el campo de actuación. No pensar sólo en el dato que estamos estudiando, sino también en los datos que pueden influir en su interpretación.
A MENUDO ES UNA BUENA IDEA PEDIR TODAS L AS VARIABLES Y REGISTROS EN LA BASE DE DATOS, EN VEZ DEL SUBCONJUNTO QUE RESPONDERÍA A LAS PREGUNTAS PARA LA HISTORIA INMEDIATA. 26
También puede ocurrir que las leyes de confidencialidad prohíban difundir algunas variables y datos, tales como los nombres de personas. Otra manera de analizar los datos que nos lleven a una historia es buscar exclusiones, una lista negra. Cosas que no deberían encontrase allí. Para ello antes identificaremos lo evidente (los mayores, los extremos, los más comunes, etc.)
25
Manual de Periodismo de Datos, European Journalism Centre y la Open Knowledge Foundation (OKF), Londres, 2011. Traducción La Nación Data. 26 Manual de Periodismo de Datos, European Journalism Centre y la Open Knowledge Foundation (OKF), Londres, 2011. Traducción La Nación Data. UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
HERRAMIENTAS DE EXTRACCIÓN Y VISUALIZACIÓN Las herramientas digitales que se exponen permiten desarrollar cada una de las fases del periodismo de datos sin necesidad de recurrir a un programador. Son herramientas libres, en el sentido de “Software Libre y de Código Abierto”. Dan respuesta a las siguientes preguntas: ¿Cómo extraigo los datos? ¿Qué métodos utilizo para analizar y mostrar visualmente la información? LA EXTRACCIÓN DE LOS DATOS CONSISTE EN EL ACCESO A LA FUENTE ORIGINAL DE LOS DATOS .
Lo óptimo es acceder a una base de datos de un organismo/institución, o a una serie de ficheros que exportan esa misma información en un fichero estándar: CVS (tabla de campos separada por comas), XML, JSON. En otros casos se tendrá acceso a formatos menos “amigables”, que exigen más esfuerzo de extracción: información en páginas web en formato HTML o ficheros “pdf”, que obligan a un procesado específico con técnicas denominadas scraping (rascado). Sólo en último caso y si la información lo exige, se debería recurrir a la introducción manual de los datos. LA TRANSFORMACIÓN.
Los datos extraídos pueden tener que ser preparados o transformados para ser introducidos en su lugar de almacenamiento, el “almacén de los datos” (Data Warehouse). Por ejemplo, habrá campos de las tablas que no interese almacenar y formatos de los datos que haya que convertir. ALMACENAMIENTO DE DATOS.
Los datos han de ser cargados en una base de datos que actúa como almacén principal. En este almacén de datos se pueden incorporar diferentes fuentes de información para posteriormente, en la fase de procesado, cruzar los datos. PROCESADO DE DATOS.
A partir de los datos conservados en el almacén de datos se preparan distintos procesos para extraer información y conocimiento útil. Este proceso, a gran escala, se denomina “minería de datos”: extracción de información útil (conocimiento) del agregado masivo de datos. VISUALIZACIÓN.
Los datos se presentan mediante representaciones gráficas estáticas e interactivas, acompañadas de artículos periodísticos que los contextualicen.
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
21
HERRAMIENTAS EXTRACCIÓN DE DATOS
PENTAHO DATA (KETTLE)
http://sourceforge.net/projects/pentaho/?source=pdlp Herramienta completa de extracción, transformación y carga de datos. · Cubre los procesos de extracción de los datos, transformación de su formato y carga en su lugar natural de almacenamiento, en una base de datos. · Los procesos se configuran a través de un interfaz gráfico, sin necesidad de programación.
SCRAPERWIKI
https://scraperwiki.com/ Herramienta para extraer datos útiles de archivos PDF (scrapear). · Los periodistas e investigadores pueden scrapear los datos y utilizarlos en otras aplicaciones.
22
· La mayoría de los “scrapers” y sus bases de datos son públicos y pueden ser reutilizados.
HERRAMIENTAS
ALMACENAMIENTO DE DATOS WORDPRESS
http://es.wordpress.com/ Es una aplicación de gestión de contenidos orientada a blogs. Su flexibilidad permite construir aplicaciones web más complejas. · La base de datos que utiliza (MySQL) permite gestionar los datos del blog, la parte de publicación de visualizaciones y artículos periodísticos. · Puede actuar como almacén principal de los datos que se vayan extrayendo (Data Warehouse). Esta parte de la base de datos sólo pueda ser vista por los administradores del blog.
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
HERRAMIENTAS
VISUALIZACIÓN DE DATOS INFOGRAM
http://infogr.am/ Herramienta gratuita para volcar los datos de Excel y visualizar y ordenar el contenido. También puede importar archivos CSV. · Crea infografías interactivas. Gráficos de burbujas, diagramas de árbol, gráficos circulares, etc. · Publica infografías online. Se pueden incrustar en un blog o en un artículo periodístico
GOOGLE FUSION TABLE CARTODB
http://www.google.com/drive/apps.html#fusiontables Elaboración de tablas dinámicas.
http://cartodb.com/
23
Visualiza y analiza datos geoespaciales. Creación de mapas de múltiples capas provocando visualizaciones dinámicas. Georreferenciación por dirección o cualquier región administrativa como condado, estado o país.
MEIPI
http://meipi.org/ Permite crear mapas colaborativos y vincularlo a información generada por los usuarios. En los mapas colaborativos participan los ciudadanos aportando información.
GOOGLE MAPS API
https://www.google.es/maps/ Permite mostrar visualizaciones sobre la cartografía de Google.
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
LO + RECOMENDADO NO DEJES DE LEER…
INTRODUCCIÓN: BIG DATA. PASADO, PRESENTE Y FUTURO TASCÓN, MARIO. INTRO DUCCIÓN: BIG DATA. PASADO, PRESENTE Y FUTURO, TELOS: CUADE RNOS DE COMUNICACIÓN E INNOVACIÓN, Nº 95, JUNIO – SEPTIEMBRE 2013, PÁGS. 47-50. HTTP://SOCIEDADINFORMACION.FUNDACION. TELEFONICA.COM/DYC/T ELOS/REVI STA/DOSSIER/DETALLEA RTCULOTELOS_95TELOS_ DOSSIER0/SECCION=126 6&IDIO MA=ES_ES&ID=20130621 10090002&ACTIVO=6.DO
24
Conocerás conceptos relacionados con Big Data, como Business Intelligence, minería de datos y Open Data. El autor reflexiona sobre las denominadas “3V” de Big Data, la gestión de la privacidad de la información y la dimensión del concepto Big.
ALGUNOS EJEMPLOS FAVORITOS DE PERIODISMO DE DATOS MANUAL DE PERIODISMO DE DATOS, EUROPEAN JOURNALISM CENTRE Y LA OPEN KNOWLEDGE FOUNDATION (OKF), LONDRES, 2011. TRADUCCIÓ N LA NACIÓN DATA. HTTP://INTERACTIVOS. LANACION.COM.AR/MANUALDATA/INTRODUCCI%C3%B 3N_3.HTML
Los periodistas Angélica Peralta, de La Nación (Argentina); Simon Rogers, de The Guardian; Cynthia O’Murchu, de Financial Times; Steve Doig, de la Escuela de Periodismo Walter Cronkite (Arizona); Brian Boyer, de Chicago Tribune, y Sarah Slobin, de Wall Street Journal, colaboradores del Manual de Periodismo de Datos, narran sus ejemplos favoritos de periodismo de datos y qué les gusta de los mismos.
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
NO DEJES DE VER
LA VISUALIZACIÓN INTERACTIVA DE LAS ARMAS PEQUEÑAS AUTORIZADAS POR LOS GOBIERNOS Y LAS TRANSFERENCIAS DE MUNICIONES 1992-2010 Google Creative Lab en colaboración con el Igarape Institute ha creado una visualización interactiva que muestra la tierra con líneas encendidas que indican las importaciones y exportaciones de los países en municiones y armas pequeñas, como revólveres, rifles de asalto y armas automáticas ligeras. La visualización es parte de la iniciativa Google Ideas. Puedes manipularla para hacer acercamientos alrededor del globo, hacer clic sobre los diferentes países y utilizar una línea de tiempo al pie para ver los cambios en tendencias en distintos años. EL GLOBO INTERACTIVO ESTÁ DISPONIBLE EN L A SIGUIENTE DIRECCIÓ N WEB: HTTP://WORKSHOP.CHRO MEEXPERIMENTS.COM/PR OJECTS/ARMSGLOBE/
25 LABORATORIO DE INNOVACIONES AUDIOVISUALES DE TELEVISIÓN ESPAÑOLA En la siguiente imagen se muestra la visualización interactiva37 sobre la situación de la mujer en el mundo que realizaron para conmemorar el Día Internacional de la Mujer en 2012. Se pueden consultar datos sobre mortalidad, número de hijos, edades, alfabetización, etc. EL VÍDEO ESTÁ DISPON IBLE EN LA SIGUIENTE DIRECCIÓN WEB: HTTP://LAB.RTVE.ES/DIA-MUJER/DIA-INTERNACIONAL-MUJER-MUNDO.SHTML
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
+ INFORMACIÓN BIBLIOGRAFÍA
ABAD, Mar. ¿Olvidan los periodistas el potencial del periodismo?, Yorokobu, 8 de noviembre de 2012. http://www.yorokobu.es/peridosimodatos/
ANTÓN, Adolfo. El periodismo de datos y la web semántica, Cuadernos de Información y Comunicación – CIC, Universidad Complutense, vol. 18, 2013, pp. 99-116. http://revistas.ucm.es/index.php/CIYC/article/view/41718/39756
BRADSHAW, Paul. The Inverted Pyramid of data Journalism, Online Journalism Blog, 2011. 26
http://ojournalism.blogspot.com.es/
FERNÁNDEZ, Pablo. Tendencias 2012: Las tres ‘V’ de Big Data, SilicomWeek, 14 de enero de 2012. http://www.siliconweek.es/knowledge-center/tendencias-2012-las-tres-v-de-big-data-17819
FLORES, Jesús. Ecosistema del periodismo de datos, Comunicação & Sociedade, 2012, pp. 7-35. GARRIGA, Marc. El Frankenstein español del Open Data, Telos – Cuadernos de Comunicación e Innovación, nº 94, enero – abril de 2013. http://sociedadinformacion.fundacion.telefonica.com/DYC/TELOS/REVISTA/Dossier/DetalleArtculoTELOS_94 TELOS_DOSSIER3/seccion=1266&idioma=es_ES&id=2013021317580001&activo=6.do
HILBERT, Martin; LÓPEZ, Priscila. La capacidad tecnológica del mundo para almacenar, comunicar y calcular información, Ciencia, vol. 332, nº 6025, 1 de abril de 2011, pp. 60-65. MARIÑO, Ángeles. La relación del Periodismo de Datos con Big Data y Open Data, Trabajo fin de Master en Investigación en Documentación, Facultad de Humanidades, Comunicación y Documentación, Universidad Carlos III, 2012, pág. 44. http://es.scribd.com/doc/111830154/La-relacion-del-Periodismo-de-Datos-con-Big-Data-y-Open-Data
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
Manual de Periodismo de Datos, European Journalism Centre y la Open Knowledge Foundation, Londres, 2011. Traducción La Nación Data. http://interactivos.lanacion.com.ar/manual-data/
PANIAGUA, Soraya. De los datos al Big Data, Telos – Cuadernos de Comunicación e Innovación, nº 95, junio – septiembre de 2013. http://sociedadinformacion.fundacion.telefonica.com/seccion=1266&idioma=es_ES&id=2013062110130001 &activo=6.do
VICENTE, Aida María. Recursos digitales para la investigación: Periodismo de datos, Comunicación y la Red. Nuevas formas de periodismo, Asociación de periodistas de Aragón, Zaragoza, 2013, pág. 334. ZORRAQUÍN, Jorge. El periodismo de datos: periodismo de hoy, periodismo de siempre, Comunicación y la red. Nuevas formas de hacer periodismo, Asociación de Periodistas de Aragón, 2013, pág. 211.
27
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
28
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
BIENVENIDO A UNIR, LA UNIVERSIDAD EN INTERNET Descubre un nuevo concepto de Universidad
de 30 titulaciones oficiales: Grados, presenciales online para que Más Clases Masters, Doctorado asistas en directo o las veas en diferido de 18.000 alumnos de 50 tutor personal a tu disposición Más Un nacionalidades nos avalan desde el primer día práctica pensada de enseñanza eficaz Educación Metodología para la realidad profesional basada en las nuevas tecnologías
Sigue descubriendo todo lo que significa UNIR, una Universidad activa, solidaria, innovadora, emprendedora y, sobre todo, comprometida con tu éxito. 29
Vida académica y social
UNIR Alumni
UNIR TV
Organizamos y formamos parte de grandes eventos: conferencias, seminarios, debates, Tedx UNIR.
El rincón de la comunidad UNIR: alumnos, ex alumnos, profesores, tutores, trabajadores y amigos de la Universidad.
La única Universidad con un canal propio de televisión. Contenido de actualidad: Masterclasses, charlas con expertos, vídeos educativos, idiomas…
UNIR en los medios
Campus Solidario
UNIR Emprende Estamos comprometidos con los emprendedores. Contamos con nuestra propia aceleradora de Startups.
SÍGUENOS:
La Universidad en Internet es Queremos expandir la educación. actualidad y es noticia. Tenemos una Hemos creado un innovador programa relevante presencia en los medios de de voluntariado online para llevar la comunicación: televisión, prensa, enseñanza allí donde se necesita. radio, redes sociales.
902 907 132
WWW.UNIR.NET
UNIVERSIDAD INTERNACIONAL DE LA RIOJA Paseo de la Castellana, 163. 8 pl. - Madrid Tel. 91 5674391 http://www.unir.net
View more...
Comments