Simon Rogers: Datenjournalismus-Grundlagen

“Don’t focus on tools, focus on storys”: Paul Bradshaw, britischer Online-Journalist und Blogger, hat mit dieser freundlichen Mahnung mich gemeint. Ganz bestimmt. Denn ich neige dazu, in meiner Begeisterung für neue Werkzeuge schnell mal die eigentliche Geschichte aus den Augen zu verlieren. Die aber steht auch im Datenjournalismus im Vordergrund und am Anfang eines Projekts. Nett von Paul Bradshaw, mich am Ohr zu ziehen und daran zu erinnern.

Die Krankenschwester Florence Nightingale stellt im 19. Jahrhundert die Todesursachen während des Krimkrieges als Diagramm dar. Nightingale-mortality von w:Florence Nightingale (1820–1910). - http://www.royal.gov.uk/output/Page3943.asp. Lizenziert unter Public domain über Wikimedia Commons.

Die Krankenschwester Florence Nightingale zeigt im 19. Jahrhundert, dass im Krimkrieg die meisten Soldaten an Infektionskrankheiten sterben und nicht an Kriegsverletzungen.
Bild: http://www.royal.gov.uk, lizenziert unter Public domain über Wikimedia Commons.

Er ist einer von fünf renommierten Datenjournalisten, bei denen ich in den vergangen Wochen den Online-Intensivkurs “Doing Journalism with Data: First Steps, Skills and Tools” des European Journalism Centre absolvieren durfte, zusammen mit vielen tausend anderen Teilnehmerinnen und Teilnehmern aus der ganzen Welt. Es war ein MOOC, ein Massive Open Online Course, kostenlos und offen für alle, mit insgesamt 20 Video-Vorträgen in fünf Modulen, jeweils ergänzt durch Zwischentests und sehr rege geführte Forumsdiskussionen, aus denen ebenso viel zu lernen war wie aus den Vorträgen selbst. Der erfolgreiche Abschlusstest wird mit einem Zertifikat belohnt, und ich bin glücklich, meinen letzte Woche bestanden zu haben.

Was ich gelernt habe, will ich hier in einer fünfteiligen Serie aufschreiben. In diesem ersten Teil geht es um die Grundlagen.

Simon Rogers (Twitter), Gründer des Guardian-Datablog, inzwischen Data Editor bei Twitter, übernimmt den ersten Part und erläutert das “Warum, wieso, weshalb” des Datenjournalismus. Rogers ist Autor des Buches “Facts are sacred”, und so mögen zwei Fakten genügen, um die Frage nach dem “Warum” rasch abzuhaken: Es gibt die Daten, und wir haben Werkzeuge, um daraus Geschichten zu machen. Mit Zweifeln daran, ob das Erzählen mit Zahlen überhaupt Journalismus ist, muss man sich eh schon lange nicht mehr aufhalten:

Is data journalism? Is it journalism to publish a raw database? Here, at last, is the definitive, two-part answer:

1. Who cares?

2. I hope my competitors waste their time arguing about this as long as possible.
Adrian Holovaty, Web-Entwickler und Journalist, 2009

Und weil es Journalismus ist, ist journalistisches Handwerk die Grundlage. “For data journalism, the 5 W’s have never been so important”, konstatiert Simon Rogers. Seine fünf W-Fragen im Datenjournalismus:

Woher stammen die Daten? Die wichtigste Frage: “Transparency about the source is critical. Do not blindly trust accuracy of supplied data”.

Was ist die Story? Was willst du anhand dieser Daten erzählen? “Your job is to bridge the gap between the data and the user”. Simon Rogers nennt ein paar Überlegungen, an denen man sich auf der Suche nach einer Datengeschichte entlanghangeln kann:

Is it straightforward? Can you explain it simply to someone who has never heard of this issue before?
Is it newsworthy?
What is the best possible way to tell this story?
How simple can I make this?

Wann wurden die Daten erhoben? Echtzeit oder annähernd Echtzeit wäre natürlich am besten, erfordert aber unter Umständen Programmierkenntnisse (dazu später mehr). Bei offiziellen Daten sollte es der jüngste verfügbare Stand sein.

Wo lassen sich Datensätze lokalisieren und zu neuen Erkenntnissen verbinden? “A key part of data journalism is the ability to ‘mash up’ different datasets to create a new story.” Ein Beispiel aus dem Guardian: Statistiken über Waffenbesitz und Daten über Tötungen durch Waffengewalt werden zu einer Karte verknüpft.

Warum? Die schwierigste Frage von allen. Nackte Zahlen ohne Kontext sagen erstmal nichts darüber, warum etwas ist, wie es ist. Korrelationen sind recht leicht ausfindig zu machen, aber sie müssen nicht zwangsläufig einen Kausalzusammenhang anzeigen. “Data journalism is less good at correlating that data to produce a cause and effect analysis.” Um herauszufinden, was Korrelationen und Auffälligkeiten in Daten wirklich bedeuten, braucht es weitere Recherche und Gespräche mit Fachleuten.

Ergründe die Ausnahmen

John Snows Karte der Cholera-Todesfälle von 1854. Lizenziert unter Public domain über Wikimedia Commons.

Dazu passt die Geschichte von John Snow und der Cholera in London. Neben dem der Krankenschwester Florence Nightingale, die mit ihrem Diagramm der Todesursachen im Krimkrieg (siehe oben) als eine Pionierin des Datenjournalismus gilt, fällt auch sein Name oft, wenn es um frühe Beispiele für Visualisierungen von Daten geht. Der Arzt John Snow trug Mitte des 19. Jahrhunderts Cholera-Todesfälle in einen Londoner Stadtplan ein und machte damit sichtbar, dass sie sich in der Nähe einer Wasserpumpe häuften. Dass mit dieser Korrelation auch die Ursache gefunden war – verunreinigtes Trinkwasser – lag auf der Hand. Doch auf der Karte war noch etwas anderes zu sehen: Ausnahmen. Nicht in allen Häusern rund um die Pumpe starben Menschen. Umgekehrt gab es auch Todesfälle weiter entfernt. Widersprach das nicht der Annahme, die die Datenvisualisierung nahelegte?

Alberto Cairo, dem wir in einem späteren Modul des Kurses noch begegnen werden, wählte in einem hörenswerten Vortrag dieses Beispiel, um vor schnellen Schlussfolgerungen zu warnen: “Wir Journalisten fangen unsere Storys immer mit einer Hypothese an. Wir wollen zeigen, dass A mit B zusammenhängt, oder dass A zu C führt. Wir haben die Geschichte im Kopf, bevor wir anfangen. Wissenschaftler haben eine andere Herangehensweise.”

John Snow ging den Ausnahmen auf den Grund. Er fand heraus, dass Verstorbene, die weiter entfernt von der Pumpe gewohnt hatten, täglich auf dem Weg zu ihrer Arbeitsstelle dort vorbeigekommen waren und davon getrunken hatten. Er stellte fest, dass jene, die in den nahegelegenen Häusern lebten und nicht erkrankt waren, eine eigene Quelle hatten, oder dass sie lieber Schnaps statt Wasser tranken. John Snow klärte die Ausnahmen, nur so konnte er seine Hypothese erhärten. Datenjournalisten sollten genauso vorgehen, rät Alberte Cairo: “Fang nicht mit der Überschrift an. Erkläre erst die Daten, erzähle erst die Geschichte, stelle erst den Kontext dar.”

Erst die Story oder erst die Daten? Egal!

Es gibt nicht die eine, die “richtige” Herangehensweise an Datenstorys. Ob man sich mit einer bestimmten Fragestellung im Kopf auf die Suche nach Daten macht oder aber in einem vorhandenen Datensatz die Geschichte suchen: Jacke wie Hose, finden Simon Rogers und Paul Bradshaw. Entscheidend sei, dass Datenjournalisten wenigstens zwei dieser Fähigkeiten mitbringen:

Recherchieren (die wichtigste Fähigkeit, frisst viel Zeit)
Schreiben (weil Zahlen ohne Kontext eben nur Zahlen sind)
Entwickeln und Programmieren (um die Recherche zu unterstützen und die Daten zu visualisieren)
Designen (um die Visualisierung nutzerfreundlich zu gestalten)

Klingt, als bräuchte Datenjournalismus ein großes Team. Doch von Simon Rogers habe ich die tröstliche Lektion gelernt, dass es nicht auf die Größe ankommt. Auch “lone ranger” wie ich können Datenprojekte stemmen, wenn sie die nötige Zeit und Werkzeuge in die Hand bekommen und sich notfalls externe Unterstützung holen: “Size is not everything, data journalism is about making friends.”

Mein Fazit aus diesem Modul:

Verliere nicht das Wesentliche aus den Augen.

“Doing Journalism with Data”: In dem vom European Journalism Centre ausgerichteten Online-Kurs (läuft noch bis 31.7.2014 Update: Der Kurs ist weiterhin online, allerdings sind die Diskussionsforen nicht mehr aktiv und auch den Abschlusstest kann man nicht mehr machen) sprechen fünf Experten über die ersten Schritte, Fähigkeiten und Werkzeuge des Datenjournalismus. In einer Serie fasse ich zusammen, was ich dort gelernt habe.

Teil 1: Datenjournalismus-Grundlagen mit Simon Rogers

Teil 2: Datenquellen und Scrapingtechniken mit Paul Bradshaw

Teil 3: Excel & Co – Newsroom-Mathematik mit Steve Doig

Teil 4: Messy data – Daten säubern mit Nicolas Kayser-Bril

Teil 5: Visualisierung – Die vier goldenen Regeln mit Alberto Cairo