Angst vor Mathe? Steve Doig (Twitter) ist genau der Richtige, um sie zu zerstreuen. Wenn der Journalismus-Professor von der Arizona State University und Pulitzer-Preisträger in seiner väterlich-ruhigen Art den Unterschied zwischen Durchschnitt und Median erklärt, verstehe sogar ich das.
Wenn Journalisten sich vor Mathematik fürchten, ist das nicht ganz unbegründet. Nur ein Fehler, eine einzige falsche Berechnung kann erheblich an der Glaubwürdigkeit kratzen. Die gute Nachricht: Es braucht eigentlich nur die Grundrechenarten, um über die Runden zu kommen. Das müsste doch selbst für uns Journalisten zu bewältigen sein …
Vieles von dem, was Steve Doig in diesem Modul über Funktionen und Formeln in Tabellenkalkulationsprogrammen wie Excel oder Openoffice Cal sagt, kenne ich bereits aus einem früheren Workshop mit Christina Elmer bei Zeit online. Eine Herausforderung bleibt das Jonglieren und Kalkulieren mit Zahlentabellen für mich dennoch. Mit diesem Modul, dem dritten des Online-Kurses Doing Journalism with Data, bin ich ein wenig sicherer geworden – nicht zuletzt, weil Steve Doig uns viele Übungen mit einem Datensatz aus der imaginären Welt Datamania machen ließ.
Hier notiere ich mal ein paar grundlegende OpenOffice-Formeln und Funktionen zum Nachschlagen. Weil ich sowas selbst gerne vergesse, wenn ich nicht täglich damit zu tun habe.
(um auch beim Scrollen durch größere Datensätze die Basis-Informationen nicht aus den Augen zu verlieren): Die Zelle nach der “einzufrierenden” Zelle ansteuern (z.B. A2) -> Fenster -> Fixieren.
Die erste/letzte Zeile Ende der Tabelle ansteuern:
CMD/CTRL plus Pfeil nach oben/unten
Die erste/letzte Spalte der Tabelle ansteuern:
CMD/CTRL plus Pfeil nach rechts/links
Spalte/Zeile oder Zelle markieren -> Format -> Zellen. Auswahl “Zahl”, Option “Tausenderpunkt”.
An dieser Stelle finden sich weitere Formatierungsmöglichkeiten, die die Übersicht verbessern, beispielsweise “Negativ in rot” darstellen.
Cursor in der fraglichen Spalten platzieren -> Sortieren (A-Z für aufsteigend, Z-A für absteigend)
Sortieren mehrerer Variablen:
Daten -> Sortieren -> Auswahl der Spalten, nach denen zuerst und anschließend sortiert werden soll.
Filtern:
Daten -> Autofilter -> blendet Filteroptionen für alle Spalten ein.
“Standardfilter” verknüpft mehrere Filterkriterien.
Eine Formel auf mehrere Zellen anwenden:
Doppelklick auf oder Ziehen an der rechten unteren Ecke der Zelle, die die Formel enthält
Variablen addieren:
=SUMME(Zellenname1+Zellenname2) (addiert zwei Zellenwerte)
=SUMME(Zellenname1:Zellenname2) (addiert “von – bis”)
Prozentsatz mehrerer Variablen:
Teilsumme durch Gesamtsumme teilen: =Zellenname1/Zellenname2
Ergebnis in Prozent: =Zellenname1/Zellenname2*100 oder Format -> Zellen -> Zahlen -> Prozent
Durchschnittlichen Prozentwert errechnen:
Prozentwerte nicht addieren, sondern Prozentformel kopieren.
Häufigkeitszahl: Fälle/Bevölkerung * Einheit (z.B.100.000, also Anzahl der Fälle pro 100.000 Einwohner)
Zeiträume berechnen:
Anzahl von Tagen zwischen zwei Daten: =Zellenname Enddatum-Zellenname Anfangsdatum
Beispiel: =D2-C2
Ergebnis umrechnen auf Jahre: =(Zellenname Enddatum-Zellenname Anfangsdatum)/durchschnittliche Anzahl der Tage pro Jahr
Beispiel: =(D2-C2)/365,25
Durchschnitt und Median:
=MITTELWERT(Zellenname1:Zellenname2)
=MEDIAN(Zellenname1:Zellenname2)
Geschichten durch Sortieren finden
Wie findet man nun Ansätze für Datenstorys? Steve Doig rät: Sortiere jeden Wert, den du errechnet hast, schau nach, ob es auffällige Abweichungen gibt – und frag dich (und die Fachleute), warum das so ist.
Abweichungen vom Durchschnitt, ungleiche Verteilungen, die höchste und die niedrigste Zahl – anhand solcher Fragestellungen lässt sich ein Datensatz nach Geschichten durchkämmen. Beim Vergleich von Variablen verschiedener Größe, also etwa von Städten mit unterschiedlich hoher Bevölkerungszahl, ist die Häufigkeitszahl wichtig. Sie macht Daten oft erst vergleichbar. Wenn ich mir alljährlich vom Bundeskriminalamt die Zahlen zur Kriminalität in deutschen Städten geben lasse, bitte ich immer auch um die Zahl der Fälle pro 100.000 Einwohner. Nur anhand dieser Häufigkeitszahl wird ersichtlich, ob Köln tatsächlich gefährlicher ist als Frankfurt (was der Fall ist). Hat man einen Datensatz mit absoluten Zahlen und Angaben zur Bevölkerung, kann man sich die Häufigkeitszahl selbst ausrechnen (siehe Box oben). Aber oft kann man sich das sparen, wenn man zum Telefon greift, denn die Behörden haben diese Kalkulation zumeist bereits erledigt. ;)
Median und Mittelwert
Was ich noch gelernt habe: Der Median ist keineswegs der Mittelwert (im Sinne von Durchschnitt), sondern der mittlere in einer Liste von Werten. Beim Vergleich von Einkommensverhältnissen beispielsweise kann der Blick auf den Median sinnvoller sein als auf den Durchschnitt: Das mittlere Einkommen ist unter Umständen aussagekräftiger als das durchschnittliche Einkommen, das sich durch extreme Werte im oberen oder unteren Bereich entsprechend verschiebt.
Abheben mit dem Datenpiloten
Eine Funktion, die ich ganz besonders mag, heißt in Excel “Pivot”, in OpenOffice “Datenpilot”: Sie hilft, wenn ich auch einem großen Datensatz nur einige bestimmte Bestandtteile sehen, mir also schnell eine neue Tabelle aus Teilen der Gesamttabelle zusammenstellen will. Wie das geht (und welche Fallstricke es geben kann), zeigt dieses Turorial:
https://www.youtube.com/watch?v=jpLN5P9zx9A
Weiterführende Links:
School of Data: Sortieren und Filtern
Video: Openoffice Calc Tutorial
Steve Doig: Die wichtigsten Excel-Formeln auf einen Blick (pdf)
Mein Fazit aus diesem Modul:
Lieber zweimal nachrechnen!
Teil 1: Datenjournalismus-Grundlagen mit Simon Rogers
Teil 2: Datenquellen und Scrapingtechniken mit Paul Bradshaw
Teil 3: Excel & Co – Newsroom-Mathematik mit Steve Doig
Teil 4: Messy data – Daten säubern mit Nicolas Kayser-Bril
Teil 5: Visualisierung – Die vier goldenen Regeln mit Alberto Cairo