Nicolas Kayser-Bril: Messy data – Daten säubern mit OpenRefine

Unterschiedliche Schreibweisen, Abkürzungen oder Zahlenformate, Doubletten, Rechtschreibfehler, überflüssige Leerzeichen, fröhliches Hin und Her zwischen Singular und Plural: “Messy data” ist das täglich Brot des Datenjournalismus. Besonders beim Zusammenführen von Datensätzen aus mehreren Quellen ist das Ergebnis mitunter ein ziemliches Durcheinander. Das weiß der französische Journalist und Programmierer Nicolas Kayser-Bril (Web, Twitter) aus eigener Anschauung, er ist Mitgründer und CEO der Daten-Agentur Journalism++. Im vierten Modul des Online-Kurses “Doing Journalism with Data” schickt er professionelle Reinigungskräfte aufs Feld. Das stärkste Mittel gegen Datenmüll: OpenRefine (ehemals Google Refine).

OpenRefine hilft, Datenchaos zu bereinigen

OpenRefine hilft, Datenchaos zu bereinigen

Weiterlesen →

Steve Doig: Newsroom-Mathematik mit Excel & Co

Angst vor Mathe? Steve Doig (Twitter) ist genau der Richtige, um sie zu zerstreuen. Wenn der Journalismus-Professor von der Arizona State University und Pulitzer-Preisträger in seiner väterlich-ruhigen Art den Unterschied zwischen Durchschnitt und Median erklärt, verstehe sogar ich das.

Wenn Journalisten sich vor Mathematik fürchten, ist das nicht ganz unbegründet. Nur ein Fehler, eine einzige falsche Berechnung kann erheblich an der Glaubwürdigkeit kratzen. Die gute Nachricht: Es braucht eigentlich nur die Grundrechenarten, um über die Runden zu kommen. Das müsste doch selbst für uns Journalisten zu bewältigen sein … Weiterlesen →