Unterschiedliche Schreibweisen, Abkürzungen oder Zahlenformate, Doubletten, Rechtschreibfehler, überflüssige Leerzeichen, fröhliches Hin und Her zwischen Singular und Plural: “Messy data” ist das täglich Brot des Datenjournalismus. Besonders beim Zusammenführen von Datensätzen aus mehreren Quellen ist das Ergebnis mitunter ein ziemliches Durcheinander. Das weiß der französische Journalist und Programmierer Nicolas Kayser-Bril (Web, Twitter) aus eigener Anschauung, er ist Mitgründer und CEO der Daten-Agentur Journalism++. Im vierten Modul des Online-Kurses “Doing Journalism with Data” schickt er professionelle Reinigungskräfte aufs Feld. Das stärkste Mittel gegen Datenmüll: OpenRefine (ehemals Google Refine).
29. Juli 2014