Wie kann ich Crowdsourcing-Daten nutzen?

Vor einer Woche habe ich meinen Vortrag vom ENERGIC Workshop an der Uni Zürich veröffentlicht. Darin ging es um Crowdsourcing und die Verwendung von Daten aus Crowdsourcing.

Auf ein Beispiel für eine mögliche Nutzung in meinem Vortrag möchte ich hier nochmals etwas vertiefter eingehen: Vor einigen Wochen hat Strava, Vertreiber einer App zur Aufzeichnung von Velo- und Jogging-Routen, eine sogenannte Heatmap der gesammelten GPS-Aufzeichnungen ihrer Nutzerinnen und Nutzer veröffentlicht. Ähnliche Daten wurden in der letzten Zeit auch von anderen Anbietern, zum Beispiel Runkeeper, veröffentlicht.

Wofür können solche Crowdsourcing-Daten nun verwendet werden? Welche Fragen können wir mit ihnen beantworten? Als Beispiel habe ich eine kleine Webkarte gebaut, welche die Strava-Daten mit der Velo-Infrastruktur der Stadt Zürich überlagert (danke, Open Data-Team). Sie können die Karte hier betrachten und mit der Schaltfläche links unterhalb der Zoom-Schaltflächen auf Vollbild umschalten:

Was denken Sie? Ist dieser Vergleich der Velo-Infrastruktur mit den aufgezeichneten Bewegungsdaten eine nützliche Anwendung von Crowdsourcing?
– Ich weiss es nicht.
Die Idee, der Stadt Lücken im Velowegnetz mittels Crowdsourcing-Daten aufzuzeigen, finde ich aus Verkehrssicht und aus Datensicht (und aus Velofahrer-Sicht) auf jeden Fall verlockend! Aber aufgepasst: bei diesem überzeugenden Anwendungsfall stellen sich doch noch einige Fragen und Probleme, zum Beispiel:
  1. Die Strava-Daten umfassen mehrheitlich Velo-Aufzeichnungen (global 77’688’848), aber nicht nur (global 19’660’163 Jogging-Aufzeichnungen).
  2. Wie sicher sind wir, dass Nutzerinnen und Nutzer die Art ihrer Aufzeichnung (Velo vs. Jogging) richtig gewählt haben?
  3. Gibt es Nutzerinnen und Nutzer, die es praktisch finden, mit der Strava-App ihre Autofahrten, Motorradausflüge oder Sonntagsspaziergänge mit dem Hund aufzuzeichnen? Falls ja, unternimmt der Datenprovider Schritte, um die Daten von solchen Aufzeichnungen zu reinigen, zum Beispiel mittels Filterung anhand des Geschwindigkeitsprofils?
  4. Wieviele Nutzerinnen und Nutzer haben ihre Daten beigesteuert: im Raum Zürich, in der Innenstadt, auf einem vielbefahrenen/einem wenig befahrenen Streckenabschnitt?
  5. Gibt es vielbefahrene Routen, deren scheinbare Popularität aber von relativ wenigen, aber sehr enthusiastischen und konsistenten Nutzerinnen und Nutzern herrührt?
  6. Gibt es demgegenüber „demokratisch besser legimitierte“, also durch zahlreiche Personen genutzte vielbefahrene Routen?
  7. Falls wir diese zwei Typen von Routen unterscheiden könnten, welche Informationen würde diese Unterscheidung allenfalls preisgeben?
  8. Welche Aufzeichnungsfehler (zum Beispiel ungenügende GPS-Abdeckung oder GPS-Mehrfachreflexionen in Strassenschluchten bzw. im Wald) sind in den Daten enthalten und wie beeinflussen diese Analysen, welche mit solchen Daten durchgeführt werden können?
  9. Wie ist die zeitliche Verteilung der gesammelten Daten? Wurde ein Grossteil der Daten innerhalb der letzten drei Jahre, des letzten Jahres, der letzten sechs Monate gesammelt? Und wie beeinflusst eine zeitliche Ungleichverteilung die Erkenntnisse aus Analysen der Daten? (Vor drei Jahren wurde beispielsweise geschätzt, dass 10% aller existierenden Fotos in den letzten 12 Monaten gemacht worden sind. Die Schiefe der Verteilung über die Zeit ist beispielsweise bei Flickr ein wohlbekanntes Phänomen.)
Nach etwas Nachdenken kommen Ihnen sicherlich noch einige weitere Fragen in den Sinn. Alle diese Fragen bzw. ihre Antworten haben je nach Analysezweck grosse, gewisse oder gar keine Implikationen*. Einige spannende, obige Fragen ergänzende Ausschnitte der Daten habe ich hier zusammengestellt:

Einige interessante Ausschnitte aus den Strava-Daten in der Stadt Zürich

oben links: plausible Lücke im Bereich des Fahrverbots bei der Tramhaltestelle Sternen Oerlikon (links) und der Fussabdruck der offenen Rennbahn Oerlikon inklusive kleine „Aufwärmrunde“ (rechts).
oben rechts: plausible Verteilung der GPS-Daten im Bereich der Autobahn am Milchbuck (links) und auffallende Punktwolke beim Büchner-Platz der Uni Irchel: ein Mountainbike-Treff? Ausgangspunkt einer Jogging-Gruppe? (rechts)
unten links: vergleichsweise wenig Datenpunkte im Niederdorf (links) und auffallende, allenfalls durch die gewählte Darstellung verursachte/verstärkte Lücken im Bereich des Kunsthauses (rechts)
unten rechts: lineare Strukturen (vermutlich GPS-Artefakte) im Wald nahe des Dolders.
Diese Auffälligkeiten können für eine Anwendung unter Umständen problemlos sein. Eine sehr interessante, diesbezüglich wohl ziemlich robuste Anwendung kommt von Strava selbst: das Matching von grob digitalisierten Routen auf das darunterliegende Wegnetz.
Generell gilt aber: Beim Gebrauch von Daten aus Crowdsourcing ist Umsicht geboten und man sollte sich von tollen Visualisierungen nicht vorschnell vereinnahmen lassen. Vor dem Einsatz von Crowdsourcing gilt es immer, einige Fragen mit Sachverständigen seriös abzuklären!
Grundsätzlich ist es am besten, eine möglichst umfassende Kontrolle über den Entstehungsprozess der Daten zu haben. Bezieht man Daten von einem Anbieter, ist es äusserst wichtig, über die Prozessierung der Daten (zum Beispiel Stichprobennahme, Filterung, Entfernung von ‚Fehlern‘, Aufbereitungsschritte, etc.) möglichst genau Bescheid zu wissen. Nur so kann der potenzielle Nutzen der Daten vor dem Hintergrund der beabsichtigten Verwendung seriös abgeschätzt werden.
Beachtet man diese Hinweise, steht meiner Meinung nach einer erfolgreichen Anwendung von Crowdsourcing-Daten nicht mehr viel im Wege.

Ergänzende Lektüre: Timo Grossenbacher diskutiert die Repräsentativität von Crowdsourcing-Daten in seiner Master-Arbeit bzw. in diesem sehr interessanten Blogpost (beide englisch).

Einige Tage nach meinem Blogpost hat Patrick Traughber den folgenden Vergleich von Strava-Daten mit Human.co-Daten auf Twitter gepostet und damit eine interessante Diskussion eröffnet.


* Strava erwähnt auch, dass für manche Analysen tiefergehende Daten nötig sind, und bietet unter dem Namen Metro anonymisierte Rohdaten für solche speziellen Analysen an.

Ralph Straumann

Ralph Straumann

Ralph Straumann (Dr. sc. nat.) hat an der Universität Zürich Geographie mit Vertiefung in GIS, Wirtschaftsgeographie und Politologie studiert.

Seit 2010 arbeitet er im Tätigkeitsfeld Systemberatung + Analytik von EBP Informatik als Senior Consultant.

Er berät Kunden bei strategischen Fragen, zu Geschäftsprozessen und Organisation sowie bezüglich Quellen, Modellierung, Workflows und Analyse mit verschiedenartigen Daten im Schnittbereich zwischen IT/GIS und Anwendungsfeldern wie Verkehr und Raumplanung.

Mail: ralph.straumann@ebp.ch

Ralph Straumann auf:

Das könnte Dich auch interessieren...

2 Antworten

  1. Robert Dorbritz sagt:

    Danke für diesen spannenden Beitrag. Er findet Beachtung 🙂

  2. Ralph Straumann Ralph Straumann sagt:

    Vielen Dank! Darf ich fragen, wo?

    Daten aus Crowdsourcing und modernen App-Plattformen sind auf jeden Fall interessant. Aber vor der Nutzung sollte man die aufgeworfenen Fragen (und noch einige mehr!) auf jeden Fall gut abklären lassen.