Blick in die Werkzeugkiste: Offene Daten in R – Teil 3

VeloIm ersten Teil dieser Miniserie über R habe ich einfache Standard-Visualisierungen vorgestellt und Tipps zu Entwicklungsumgebungen gegeben. Der zweite Teil hat dann etwas speziellere Visualisierungen und eine Demonstration einer Datenaggregation in R enthalten. In diesem, dem letzten, Teil möchte ich  nochmals zwei Visualisierungen zeigen: eine thematische Karte und eine derzeit sehr populäre Visualisierung, die sogenannte Heatmap.

Nachdem ich im letzten Blogpost den Wochenrhythmus in den Velozähldaten der Stadt Zürich untersucht habe, fokussieren die heutigen Visualisierungen auf andere Zeitskalen. Die bereits vorgestellten Aggregationsoperationen können natürlich für die Darstellung anderer Zeitperioden als Wochentag angepasst werden.

Thematische Karten

Der nächsten Darstellung liegt der Jahresrhythmus zugrunde. Für die Messung der Saisonalität des Veloverkehrs habe ich (sehr vereinfachend!) den Quotienten aus der Veloanzahl im Juli und jener im Dezember verwendet. Diese einfache Operationalisierung erlaubt mir, auch die Zählstelle an der Langstrasse (LANG) einzubeziehen, denn diese ist erst im Juli 2013 in Betrieb genommen worden.

Den Saisonalitätsfaktor habe ich dann, kombiniert mit der mittleren Anzahl von Velos pro Stunde, wiederum im räumlichen Kontext visualisiert. Die Karte verknüpft proportional skalierte Symbole mit einer Farbgebung, welche die Saisonalität darstellt:

Wie man unschwer erkennt, schwingen die peripher gelegenen Zählstellen an der Andreasstrasse (ANDR) in Schwamendingen und am Mythenquai (MYTH) bezüglich Saisonalität obenaus. Demgegenüber fahren an den Zählstellen Schulstrasse (SCHU) in Oerlikon und Langstrasse (LANG) „nur“ circa doppelt soviele Velofahrende im Sommer vorbei als im Winter. Wegen des geringen Veloaufkommens (rund um die Uhr gemessen durchschnittlich weniger als 5 Velos pro Stunde) ist aber auch klar, dass diese Aussage für die Schulstrasse eher unsicher ist.

Basierend auf diesen Betrachtungen und jenen aus dem zweiten Blogpost kann man also sagen: Die Zählstelle am Mythenquai gibt zwei Hinweise auf starken Freizeitverkehr: aussergewöhnlich hohe Saisonalität bei sehr gleichmässigem Wochenrhythmus. Demgegenüber scheinen zum Beispiel Scheuchzerstrasse (SCHE), Mühlebachstrasse (MUEH) und Sihlpromenade (SIHL) (zu einem etwas geringeren Grad auch die Langstrasse) typische „Pendlerstrecken“ zu sein.

Heatmap

Bei einer Heatmap handelt es sich um eine mit Farben codierte Matrix von Werten.

In meinem Beispiel habe ich den täglichen Verlauf der Aktivität an einzelnen Zählstellen anhand der Stundenmittel richtungsgetrennt visualisiert. (Alle Zählstellen bis auf jene an der Hofwiesenstrasse messen den Veloverkehr in beide Fahrtrichtungen.)

Je intensiver das Grün in einem Zeitabschnitt, desto mehr Velos sind in dieser Stunde an der jeweiligen Zählstelle vorbeigefahren. Mit der Heatmap lassen sich beispielsweise identifizieren:

  • Zählstellen mit ausgeprägten Belastungsspitzen: Die Belastungsspitzen treten morgens von 7–8 Uhr und nachmittags von 17–18 Uhr auf. Es gibt Zählstellen, bei denen beide Fahrtrichtungen morgens und abends Spitzen aufweisen. Andere haben eine Belastungsspitze am Morgen in eine Fahrtrichtung und am Abend in die entgegengesetzte Fahrrichtung. Typisch für diese zweite Gruppe sind zum Beispiel Lux-Guyer-Weg (LUXG), Scheuchzerstrasse (SCHE) oder Sihlpromenade (SIHL).
  • Zählstellen ohne ausgeprägte Belastungsspitzen: Der Verkehr ist über den gesamten Tagesverlauf recht gleichmässig verteilt. Die üblichen Spitzen am Morgen und am Abend sind vergleichsweise gering ausgeprägt. In diese Kategorie gehört zum Beispiel die Schulstrasse (SCHU).

Zählstellen mit sehr ausgeprägten Belastungsspitzen weisen auf einen hohen Anteil Berufspendlerinnen und -pendler im Tagesablauf hin. Die Lage im Verkehrsnetz führt dann zu einer starken Richtungsausprägung am Morgen und/oder am Abend: Bei „Randlagen“ bzw. einem Ring um die Innenstadt (zum Beispiel Mythenquai, Mühlebachstrasse, Sihlpromenade) tritt das morgendliche sogenannte Einpendeln und am Abend das Auspendeln auf, also morgens in die Innenstadt hinein, abends wieder in die umliegenden Quartiere und Vororte.

Bei zentralen Lagen überlagern sich Pendlerwege so, dass Spitzen in beide Richtungen gleichzeitig auftreten können. Meist kommen in zentralen lagen weitere Aktivitäten hinzu (wie Freizeit, Einkauf), welche zu einem insgesamt stärker geglättetem Veloaufkommen über den Tag sorgen.

Interessant ist schliesslich noch die Langstrasse: Dort deutet der zunehmend starke Verkehr am Nachmittag, die gegenüber der Morgenspitze grössere Abendspitze sowie der wahrnehmbare Verkehrsanteil bis nach Mitternacht auf die hohe Bedeutung des Freizeitverkehrs hin.

Trotzdem sind an der Langstrasse noch signifikanten Belastungsspitzen am Morgen und Abend und zwar für beide Fahrtrichtungen zu erkennen. Hier zeigt sich, dass die Langstrasse eben auch eine wichtige Tangentialverbindung zwischen bedeutenden Zürcher Wohn- und Arbeitsquartieren ist, welche in beiden Fahrtrichtungen annähernd gleich grosse Verkehrsströme anzieht.

Fazit

Ich hoffe, ich konnte unterstützt von meinem Kollegen Toralf Dittrich einige interessante Einblicke in den Veloverkehr von Zürich geben. Daneben wollte ich auch aber auch aufzeigen, was alles mit der Software R möglich ist:

  • Import von Daten und Geodaten in zahlreichen Formaten (auch Geodaten)
  • Datenmanipulation: Umklassieren, Säubern, Filtern, Gruppieren, Aggregieren, etc. (auch mit räumlichen Funktionen)
  • Berechnung beschreibender Statistiken: Mittelwert, Median, Standardabweichung, Schiefe einer Verteilung, und vieles mehr
  • Gängige Visualisierungen wie zum Beispiel Balkendiagramme, Liniendiagramme und Karten
  • Spezialisiertere Visualisierungen wie Starplots/Spiderplots, kombinierte Diagramme und Heatmaps

Natürlich ist R als Ganzes noch sehr viel mächtiger und umfasst zum Beispiel Tools zur Klassifikation bzw. Clustering, für Data Mining, Regressionsanalysen, schliessende Statistik, und vieles mehr. Auf diese gehe ich vielleicht mal zu einem anderen Zeitpunkt genauer ein.

Hat die Mini-Serie Ihr Interesse an R geweckt? Ist R das richtige Tool für Ihre Organisation? Möchten Sie gerne eine vertiefte Einführung erhalten? Wie kann R mit Ihren GIS-Tools und Ihren Python-Skripts kombiniert werden? Oder haben Sie eine andere Frage in diesem Zusammenhang? Kontaktieren Sie mich unverbindlich.

 

Ralph Straumann

Ralph Straumann

Ralph Straumann (Dr. sc. nat.) hat an der Universität Zürich Geographie mit Vertiefung in GIS, Wirtschaftsgeographie und Politologie studiert.

Seit 2010 arbeitet er im Tätigkeitsfeld Systemberatung + Analytik von EBP Informatik als Senior Consultant.

Er berät Kunden bei strategischen Fragen, zu Geschäftsprozessen und Organisation sowie bezüglich Quellen, Modellierung, Workflows und Analyse mit verschiedenartigen Daten im Schnittbereich zwischen IT/GIS und Anwendungsfeldern wie Verkehr und Raumplanung.

Mail: ralph.straumann@ebp.ch

Ralph Straumann auf:

Das könnte Dich auch interessieren...

3 Antworten

  1. 14. Oktober 2014

    […] by my esteemed colleague Dr. Ralph Straumann using R in a series of blog posts: Teil 1, Teil 2, Teil 3. We’re not going to go into as much detail here, but let’s see how Python with Pandas […]

  2. 25. Mai 2015

    […] For more information on this topic check these blog posts (1, 2, 3). […]

  3. 14. April 2016

    […] R erarbeitete Analysen und Visualisierungen gezeigt: etwa meine dreiteilige Serie über die Analyse von Velozähldaten mit R und Bence Tasnádys und Nadine Riesers unterhaltsamer dreiteiliger Bericht über die Eulertour mit […]