Pedestrian Reachability Analysis for Hyperlocal Marketing

Since 2013, EBP has been developing and refining Walkalytics, an approach to data analytics for business-relevant questions regarding pedestrian mobility. At the heart of the approach lie isochrones, which are calculated for every square meter of an area-of-interest. In the early stages, we successfully applied Walkalytics mainly in urban and transportation planning. In this blog post, however, I want to demonstrate how Walkalytics can help you in geomarketing on very small scales.

Example 1: Narrow the audience of a direct mailing campaign

As a first example, let’s assume you are big transportation agency with a large customer database that also features a postal address for each of your customers. Let’s further assume you want to send some customers a special offer by mail – but only to the segment of customers who are most likely to accept your offer. In other words, you want to narrow your target audience, if only to save printing and postage costs. A sensible criterion to optimize your campaign’s target audience could be the time that customers take to reach the next transit stop (or any other customer contact point of your liking) on foot.

With Walkalytics, we have the solution to your task: We’ve taken all Swiss addresses from the federal register of buildings and calculated the walking time from each address point to the closest transit stop. You can use this massive dataset to narrow the segment of customers that will be targeted in your campaign. You don’t even have to ask your in-house geodata expert to help you with your filtering: everything is done directly in your customer database based on our augmentation of your CRM data!

General Post Office mail sorting room, Wellington (source Archive New Zealand)

Example 2: Find the optimal location for your customer contact points

Let’s assume you are a manager in a retail company which wants to find the optimal locations of new service points. As you have a business with lots of walk-in customers (i.e. pedestrians), this means you want to find locations that serve many non- or under-served people within a sensible walking distance or time – say within 5 minutes walking time.

For addressing this need, we took advantage of another government data set: The population and household statistics (STATPOP) and the business demography statistics (STATENT) have a number of indicators that are measured in 100×100 meter units all over Switzerland. For each of the effectively 360,000 units, we calculated a walking isochrone and aggregated relevant indicators such as the reachable residential population or reachable number of, e.g., third sector employees. After completion of our analysis, we know for each 100×100 meter square in Switzerland how many people can reach this location within 5, 10 or 15 minutes of walking. Since your business relies on walk-in customers, this informs your choice of where to open your next service point(s).

Workforce reachable within 5 minutes of walking, in Geneva. Red=high number of people reached, blue=low number.
Residential population reachable within 5 minutes of walking, in Geneva (red=high, blue=low).

Did these examples whet your appetite for geo-augmenting your customer and site data? Are you, for example, interested in filtering your customer database according to the reachibility of your service points? Do you want to optimize locations based on socio-economic statistics? Let’s have a talk, e.g. during GEOSummit in Bern or online using e-mail or Twitter!

Mobilität und Erreichbarkeit: Business und Location Intelligence

Mobilität wird immer wichtiger: Pendeln zur Arbeit, Einkaufen, Ausflüge oder Besuche bei Freunden. Nicht nur für Privatpersonen sondern auch für Firmen ist die Mobilität und damit zusammenhängend die Erschliessung ein wichtiges Kriterium in vielen Fragestellungen.

Wo soll das Filialnetz verdichtet werden? Wo sollten wir unsere Standorte konsolidieren? Welche Anreize sollten wir setzen, damit unsere Mitarbeitenden möglichst per ÖV pendeln? Soll der Firmensitz eher in Aadorf oder in Bedorf zu liegen kommen? Wo erreichen wir unsere bestehenden Kundinnen und Kunden am besten? Wo finden wir neue Kundschaft? Und wo sind wir in Reichweite der meisten qualifizierten Arbeitnehmenden für unser Geschäft? Alle diese Fragen und noch mehr können wir mit unserer Expertise in den Themen Datenanalyse, Geoinformationssysteme und Mobilität beantworten.

Mit unseren Datengrundlagen und geeigneten Services können wir Fahrzeiten (MIV oder ÖV) und Gehzeiten zwischen Standorten bestimmen, im sogenannt belasteten Netz (d.h. mit dem zu erwartenden Verkehr) oder im Idealzustand. Für Gehzeiten benutzen wir unseren bewährten Walkalytics-Ansatz, der sich auf der ganzen Welt einsetzen lässt (falls Sie damit noch nicht vertraut sind: www.walkalytics.com bzw. unsere Blogposts zum Thema geben Ihnen vertieften Einblick).

Das pulsierende Herz des Wirtschaftsmotors: Die über den Tagesverlauf animierten MIV-Isochronen (15, 30, 45 und 60 Minuten) von Zürich

Basierend auf Wegzeiten können Gebiete gleicher Fahrzeit, sogenannte Isochronen, ermittelt werden. Im Bild oben sind hell- bis dunkelrot Gebiete abgebildet, die von der Quaibrücke in Zürich mit dem Auto innert 15, 30, 45 und 60 Minuten erreicht werden können. Die Animation zeigt, wie sich die erreichbaren Gebiete über den Tagesverlauf wegen der unterschiedlichen Verkehrsverhältnisse verändern.

Natürlich können wir mit unseren Geoinformationstools noch weitergehende Analysen durchführen – zum Beispiel:

  • Mit Daten aus Ihrem CRM-System können wir die Anzahl bestehender Kunden oder potenzieller Kunden ermitteln, die Sie innert einer gewissen Zeit erreichen können bzw. die Ihren Standort erreichen können. Potenzielle Kunden können z.B. Personen sein, die wichtige Merkmale Ihrer bestehenden Kunden teilen.
  • Wenn Sie von einem Filialnetz aus verschiedene Kundenstandorte (z.B. Liegenschaften im Fall einer Immobilienverwaltung) betreuen, können wir die optimale Zuordnung von Kundenstandorten zu Ihren Filialen ermitteln.
  • Wir können Verkehrsmittel miteinander vergleichen zur Minimierung der Reisezeit Ihrer Aussendienstmitarbeitenden oder zur Verbesserung der Umweltfreundlichkeit des Pendelverkehrs Ihrer Mitarbeitenden.
  • Schliesslich können wir Expansionsplanungen, Standorteröffnungen oder -verschiebungen dahingehend untersuchen, ob sie Ihr Kunden- und Arbeitskräftepotenzial optimal nutzen (das Beispiel rechts zeigt die Anzahl der innerhalb einer gewissen Zeit erreichbaren 25- bis 29-Jährigen).

Haben wir Sie neugierig gemacht? Gerne beraten wir Sie unverbindlich bezüglich Ihrer Fragestellungen.

Analytik in smarten Systemen

Die vier Analytiklevels smarter Systeme, nach Gartner (CC-BY-NC www.ebp.ch)

Begriffe wie Smart City, Smart Infrastructure und Smart Systems deuten darauf hin: Mit dem Internet der Dinge (Internet of Things, IoT), Industrie 4.0, Politik 4.0 und Verwaltung 4.0 beginnt eine neue Ära von Verfahren und Algorithmen mit Fokus auf heterogene Daten und neuartige Fragestellungen. Wodurch zeichnen sich jedoch diese «neuen» Analytikfunktionen aus?

Die Beratungsfirma Gartner hat ein Analytik-Reifegradmodell erarbeitet, das sich für die Beschreibung unterschiedlicher Analytiklevels eignet. Der Begriff «Reifegradmodell» enthält natürlich eine Wertung. Unserer Ansicht nach sind aber die weniger komplexen Analytiklevels nicht in jedem Fall weniger wertvoll als die komplexeren. Die komplexeren Analytiklevels werden durch die Anwendung spezieller Verfahren ermöglicht: Beispiele sind Simulation, Trendextrapolation, Machine Learning-Ansätze und Neuronale Netzwerke.

Die vier Analytiklevels smarter Systeme, nach Gartner (CC-BY-NC www.ebp.ch)
Die vier Analytiklevels smarter Systeme, nach Gartner (CC-BY-NC www.ebp.ch)

Folgende Analytiklevels können in intelligenten Systemen unterschieden werden:

Deskriptive Analytik (Descriptive Analytics)

Die deskriptive Analytik umfasst die Beschreibung von Zuständen und Ereignissen. Mit den Mitteln der deskriptiven Statistik und Informationsvisualisierung beantwortet sie die Frage: «Was ist wann / wo / wie geschehen?». Ein Beispiel von deskriptiver Analytik anhand eines Fahrzeugs wäre die statistisch-beschreibende Auswertung von Daten eines Fahrtenschreibers: Wie lange fuhr das Fahrzeug? Mit welcher Durchschnittsgeschwindigkeit?

Diagnostische Analytik (Diagnostic Analytics)

Die diagnostische Analytik geht über die deskriptive Analytik hinaus und fragt nach den Gründen (kausalen Zusammenhängen) hinter einem Zustand oder Ereignis. Sie beantwortet damit die Frage «Weshalb ist (…) geschehen?». Dazu nutzt sie kausalitätsaufspürende Verfahren. Statistische Korrelationsanalysen können dafür ein Ausgangspunkt sein – allerdings müssen Scheinkorrelationen (aufgrund von Mediatorvariablen bzw. confounding variables) ausgeschlossen werden können und der zeitliche Verlauf zwischen Ursache und Ereignis richtig sein. Im Fahrzeug-Beispiel gedacht könnte eine diagnostische Analyse der Frage nach den Gründen eines Motorschadens oder eines Unfalls nachgehen.

Prädiktive Analytik (Predictive Analytics)

Die prädiktive Analytik macht basierend auf Messungen oder Beobachtungen Vorhersagen zu zukünftigen Zuständen eines untersuchten Systems oder Ereignissen im System. Dadurch beantwortet Sie Fragen wie «Was wird wann / wo / wie geschehen?». Sie hilft damit direkt, Entwicklungen zu antizipieren und allenfalls entsprechende Massnahmen zu entwerfen. Ein einfaches Beispiel prädiktiver Analytik wäre ein System, dass Fahrzeuginsassen bei bevorstehendem Spurwechsel vor einer möglichen Kollision mit einem von hinten schnell nahenden anderen Fahrzeug warnt.

Präskriptive Analytik (Prescriptive Analytics)

Die präskriptive Analytik geht noch einen Schritt weiter als die prädiktive: Sie versucht, aus vorhergesehenen Zuständen bzw. Ereignissen direkt Handlungsanweisungen abzuleiten, um einen gewünschten Zielzustand des untersuchten Systems zu erreichen. Sie beantwortet also die Frage «Was muss ich wann / wo / wie tun, um den Systemzustand x zu erreichen?».

Bei der präskriptiven Analytik können zwei Untertypen unterschieden werden: Bei der Entscheidungsunterstützung formuliert die Analyse Empfehlungen, die dann von Menschen beurteilt und entweder zur Anwendung empfohlen oder verworfen werden. Bei der Entscheidungsautomatisierung ist auch das Anwenden der algorithmisch abgeleiteten Entscheidung dem System überlassen. Hier misst oder beobachtet ein smartes System also seine Umwelt, analysiert diese bezüglich von Menschen definierten Zielwerten und setzt automatisch Entscheidungen um. Diese Kategorie wird manchmal auch normative Analytik genannt.

Ein einfaches Beispiel für die Entscheidungsautomatisierung ist ein Spur- und Abstandsautomat in einem Fahrzeug, der zur Vermeidung von Kollisionen selbständig Lenk- und Bremsbefehle an die Fahrzeugsteuerung sendet. Ein Beispiel für Entscheidungsunterstützung wäre ein ähnliches System, bei dem aber «nur» Warnleuchten im Fahrzeugcockpit aufleuchten und die Entscheidung zu lenken oder zu bremsen weiterhin der Fahrerin oder dem Fahrer überlassen bleibt.

Welche Analytiklevels unterstützen Ihre Erhebungs- oder Messmethodik, Ihre Dateninfrastruktur, Ihre Softwareumgebung und Ihre Organisation? Welcher Analytiklevel ist für welche Ihrer Fragestellungen der richtige? Was ist der Nutzen und wie kann dieser möglichst effizient realisiert werden? Mit solchen Fragen dürfen Sie sich gerne an uns wenden.

Modernes Wissensmanagement

In unserer scheinbar immer schnelleren Wissensgesellschaft wird die Aufnahme von Information, Lernen und das Umsetzen von Wissen immer wichtiger. Zu diesem Thema lese ich manchmal Beiträge über die Personal Knowledge Mastery (PKM)-Konzepte von Harold Jarche. In diesem Blogpost möchte ich kurz auf Wissensmanagement generell und als Beispiel auf das PKM-Konzept eingehen.

Wieso Wissensmanagement?

Wissensmanagement bezeichnet die positive Beeinflussung der Wissensbasis einer Person oder einer Organisation. Im Fall einer Person spricht man auch vom „persönlichen Wissensmanagement“, im zweiten Fall vom „organisatorischen Wissensmanagement“.

Wissen soll nicht in Karteikästchen verschwinden

Wissen ist zunehmend ein wichtiger Produktionsfaktor. Das organisatorische Wissensmanagement kümmert sich deshalb darum, das individuelle Wissen, das in einer Firma, Behörde, Verwaltung oder Verein bei den einzelnen Personen vorhanden ist, nachhaltig in der Organisation zu verankern. Dabei wird oft zwischen explizitem und implizitem Wissen unterschieden – die unterschiedlich angegangen werden müssen:

  • Explizites Wissen ist niedergeschrieben bzw. kann niedergeschrieben werden, beispielsweise in Handbüchern oder Handlungsanweisungen. Hier muss Wissensmanagement geeignete Prozesse und Verantwortlichkeiten definieren und Gefässe finden für das Festhalten von Wissen (people-to-document), um so zum Beispiel Gatekeeping (dass eine Information nur bei einer Person vorhanden ist und diese bei Bedarf stets danach gefragt werden muss) möglichst zu minimieren.
  • Implizites Wissen ist Wissen, das nicht (richtig) verbal vermittelt werden kann (auch: tacit knowledge, also stilles Wissen). Gute Beispiele sind das Wissen, wie man velofährt oder wie man Schuhe schnürt. Die Methoden für explizites Wissen können bei implizitem Wissen nicht greifen. Hier geht es stattdessen häufig darum, die richtigen Massnahmen zu finden, um zwischenmenschliche Lernprozesse zu fördern (people-to-people).

Grundlegender Baustein: Persönliches Wissensmanagement

Das persönliche Wissensmanagement steht unterhalb der systemischen Sicht der Organisation. Es ist aber natürlich notwendige Voraussetzung für gelungenes organisatorisches Wissensmanagement. Besonders klar wird dies gerade anhand des bereits erwähnten PKM-Konzepts von Harold Jarche. Er definiert PKM als „a set of processes (…) to help each of us make sense of our world and work more effectively.“

Ein wichtiger Baustein dieses Konzepts ist das Framework Seek > Sense > Share:

Seeking is finding things out and keeping up to date. Building a network of colleagues is helpful in this regard. It not only allows us to “pull” information, but also have it “pushed” to us by trusted sources. Good curators are valued members of knowledge networks.

Sensing is how we personalize information and use it. Sensing includes reflection and putting into practice what we have learned. Often it requires experimentation, as we learn best by doing.

Sharing includes exchanging resources, ideas, and experiences with our networks as well as collaborating with our colleagues.

Betrachten wir persönliches Wissensmanagement durch diese Brille, ist es keine rein individuelle Aufgabe: Für Seeking benötigen wir gute soziale Netzwerke (reale und virtuelle) – also Netzwerke, die beim Lernen für Aufgaben unterstützen. Aus einem gut kuratierten Netzwerk kann eine Person wertvolle Informationen selber extrahieren (Pull-Prinzip) aber auch erhalten, etwa wenn ein Partner im Netzwerk die Person auf etwas aufmerksam macht, das für diese relevant ist (Push-Prinzip). Gutes persönliches Wissensmanagement braucht also gute soziale Vernetzung.

Sensing umfasst die Verinnerlichung, Reflexion und Anwendung von neu erschlossenem Wissen. Dieser Prozess benötigt Zeit, Freiräume und Gelegenheiten, das Wissen anzuwenden. Auch Sensing kann neben der individuellen Ebene eine soziale Dimension haben: Reflexion und Beüben neu erworbenen Wissens können zum Beispiel im Team geschehen.

Sharing bezeichnet die Weitergabe und den Austausch von Ressourcen rund um Wissen und bildet den Abschluss des Frameworks. Auch beim Sharing ist die Einbettung des Wissensmanagements und des Lernens in soziale Strukturen wieder wichtig. Hier wird Wissen im Austausch mit anderen gefestigt, und man lernt neue Sichtweisen, Ideen und Ressourcen kennen.

Hin zur intelligenten Organisation

Gemäss Harold Jarche sind die Schritte Seeking, Sensing und Sharing besonders in innovativen interdisziplinären Settings (wie zum Beispiel EBP eines ist) besonders wichtig:

The multiple pieces of information that we capture and share can increase the frequency of serendipitous connections, especially across organizations and disciplines where real innovation happens.

Aus diesen Betrachtungen lassen sich zum Beispiel entlang der folgenden Fragen Handlungsempfehlungen für intelligente Organisationen oder solche, die es werden wollen, erarbeiten (hier mit einem technischen Fokus):

  • Wie kann eine Organisation das organisatorische und das persönliche Wissensmanagement gewinnbringend miteinander verknüpfen? Wie kann eine Organisation das persönliche Wissensmanagement der Mitarbeiterinnen und Mitarbeiter fördern und so die Grundvoraussetzungen für ein effizientes und effektives Organisations-Wissensmanagement legen?
  • Welche Tools gibt es, die beim organisatorischen und persönlichen Wissensmanagement (z.B. mit dem Modell Seeking, Sensing, Sharing) unterstützen können? Wäre zum Beispiel Slack für meine Organisation gut geeignet? Weshalb nicht bzw. weshalb? Für welche Anwendungen, Informationen und Rollen in der Organisation?
  • Wie setze ich diese Tools passend zum jeweiligen Wissen und Kontext ein? Welches Wissen kann ich Zeitschriften, Fachtagungen oder Expertengesprächen entnehmen? Welche anderen Kanäle sind für meine Organisation, meine Aufgabe, mein Fachgebiet relevant?
  • Welches Wissen und welche Erfahrungen teile ich beispielsweise in einem Enterprise Social Network wie Yammer? Worüber schreibe ich einen Artikel in der internen Zeitschrift oder im internen Wiki? Was teile ich mit einer Fachgruppe auf LinkedIn, Xing oder einem anderen virtuellen sozialen Netzwerk? Worüber spreche ich mit Kolleginnen und Kollegen im Rahmen eines Erfahrungsaustauschs?

Allesamt spannende Fragen, die sich in unserer Zeit alle Organisation stellen sollten. Falls Sie sich für diese Themen interessieren, unterstützen wir Sie gerne.

e-geo-Interview mit Ralph Straumann: «Data Literacy ist eine grosse Herausforderung»

Mit dem letzten Newsletter schloss das Impulsprogramm e-geo.ch Anfang November 2016 seine Tätigkeiten ab. Ralph Straumann, Projektleiter in unserem Tätigkeitsfeld Systemberatung + Analytik wurde in diesem letzten, dem 28. Newsletter von e-geo.ch neben anderen GIS-Exponentinnen und -Exponenten interviewt. Das Interview dreht sich rund um unsere innovativen Themen: Data Science, die Zukunft von GIS und die digitale Transformation.

e-geo.ch und die NGDI. Bildquelle: e-geo.ch
e-geo.ch und die NGDI. Bildquelle: e-geo.ch

Personen in der Geoinformationsbranche ist e-geo.ch ein Begriff. Für alle anderen paraphrasiere ich aus der Newsletter-Einleitung von Christian Kaul: e-geo.ch war seit 2003 das Programm zur Förderung des Aufbaus einer Nationalen Geodaten-Infrastruktur (NGDI). Die Trägerorganisationen von e-geo.ch waren der Bund, die Kantone und die SOGI. Mit der neuen Geoinformationsgesetzgebung auf Stufe Bund (GeoIG) wurde 2008 ein grosser Meilenstein erreicht. Ab 2011 rückten dann Umsetzungsfragen zwischen Bund und Kantonen in den Fokus. Im Austausch zwischen den Trägerorganisationen zeigte sich dann ab Januar 2015, dass e-geo.ch zwar viel erreicht hat aber für die Umsetzung ein neuer Rahmen gesucht werden soll.

Der letzte e-geo-Newsletter bietet einen Rückblick in die „Pionierzeit“ und auf verschiedene Highlights des Impulsprogramms. Er zeigt aber auch aktuelle Herausforderungen der Geoinformation und fragt: Was kommt danach? Verschiedene Fachleute geben ihre Einschätzungen ab zu spannenden Visionen und Trends der Branche. Der Text aus dem Interview mit Ralph Straumann:

«Data Literacy ist eine grosse Herausforderung»

Das BAKOM nennt in einer Studie vier grosse Trends, die auch für die Geoinformation relevant sind, nämlich Information, Cloud, Mobile und Social. Wir alle produzieren immer mehr Daten, schon allein, weil wir mit dem Smartphone herumlaufen. Wir nutzen aber auch immer mehr Informationen in der einen oder anderen Form. Das wird ermöglicht durch die Cloud und ihre skalierbare Rechnerleistung. «Mobile» ist ein Trend, weil immer mehr Internetnutzung über das Handy läuft, und «Social» steht für die Netzwerke, wo man sich miteinander austauscht. Diese vier Trends gelten natürlich nicht nur für GIS, aber an ihnen kann man recht viel fest machen, was im Moment passiert.

Niederschwelligere Angebote

Weiter stelle ich fest, dass unser Feld sich öffnet. Es gibt neue Werkzeuge, die das Arbeiten mit Geodaten viel weniger exklusiv machen. Früher hatte man die grossen, teuren GIS-Systeme. Dazu gibt es heute Alternativen, kommerzielle und freie. Diese Entwicklung wird unter anderem vorangetrieben durch den Datenjournalismus, der in den letzten Jahren aufgekommen ist und auch häufig mit Karten zu tun hat. Aus dieser Richtung kommen viele neue Herangehensweisen von Leuten, die nicht so in den Paradigmen drin sind wie wir GIS-Leute. Das finde ich spannend, und das meine ich, wenn ich von «Mainstreaming» und «Consumerisation» spreche.

Geomorphometrie: Valleyness im Tessin (Straumann, 2010)

Komplexe Datenwissenschaft

Als Trend sehe ich auch die «Data Science», die Datenwissenschaft, die seit ein paar Jahren immer mehr in den Vordergrund tritt und in der wir bei EBP auch aktiv sind. Das Ziel der «Data Science» ist, mit den umfangreich anfallenden Daten Prozesse und Strukturen zu optimieren. Ein klassisches Beispiel ist Amazon: Wenn ich dort Bücher bestellt habe, sagt mir Amazon, welche Bücher mir auch noch gefallen könnten. Dieses Empfehlungssystem ist eine einfache Anwendung, aber es gibt auch noch andere Beispiele, wo das viel weiter getrieben wird, auch im Zusammenhang mit Geodaten.

Trajektorien in Zürich von lokalen und auswärtigen Flickr-Nutzerinnen und -Nutzern (Straumann, Çöltekin & Andrienko, 2014)
Trajektorien in Zürich von lokalen und auswärtigen Flickr-Nutzerinnen und -Nutzern (Straumann, Çöltekin & Andrienko, 2014)

Weniger einfache Tätigkeiten

Diese Trends haben für unsere Branche natürlich Konsequenzen, indem einfache GIS-Arbeiten in Zukunft vielleicht weniger gefragt sein werden. Vor fünf Jahren konnte es durchaus sein, dass ein Kunde zu uns kam mit einer Datenbank, in der die Adressen seiner Kunden hinterlegt waren und die er auf einer Karte sehen wollte. Solche einfachen Auswertungen kann es zwar immer noch geben, aber die Funktionalität dafür ist je länger je mehr in gängigen Desktop-Programmen eingebaut, so dass die Leute das selber machen können.

Aber die Kundenstandorte nicht nur zu kartieren sondern zu analysieren, zum Beispiel bezüglich der Frage, wo ein neuer Standort eröffnet werden soll und wie sich dieser auf das Betriebsergebnis oder die Versorgung auswirkt – das sind nach wie vor spannende Fragestellungen, die wir mit «Location Intelligence» beantworten können.

Es ergeben sich aber gerade noch weitere neue Fragen: Wir beraten unsere Kunden zum Beispiel zu den aktuellen Entwicklungen rund um das Internet of Things, Bots, Echtzeitdaten und Smart Cities bzw. Smart Infrastructure. Für diese Themen braucht es Fachwissen und spezielle Kompetenzen.

«Data Literacy» als Bürger(innen)pflicht

Ein besonderes Anliegen ist mir persönlich die «Data Literacy», das heisst die Befähigung von Nicht-Fachleuten, Daten und darauf aufbauende Analysen richtig «lesen» und interpretieren zu können – ganz besonders, wenn auf dieser Grundlage geschäftliche oder politische Entscheidungen getroffen werden. In unserer direkten Demokratie stimmen wir zudem über Fragen ab, die immer öfter ein gewisses Verständnis für Datenanalyse voraus setzen. Wir als Gesellschaft müssen also lernen, diese Dinge zu verstehen, damit umzugehen und manches auch kritisch zu hinterfragen.

Sie können das im e-geo-Newsletter erschienene Interview mit Ralph Straumann hier als PDF beziehen oder hier die gesamte Publikation herunterladen.

Vielen Dank an Swisstopo und Claudia Fahlbusch von escribo für die Erlaubnis zur Publikation dieses Texts auf unserem Blog.

Pedestrian Isochrone Maps

On Monday, October 3rd, the 17th Annual Conference on Walking and Liveable Communities, Walk21 Hongkong has opened its doors to more than 500 participants. One of the speakers will be our Ivo Leiss. In his presentation, he will speak about Walkalytics – EBP’s approach to data analytics for business questions related to pedestrians.

Walking has always been a topic on our agenda. Already in 2013, we have written about accurate analytics for pedestrian accessibility and quality of service for public transport. Since then, we have extended and refined our methodology for pedestrian mobility analysis and successfully applied it to our customers‘ business and location intelligence tasks.

The Walkalytics method

At the heart of our approach are isochrones. Isochrone maps for different modes of locomotion are the hot new thing and there are a lot of interesting blog posts and offerings available, for example on Google Maps Mania or on Medium.

In contrast to the abundant graph-based methods, we take a different path (no pun intended): Our pedestrian isochrones show the precise walking time of a neighborhood for any starting point. Rather than following  a network of streets and paths, they are an aggregate of thousands of individual paths, bundled into one result. As opposed to other isochrone analyses, our approach takes into account desire paths and potential shortcuts across open spaces such as large squares. And it takes less than a second to compute! But a picture is worth a thousand words, and an animated picture is priceless:

A pedestrian isochrone in the city of Bern, calculated with Walkalytics. The caluclation is based on OSM data.
Pedestrian isochrones for a location in the city of Bern, calculated using Walkalytics.

The animation demonstrates our area-based approach: Starting at a particular point, thousands of virtual pedestrians start walking in every possible direction. Every few metres, they ‚measure‘ their walking time and continue walking. Their walking speed depends on the walkability of the ground they are covering: It’s faster to walk on a nice path than on rough terrain; it’s forbidden to walk on a highway or across a railroad and impossible to walk across water. Additionally, we take into account the topography: walking uphill and downhill is associated with different costs depending on the slope. Using the Walkalytics approach, it is also possible to model walking times based on custom rules for the the underlying surfaces and topography.

Your advantages

What are some of the advantages of our approach to computing isochrones for your business or agency?

  • Very detailed results: With one computation, we can show the area that is accessible from any given point within any given timespan, not only for few discrete time steps.
  • We don’t need routing-capable data, we just model every patch of your neighborhood based on its walkability.
  • We can easily combine multiple data sources to model the walkability, like national mapping data, cadastral or surveying data, municipal data, and e.g. OpenStreetMap. Combinating data sources for best coverage is easy. This flexibility of adopting to, and using, different data sources has proven tremendously helpful in recent projects.
  • It’s fast, especially considering the information value of the result: Computing one isochrone at 5 meters resolution with an upper limit of 20 minutes of walking, we analyse literally thousands of individual paths and get hundreds of thousands of walking time measurements as a result. And all this information still can be computed in much less than a second on an ordinary laptop.

Isochrones are certainly interesting! But what is their value for authorities and businesses? What are their use cases? In future blog posts, we will discuss some interesting applications. Meanwhile, you can visit the Walkalytics website, test-run our API or simply play around and create your own animated isochrone by clicking in the map below (computation of these may take up to around 20 seconds, because creating animated GIFs takes much more time than computing the isochrone):

R: Auch etwas für Sie?

R bei EBP

CC-BY-SA The R Foundation
CC-BY-SA The R Foundation

In diesem Blog haben wir schon verschiedentlich (teilweise) mit R erarbeitete Analysen und Visualisierungen gezeigt: etwa meine dreiteilige Serie über die Analyse von Velozähldaten mit R und Bence Tasnádys und Nadine Riesers unterhaltsamer dreiteiliger Bericht über die Eulertour mit dem Tram durch Zürich.

Bei EBP setzen wir R sehr vielfältig ein:

  • für die Bereinigung und Umformung von Daten,
  • für deskriptive und inferentielle Analysen und
  • für agentenbasierte Modellierung beispielsweise im Bereich von Energiepreisen und noch für einiges mehr.

Vor einigen Wochen habe ich R zum Beispiel genutzt, um Gemeinden basierend auf circa einem dutzend Attributen zu clustern. Mit dem berechneten Ähnlichkeitsmass zwischen Gemeinden konnte dann auf einfache Weise eine Vorschlagsfunktion ähnlich wie bei Amazon gebaut werden. Also in der Art: „Sie interessieren sich für Gossau. Möchten Sie vielleicht Gossau mit Flawil, Uzwil, Wil, Herisau oder Rorschach vergleichen?“

Wofür R?

Wieso finde ich also R interessant und wieso nutze ich neben Python, SQL, ETL-Tools u.a. eben auch die Programmiersprache und die Software R? Hier ist meine Liste von Punkten. Für andere Leute können natürlich andere Vor- oder Nachteile ausschlaggebend sein (basically: YMMV):

  • Ähnlich wie Python verfügt R mit dem Comprehensive R Archive Network (CRAN) über eine sehr grosse Menge von Libraries, welche diverse Funktionen abdecken, die in „Base R“ nicht oder nicht in dieser Güte abgedeckt sind. Zum Beispiel: Webscraping, Netzwerkmodellierung, explorative Datenanalyse, statische und interaktive Visualisierung, Verarbeitung von Geodaten, Datentransformationen etc. Was ich bei R manchmal als Nachteil empfinde (gerade gegenüber Python): es gibt nicht immer einen offensichtlich(st)en Weg, etwas zu tun. Die Fülle von Libraries ist eine Ursache hiervon.
  • R kann diverse Datenformate lesen (und viele auch schreiben), auch Geodaten. Der Zugriff auf diverse Datenbanken, NetCDF-Files, tabellarische Daten (Excel, CSV, TSV, etc.), XML-Dateien oder JSON-Dateien ist ohne weiteres möglich.
  • Datentransformationen sind eine Stärke von R: Ob Sie Daten umklassieren, säubern, Werte ersetzen, filtern, subsetten, bestichproben, gruppieren, aggregieren oder transponieren wollen – mit den mächtigen Datentransformationsfunktionen von zum Beispiel dplyr oder auch Base R ist fast alles möglich.
  • einfache Berechnung beschreibender (deskriptiver) Statistiken wie Mittelwert, Median, Standardabweichung, Schiefe einer Verteilung, und vieles mehr, auch auf facettierten Daten
  • Machine Learning-Techniken wie Regressionsanalyse, Klassifikationsanalysen, Clustering, multi-dimensional scaling (MDS-Analyse), u.v.m.
  • diverse Möglichkeiten, aus Daten gängige Visualisierungen abzuleiten wie zum Beispiel Balkendiagramme, Liniendiagramme, Scatterplots, zum Beispiel mit der vermutlich beliebtesten Library für Visualisierungen, ggplot2. Aber auch Karten, zum Beispiel mit ggmap, und interaktive Visualisierungen, mit ggvis und shiny.
  • Mit R kann man aber auch spezialisiertere Visualisierungen erstellen wie Starplots/Spiderplots, Boxplots, Violin Plots, Small Multiples oder Heatmaps.

Wieso R?

Wichtiger noch als diese Funktionen sind aus meiner Sicht aber Vorteile auf einer übergeordneten Ebene. Gerade für Datenaufbereitung, Datenanalyse und Datenvisualisierung geniesst R meiner Meinung nach einen gewichtigen Vorteil gegenüber anderen sehr viel häufiger genutzten Werkzeugen wie Tabellenkalkulationssoftware (Excel, Libre Office, etc.): In R sind alle Verarbeitungsschritte – vom Laden der Daten über allfällige Joins, Transformationen und Aggregationen, Pivot-Tabellen, Umklassierungen, Filterungen, Analyseschritte etc. bis hin zur Erstellung von Grafiken – geskriptet (in der Sprache R).

Die Vorteile dieser Vorgehensweise verglichen mit dem Arbeiten in Excel (auf die Art, wie die meisten Leute mit Excel arbeiten) sind:

  • Transparenz: Ich kann alle Verarbeitungssschritte, welche zu einem Resultat geführt haben, in Form eines Skripts abspeichern. Ich und andere können auch sehr viel später zum Beispiel noch nachlesen, welche Transformationen auf die Daten angewendet worden sind. Zusätzlich zum Quellcode kann ich die Transparenz mit erläuternden Kommentaren unterstützen. Ich kann auch eine Versionskontrolle etwa mit GitHub durchführen – da das Skript eine Textdatei ist.
  • Reduzierte Fehleranfälligkeit: Da Verarbeitungsschritte geskriptet sind und in der Regel nicht von Tastatur- oder Mauseingaben zur „Laufzeit“ der Analyse abhängig sind, reduziert sich meiner Meinung nach im Allgemeinen die Fehleranfälligkeit. Natürlich können sich auch in einem Skript noch Fehler einschleichen, aber zum Beispiel die doch ab und zu beobachteten (und von Excel gut versteckten) fehlerhaften Bezüge in umfangreichen Excel-Dateien gibt es in R zum Beispiel nicht. (Falsche Bezüge in Excel können einen ja bekanntermassen bei wirtschaftlich sehr wichtigen Entscheiden aufs Glatteis führen.)
  • Reproduzierbarkeit: Haben sich Ihre Daten seit dem letzten Anfassen inhaltlich geändert? Kein Problem, ich kann einfach mein R-Skript mit den zusätzlichen, aktualisierten oder korrigierten Daten nochmals laufen lassen und R macht dieselben Aufbereitungs- und Analyseschritte nochmals und spuckt im Hintergrund zwei Dutzend oder auch hunderte aktualisierter Grafiken aus, während ich mich anderen Problemen widme oder einen Tee trinke. Nicht zu vergleichen mit dem Aufwand, der wahrscheinlich nötig gewesen wäre, wäre der ganze Workflow nicht geskriptet umgesetzt gewesen. Wenn ich Grafiken nochmals neu produziere, laufe ich mit R auch nicht wie zum Beispiel bei Excel und Co. Gefahr, einen wichtigen manuellen Arbeitsschritt zu vergessen oder falsch auszuführen. Ich muss auch nicht alle Excel-Grafiken für die Weiterverwendung dann nochmals wieder in Rastergrafiken umwandeln.

Zuguterletzt: Mit der R-Bridge rücken R und ArcGIS künftig viel näher zusammen. Beispielsweise können in R Daten in einer File Geodatabase gelesen und analysiert werden. Auch im Microsoft-Ökosystem wird R künftig eine stärkere Rolle spielen, beispielsweise können im cloudbasierten Microsoft Azure Machine Learning (ML) Analysen in R geschrieben werden.

Hat dieser Artikel Ihr Interesse an R geweckt? Ist R das richtige Tool für Ihre Organisation? Möchten Sie gerne eine vertiefte Einführung erhalten? Wie kann R mit Ihren bestehenden Tools oder mit Ihren Python-Skripts kombiniert werden? Kontaktieren Sie mich unverbindlich.

Tilemap der Schweiz

Seit einiger Zeit werden in den (US-amerikanischen) Medien immer wieder mal Tilemaps verwendet. Das sind Karten, in denen zur einfachen und effizienten Darstellung von Informationen jeder Gliedstaat, jede Region mit derselben abstrakten Form dargestellt wird, in der Regel sind das Quadrate oder Sechsecke. Eine Übersicht und etwas Hintergrund dazu gibt es beispielsweise von NPR:

A hexagon tile grid, square tile grid and geographic choropleth map. Maps by Danny DeBelius and Alyson Hurt. (from npr)
A hexagon tile grid, square tile grid and geographic choropleth map. Maps by Danny DeBelius and Alyson Hurt. (from npr)

 

Wie ich andernorts schon mal erklärt habe, lohnt es sich meiner Ansicht nach immer, etwas über den GIS-Tellerrand hinauszuschauen, gerade im Bereich der Informationsvisualisierung. Wie Adrian Herzog und Yves Maurer habe ich mir schon vor einiger Zeit Gedanken gemacht, wie eine Square-Tilemap für die Schweiz aussehen könnte. Ein besonders gelungenes Beispiel einer Square-Tilemap kommt aus London, von After the Flood:

London Square Map, mit abstrahierter Darstellung der Themse (von After the Flood)
London Square Map, mit abstrahierter Darstellung der Themse (von After the Flood)

Der Blogpost, welcher die Erstellung dieser Karte erläutert und auch noch weitere innovative Verwendungsarten zeigt, ist äusserst lesenswert! Wir warten hier, bis sie ihn gelesen haben und wieder zurück sind.

In meiner Tilemap für die Schweiz habe ich zwar nicht eine organische Form wie die Themse aufgenommen wie das Beispiel aus London – teils, weil ich in der Schweiz wenige lineare Objekte kenne, welche einen ähnlichen Wiedererkennungswert haben. Ich habe mir aber erlaubt, das Gitter der Kacheln nicht völlig regelmässig zu gestalten. Die Halbkantone habe ich speziell mit diagonal geschnittenen Quadraten umgesetzt (was mit den Orientierungen der Halbkantone erstaunlich gut passt):

Tilemap im geographischen Raum (Shapefile)
Tilemap im geographischen Raum (Shapefile)

(Eine frühere Version der Tilemap hat versucht, die Topologie von SG/AI/AR besser abzubilden, das habe ich aber aufgegeben. Anders als Yves Maurer lasse ich aber SG und nicht die Appenzell (Appenzelle? Appenzelli? 😉 ) an TG angrenzen. Anders als die Fläche vermuten lässt, gehe ich davon aus, dass der Bevölkerungsschwerpunkt von SG recht weit nördlich ist. Aber vielleicht bin ich, in Gossau SG aufgewachsen, voreingenommen.)

Die Schweizer Tilemap ist zur allgemeinen Verwendung auf GitHub in folgenden Formaten gehostet:

  • GeoJSON in Mercator-Projektion (EPSG: 4326)
  • Shapefile in Web Mercator-Projektion (EPSG: 3857 / SR-ORG: 7483) für Webmapping-Frameworks wie CartoDB
  • Shapefile in „alten“ Schweizer Landeskoordinaten CH1903 LV03 (EPSG:21781)
  • Shapefile in „neuen“ Schweizer Landeskoordinaten CH1903+ LV95 (EPSG:2056)
  • SVG-Datei
  • Zusätzlich sind vorhanden: Beispieldarstellungen als Grafiken und Esri ArcGIS 10.3-Projekt mit verschieden gestalteten Beispiellayern.

Sie können die Schweizer Tilemap unter Nennung von „EBP, www.ebp.ch“ als Urheber beliebig verwenden (CC-BY-Lizenz) – etwa in Broschüren, Webseiten oder Zeitungsartikeln. Falls Sie das tun, würde es mich natürlich freuen, wenn ich von der Verwendung höre.

Beispieldarstellung: Ausgang der EWR-Abstimmung 1992:

Beispieldarstellung: Ausgang der EWR-Abstimmung 1992

 

Swiss GIS network on Twitter

Out of curiosity and 2.5 years ago, I analysed the network of Swiss GIS twitterers (article in German, French, Italian). That analysis inspired the creation of the GeoBeer event series (of which we had the 11th instalment just a few days ago) and the Twitter list by the name of ‚SwissGIS‘. You can find that one here.

If you follow my private blog, you might have seen that I also made Twitter maps sometimes, e.g. here for GeoHipster (thumbs up for Atanas & Co.’s initiative!) and here for SwissGIS:

The day before yesterday I updated the SwissGIS Twitter map. In doing so I thought: heck, I should probably renew the old network visualisation of a few dozen Twitter accounts as well! I keep adding people to the list when I come across their accounts; hence the list has now grown to over 200 members.

So, I dusted off my Python code for querying the Twitter API, obtaining profile metrics and building the follower network between the accounts on the SwissGIS list. I plugged the resulting dataset into Gephi, configured the visualisation, and used the superb add-on by OII’s Scott Hale to export the whole shebang to sigma.js.

You can find the result by clicking here or on this graphic (best viewed on desktop, tablet also okay):

Each node in this network is a Twitter account. Links represent follower-relationships between the accounts, the link having the colour of the account that follows the other. The network is clustered into so-called modularity classes based on its topology. Similarly to the last time I plotted a (much younger) SwissGIS network, you can find, e.g., that the blue cluster encompasses mostly French-speaking Twitter users. Also similarly to last time, Esri Switzerland becomes a rather distinct and marked cluster (in purple) with very few errors of omission and commission. This is the inherent (and at times very revealing) power of networks and the strong homophily in all of us – also, the origin of concepts like that of the filter bubble.

The nodes in the visualisation are sized according to the number of followers a node or account has within the SwissGIS network. Not within Twitter at large! E.g., in ‚general Twitter‘, @swiss_geoportal has many more followers than @geobeerch, however, within SwissGIS the two are very similar regarding this metric.

Clicking onto a node reveals additional attributes such as the account name, the profile picture, the age of the account, number of tweets, and average number of tweets per month. It also shows mutual following relationships, which followers follow this account, and which accounts this account follows (both one-directional). The accounts in these lists are themselves clickable, i.e. you can navigate through the network via the users that are contained in it. There’s also a very basic search function that acts on account names for when you can’t find a user that you are interested in.

Importantly, Twitter accounts who were not accessible at the time of data collection (e.g., accounts that are configured to be private) cannot show up in this network, as – simplifying here – no data can be collected about them through the Twitter API.

Enjoy exploring the network of Switzerland-based geo and GIS enthusiasts. And shoot me a tweet or an e-mail if you discover anything interesting (or if you simply enjoyed the visualisation or this post)!

 

PS: You can easily subscribe to the SwissGIS Twitter list in, for example, Tweetdeck or Hootsuite in order to stay on top of geo/GIS news from Switzerland (expect a mix of (predominantly) English, German, French and a little Italian). By the way: following a list means you get to see all the tweets by the list members, whether you follow them personally or not.

Data Value and Expertise Value

These days, data and data scientists (and data engineers?) seem to rule the world. Companies are data-driven, problems are solved using data-driven methods and national intelligence agencies (arguably: also online retailers) extensively collect all the data they can get hold of.

The data-driven approach is formalised in the Jurney-Warden Data-Value Stack:

The Jurney-Warden Data-Value stack Source: https://www.safaribooksonline.com/library/view/agile-data-science/9781449326890/ch05.html
The Jurney-Warden Data-Value stack (source)

The data-value stack is to be read from the bottom up to the top. The idea of the stack suggests: the value of the data arises from raw data through various steps up the pyramid. The link to Maslow’s hierarchy of needs that the authors make implies that the upper levels of the pyramid build and rely upon the lower levels, i.e. you cannot effect actions without first collecting data at the records level, then cleaning and aggregating, exploring and inferring. In my opinion, this is a feasible approach and obviously the framework works well for some cases.

However: looking at the stack, the approach reminds me of a blind chicken which randomly picks and picks until it eventually finds a valuable corn to eat. More intelligent animals have some expertise to enhance the „random-pick“ – i.e., purely bottom-up – approach: Based on its experience, intelligence and/or guts, the intelligent chicken efficiently picks the most valuable food right from the start.

I admit, I know nothing about behavioural biology to support the claims in the previous paragraph. And yes, millions of blind chickens may help. But what I really want to say is: expertise matters, also in the data-driven world – we cannot yet proclaim the end of theory.

But how does expertise come into play in the above mentioned data-value stack? Its design principle is that higher levels depend on lower levels. I would propose a similarly shaped expertise-value stack, which aligns alongside the data-value stack. That stack would look as follows (on the left):

Expertise-Value stack (left) and Data-Value stack (right)
Expertise-Value stack (left) and Data-Value stack (right)

The expertise-value stack complements the steps in the data-value stack with the following levels of expertise:

  • Wisdom: Use your wisdom for strategic decisions.
  • Application of Interdisciplinary Knowledge: Use and combine your knowledge from different subject matter domains.
  • Application of Domain Knowledge: Apply your subject matter knowledge to the problem.
  • Information Collection: Conduct targeted collection and filtering of relevant information, like reports, opinions or results of relevant research.
  • Problem Comprehension: Before doing anything, make sure you understand the problem at hand from one or several perspectives: e.g. from the perspective of the user, provider or politician.

Obviously, the idea of domain experts collaborating with, and supporting, data scientists is not new. Indeed it has been noted that subject experts may make the difference. And this is why an interdisciplinary approach (edit 2016-02-23: i.e. leveraging both expertise-value and data-value) has advantages over a pure data driven approach. Unfortunately, the benefit of including subject experts does not come for free: It takes much time to talk to each other and you need to find good counterparts to succeed. But in the long run, this interaction will pay off.

If you are interested talking to Swiss data and information experts with an interdisciplinary approach, come and talk to the team at EBP. Contact me for details. (And thanks to Ralph for editing this post)