GeoPython Konferenz 2018

Bereits zum dritten Mal öffnete die Fachhochschule Nordwestschweiz (FHNW) ihre Tore zur GeoPython-Konferenz. Während dreier Tage trafen sich vom 7. bis 9. Mai Geo-Interessierte aus aller Welt in Muttenz, um über die neuesten Trends und Packages rund um Python zu diskutieren. Da wir bei EBP Python oft auch für Datenanalysen und die Arbeit mit Geodaten einsetzten, war ich für EBP dabei und möchte Ihnen einen Überblick über die Veranstaltung geben.

Räumliche Analysen mit GeoPandas

Martin Christen eröffnete die Konferenz ganz unkonventionell (und sehr sympathisch) mit einer rein analogen Ansprache ohne PowerPoint, Beamer und Co. sowie dem Versprechen, dass die GeoPython 2019 im brandneuen FHNW–Standort stattfinden werde. Pünktlich zum Beginn der ersten Workshops  war auf technischer Seite alles wieder bereit und schon stand eine schwierige Entscheidung an: Soll es der Workshop zur Datenanalyse mit GeoPandas werden oder jener zur Erstellung von QGIS-Makros mit PyQGIS?

Ich habe mich für GeoPandas entschieden und diese Wahl keineswegs bereut: Joris Van den Bossche führte nachvollziehbar und verständlich mittels Jupyter Notebooks durch die Funktionalitäten von Shapely, Pandas und GeoPandas. Insbesondere Coderinnen und Coder, die bereits mit der Programmiersprache R gearbeitet haben, werden das hier verwendete GeoDataFrame-Konstrukt wiedererkennen und schätzen. Dieses erlaubt es beispielsweise, räumliche Operationen nicht nur auf einzelne Objekte, sondern gleich auf alle Elemente einer Matrix anzuwenden. Der Workshop behandelte neben den möglichen räumlichen Operationen auch die Visualisierung der Resultate und gab einen guten Überblick über die Möglichkeiten von GeoPandas.

Der GeoPandas Workshop war gespickt mit Übungen zum selbst Programmieren. Die Verzahnung von Theorie- und Code-Blöcken gehört definitiv zu den Hauptvorteilen von Jupyter-Notebooks. Quelle: GeoPython 2018

Nachbarschaftsmatrizen als räumliche Alternative

GeoPandas begegnete den Teilnehmenden dann auch wieder beim Data Science Workshop am Nachmittag. Im Fokus stand dabei allerdings ein anderes Thema, nämlich PySAL. Dieses Package stellt diverse Methoden zur statistischen Auswertung und räumlichen Analyse zur Verfügung. Für Letzteres nutzt PySAL, anders als GeoPandas, Nachbarschaftsmatrizen. Über solche Matrizen wird festgehalten, welche Art von räumlicher Beziehung besteht und wie stark sie ausgeprägt ist.

Beispielsweise lässt sich ausgehend von einem Punktdatensatz die Nachbarschaft mittels Berechnung der Thiessen-Polygone bestimmen, wobei die Distanz der Punkte untereinander auch gleich die Gewichtungsmatrix ergibt. Je nach gewähltem Kriterium resultieren dabei andere Nachbarschaften. Das Rook-Kriterium beispielsweise sieht vor, dass zwei Polygone sich mindestens eine Kante  teilen müssen, um als Nachbarn zu gelten (vgl. Rook’s Case in Rasteranalysen). Auf den Nachbarschaftsmatrizen lassen sich räumliche Analysen wie beispielsweise eine Kernel Density Estimation (KDE) sehr schnell und ressourcenschonend berechnen.

Um die Nachbarschaftsmatrix eines Punkt-Datensatzes zu erstellen, werden Thiessen Polygone gebildet (links). Rechts ist die Nachbarschaftsmatrix grafisch dargestellt. Quelle: Levi John Wolf und Serge Rey auf github.

Big Data leicht gemacht

Ein weiterer Schwerpunkt der GeoPython war Machine Learning. Anhand verschiedener Projekte wurde demonstriert, wozu neuronale Netze bereits fähig sind. Beispielsweise um Verspätungen im öffentlichen Verkehr vorherzusagen. Anhand der Echtzeitpositionen der Busse, dem Soll-Fahrplan und weiteren Variablen wie Wetter und Ferienkalender wurde ein Modell trainiert, das als Entscheidungsgrundlage für das Busunternehmen dienen soll. Damit sollen unter anderem die Kundeninformation verbessert oder Extrabusse bei Bedarf möglichst ökonomisch eingesetzt werden.

Ein anderes Projekt verwendete Machine Learning im klassischen Anwendungsfall der Bilderkennung, um zum Klettern geeignete Felswände in unbekannten Gebieten zu entdecken. Wie in den anderen Machine Learning Projekten wurde auch hier eine Kombination aus Pandas, TensorFlow und Keras eingesetzt. Das manuell erstellte Trainingsdatenset wurde in TensorFlow geladen, um den Klassifikator zu trainieren, der anschliessend Luftbildern einen «Klettergebiet» Score zugewiesen hat. Auch wenn der Referent noch keine Gelegenheit fand, sämtliche potenziellen Klettergebiete selbst zu «verifizieren», waren die bisherigen Ergebnisse bereits vielversprechend.

Einen sehr anschaulichen Beitrag zum Themenblock bildete der Vortrag von Google, bei dem die verschiedenen hauseigenen Machine Learning APIs vorgestellt wurden. Anstatt eigene Modelle zu trainieren, kann durch die APIs auf fixfertig trainierte und spezialisierte Modelle zurückgegriffen werden. Diese umfassen beispielsweise Textanalysen, bei denen sowohl der Inhalt als auch die Stimmungslage ausgewertet werden. Auch Google Translator basiert seit einiger Zeit auf einem neuronalen Netzwerk, was gegenüber dem früheren statistischen Modell eine deutliche Verbesserung beim Übersetzen von ganzen Sätzen gebracht habe. Ein besonderes Augenmerk legte der Referent auf die Vision API zur Bilderkennung. So demonstrierte er sehr eindrücklich dessen Fähigkeiten, indem er Fotos vom Eiffelturm in Paris und von dessen Replikat in Las Vegas auswerten liess. Dass der Eiffelturm als solches erkennt wurde, war zugegebenermassen nicht allzu überraschend. Dass aber das Replikat zuverlässig in Las Vegas verortet wurde, obwohl keine anderen baulichen Erkennungsmerkmale im Hintergrund zu sehen sind, war hingegen erstaunlich.

Dies ist nicht der Eiffeltum in Paris, sondern dessen Nachbildung beim Paris Hotel and Casino in Las Vegas. Kein Problem für Google Vision. Quelle: Laurent Picard auf Speaker Deck.

Wissensdurstige aus aller Welt

Dies war mein erster Besuch an der GeoPython. Was mich rückblickend am Meisten erstaunt hat, war, wie international diese Konferenz ist. Nicht nur die Vortragenden kamen aus aller Welt, auch das Publikum war geografisch bunt gemischt. Wie ich in persönlichen Gesprächen mit auswärtigen Teilnehmenden erfahren habe, kommt dies nicht von ungefähr: Im Vergleich zu anderen Python-Veranstaltungen schätzen sie vor allem die sachbezogenen Präsentationen und den Austausch mit gleichgesinnten Fachleuten (ein Faktor, der ja auch das GeoBeer attraktiv macht). So verwundert es dann auch nicht, dass die GeoPython sich ein solches Renommee erarbeitet hat – ziemlich beachtlich für eine erst dreijährige Veranstaltung!

Die GeoPython 2018 endete nach vielen lehrreichen Präsentationen und interessanten Gesprächen. Ich freue mich jedenfalls schon auf die GeoPython 2019.

Pedestrian Reachability Analysis for Hyperlocal Marketing

Since 2013, EBP has been developing and refining Walkalytics, an approach to data analytics for business-relevant questions regarding pedestrian mobility. At the heart of the approach lie isochrones, which are calculated for every square meter of an area-of-interest. In the early stages, we successfully applied Walkalytics mainly in urban and transportation planning. In this blog post, however, I want to demonstrate how Walkalytics can help you in geomarketing on very small scales.

Example 1: Narrow the audience of a direct mailing campaign

As a first example, let’s assume you are big transportation agency with a large customer database that also features a postal address for each of your customers. Let’s further assume you want to send some customers a special offer by mail – but only to the segment of customers who are most likely to accept your offer. In other words, you want to narrow your target audience, if only to save printing and postage costs. A sensible criterion to optimize your campaign’s target audience could be the time that customers take to reach the next transit stop (or any other customer contact point of your liking) on foot.

With Walkalytics, we have the solution to your task: We’ve taken all Swiss addresses from the federal register of buildings and calculated the walking time from each address point to the closest transit stop. You can use this massive dataset to narrow the segment of customers that will be targeted in your campaign. You don’t even have to ask your in-house geodata expert to help you with your filtering: everything is done directly in your customer database based on our augmentation of your CRM data!

General Post Office mail sorting room, Wellington (source Archive New Zealand)

Example 2: Find the optimal location for your customer contact points

Let’s assume you are a manager in a retail company which wants to find the optimal locations of new service points. As you have a business with lots of walk-in customers (i.e. pedestrians), this means you want to find locations that serve many non- or under-served people within a sensible walking distance or time – say within 5 minutes walking time.

For addressing this need, we took advantage of another government data set: The population and household statistics (STATPOP) and the business demography statistics (STATENT) have a number of indicators that are measured in 100×100 meter units all over Switzerland. For each of the effectively 360,000 units, we calculated a walking isochrone and aggregated relevant indicators such as the reachable residential population or reachable number of, e.g., third sector employees. After completion of our analysis, we know for each 100×100 meter square in Switzerland how many people can reach this location within 5, 10 or 15 minutes of walking. Since your business relies on walk-in customers, this informs your choice of where to open your next service point(s).

Workforce reachable within 5 minutes of walking, in Geneva. Red=high number of people reached, blue=low number.
Residential population reachable within 5 minutes of walking, in Geneva (red=high, blue=low).

Did these examples whet your appetite for geo-augmenting your customer and site data? Are you, for example, interested in filtering your customer database according to the reachibility of your service points? Do you want to optimize locations based on socio-economic statistics? Let’s have a talk, e.g. during GEOSummit in Bern or online using e-mail or Twitter!

2018 Esri Partner Conference and Developer Summit – Part 2

The timing worked superbly, like the best Swiss clockwork: A few days before winter made a comeback in Switzerland, I sat in a plane to Los Angeles. Nevermind that California also had slightly cooler temperatures than usual – it was definitely preferable over the polar cold air masses that firmly occupied Switzerland. Even the place names felt evocative: Santa Cruz, Big Sur, and San Francisco. For two weeks I would cruise California, before making my way back to L.A. and then Palm Springs in order to attend the 2018 Esri Partner Conference and Developer Summit together with my colleague, Nicole Sulzberger. In what follows, we describe what we learned during the two Esri events: the latest news about developments at Esri.

Part 1 of this review has been published last week.

The Science of Where

As described previously, The Science of Where is still Esri’s tagline. Esri aims to apply the science of where to help answering spatial questions with:

  • increased efficiency to save resources
  • better analysis to actually understand what is going on, and
  • better communication to foster good decisions

Many of the recent developments shown during the Partner Conference and the Developer Summit can be linked very well to at least one, often several, of these three promises.

 

Select Highlights (continued from Part 1)

Geo AI DSVM

The big news of Esri in terms of data analysis was quite a mouthful: Esri Geo AI Data Science Virtual Machine (DSVM) on Microsoft Azure. That’s „GeoAI DSVM“ for short.  What is behind this? Geo AI DSVM is a virtual machine in the Microsoft Azure cloud that combines ArcGIS Pro and a plethora of Microsoft data science toolkits. It’s part of Microsoft’s „AI for Earth“ project. The VM contains pre-configured installations of, for example, Python, R, VisualStudio, RStudio, Microsoft Powershell, various Python and R packages, Power BI, and a Jupyter Notebook Server. So there is a lot of things that allow you to dive into GIS-supported data science in a scalable cloud environment. In order to use the GeoAI DSVM you need to have an ArcGIS Pro license and Azure VM usage charges apply. An overview of the GeoAI DSVM can be found in the Microsoft Azure Marketplace. On Github, Esri offers an example of a pixel-level landcover classification using Deep Learning with Microsoft’s Cognitive Toolkit, that can be used in conjunction with the Geo AI DSVM.

Geo AI DSVM was a big part of Joseph Sirosh’s (Corporate Vice President in the AI Research group at Microsoft) keynote address:

 

Jupyter Notebooks

Throughout the conference, various data science and machine learning examples were highlighted, and often demonstrated with Jupyter Notebooks – basically an interactive Python environment in your browser that lends itself ideally for making data analysis workflows more transparent and reproducible through integration of code, documentation, and output. Jupyter Notebooks can also be used with the Python API for ArcGIS for, e.g., Portal administration, however, if you are so inclined. If you do data analysis in Jupyter using, e.g. arcpy, results are by default temporary but can be persisted onto a Portal or locally. Esri offers http://notebooks.esri.com for testing Jupyter Notebooks.

One example that was shown using Jupyter was the extraction of SAM sites from orthoimagery using a neural network:

A planned feature for ArcGIS Portal is the integration of Jupyter Notebooks. You will be able to share your Jupyter Notebooks with your colleagues on your ArcGIS Portal.

And Other Things Python

In other Python news, we found an emphasis on ArcGIS Enterprise and Online automation using Python, specifically the ArcGIS API for Python for communicating with a web GIS. Example tasks that can be done through this pythonic API were the creation of groups and user accounts, the assignment of accounts to groups, and of content to users, cloning a portal, re-assignment of content, creation of reports about content, as well as publishing new and pruning old content. The plenary session had an Automation with Python slot that highlights some of the key developments around these topics.

Secondly, Python in ArcGIS Pro was a big topic and also part of the plenary session. Some of the key things to know: ArcGIS Pro comes with Python version 3, rather than 2.7 like ArcGIS 10.x. Further, the Python installation is conda-based. (Ana)conda is a widely used Python package and virtual environment manager that should make the lives of Python developers easier. Thanks to the conda-based installation, many relevant Python packages are pre-installed, for example the whole SciPy stack (this includes pandas). There have been numerous other improvements, big and small, of the Python developer experience, for example for those of you who like to work in Microsoft VisualStudio.

If you want to know more about these topics, check out the videos and the above links: Automation with Python and  Python in ArcGIS Pro.

Exploratory Data Analysis with Insights for ArcGIS

Insights, the data exploration solution by Esri, was highlighted throughout the event (earlier versions of Insights have been shown in previous events). This tool allows to carry out data analysis using a drag-and-drop interface that lets the user build a collection of „cards“ that can contain maps, charts, or tables. Users can interact with different cards using the linked view paradigm where features in a card are highlighted based on a user interaction in another card.

ArcGIS Insights (source: Esri)

Insights further allows joining data dynamically (not sure to what data set size this stays performant) and the analysis that a user builds is represented in a graphical model that can be shared with other users. Since December 2017, Insights is newly available also in ArcGIS Online (previously it was part of ArcGIS Enterprise): To perform analysis in Insights for ArcGIS, users need to purchase a subscription, in addition to an ArcGIS Online Level 2 named user license. A Level 1 named user license for ArcGIS Online provides you view-only access to Insights.

 

Also on the Table

There was much, much more on the plate: improvements around the performance of the GeoEvent Server, the Spatiotemporal Big Data Store and the GeoAnalytics Server, for example, but also in deployment with Docker and Kubernetes, UX and UI, data in the Living Atlas, as well as IoT and real-time applications.

 

And Where Do We Go From Here?

In our opinion, it was rightly emphasised in the plenary session during the conference: the future lies in

  • connecting separate software systems,
  • expanding collaboration between individuals, teams, departments, and organizations,
  • integrating all kinds of data in common views, be they interactive plots and visualizations, feature layers, maps or web scenes,
  • and adding powerful exploration and analysis of data.

In the perspective of Esri, these ingredients enable a new scale in the trajectory of GIS (if you still want to call it that): GIS will turn into a system of systems.

However, this process doesn’t happen by itself but requires careful thinking and designing.

If any of these piqued your interest, please get in touch with us. We are happy to think along with you and assist in designing tomorrow’s workflows, systems and tools!

 

Part 1 of this review has been published last week.

 

Mobilität und Erreichbarkeit: Business und Location Intelligence

Mobilität wird immer wichtiger: Pendeln zur Arbeit, Einkaufen, Ausflüge oder Besuche bei Freunden. Nicht nur für Privatpersonen sondern auch für Firmen ist die Mobilität und damit zusammenhängend die Erschliessung ein wichtiges Kriterium in vielen Fragestellungen.

Wo soll das Filialnetz verdichtet werden? Wo sollten wir unsere Standorte konsolidieren? Welche Anreize sollten wir setzen, damit unsere Mitarbeitenden möglichst per ÖV pendeln? Soll der Firmensitz eher in Aadorf oder in Bedorf zu liegen kommen? Wo erreichen wir unsere bestehenden Kundinnen und Kunden am besten? Wo finden wir neue Kundschaft? Und wo sind wir in Reichweite der meisten qualifizierten Arbeitnehmenden für unser Geschäft? Alle diese Fragen und noch mehr können wir mit unserer Expertise in den Themen Datenanalyse, Geoinformationssysteme und Mobilität beantworten.

Mit unseren Datengrundlagen und geeigneten Services können wir Fahrzeiten (MIV oder ÖV) und Gehzeiten zwischen Standorten bestimmen, im sogenannt belasteten Netz (d.h. mit dem zu erwartenden Verkehr) oder im Idealzustand. Für Gehzeiten benutzen wir unseren bewährten Walkalytics-Ansatz, der sich auf der ganzen Welt einsetzen lässt (falls Sie damit noch nicht vertraut sind: www.walkalytics.com bzw. unsere Blogposts zum Thema geben Ihnen vertieften Einblick).

Das pulsierende Herz des Wirtschaftsmotors: Die über den Tagesverlauf animierten MIV-Isochronen (15, 30, 45 und 60 Minuten) von Zürich

Basierend auf Wegzeiten können Gebiete gleicher Fahrzeit, sogenannte Isochronen, ermittelt werden. Im Bild oben sind hell- bis dunkelrot Gebiete abgebildet, die von der Quaibrücke in Zürich mit dem Auto innert 15, 30, 45 und 60 Minuten erreicht werden können. Die Animation zeigt, wie sich die erreichbaren Gebiete über den Tagesverlauf wegen der unterschiedlichen Verkehrsverhältnisse verändern.

Natürlich können wir mit unseren Geoinformationstools noch weitergehende Analysen durchführen – zum Beispiel:

  • Mit Daten aus Ihrem CRM-System können wir die Anzahl bestehender Kunden oder potenzieller Kunden ermitteln, die Sie innert einer gewissen Zeit erreichen können bzw. die Ihren Standort erreichen können. Potenzielle Kunden können z.B. Personen sein, die wichtige Merkmale Ihrer bestehenden Kunden teilen.
  • Wenn Sie von einem Filialnetz aus verschiedene Kundenstandorte (z.B. Liegenschaften im Fall einer Immobilienverwaltung) betreuen, können wir die optimale Zuordnung von Kundenstandorten zu Ihren Filialen ermitteln.
  • Wir können Verkehrsmittel miteinander vergleichen zur Minimierung der Reisezeit Ihrer Aussendienstmitarbeitenden oder zur Verbesserung der Umweltfreundlichkeit des Pendelverkehrs Ihrer Mitarbeitenden.
  • Schliesslich können wir Expansionsplanungen, Standorteröffnungen oder -verschiebungen dahingehend untersuchen, ob sie Ihr Kunden- und Arbeitskräftepotenzial optimal nutzen (das Beispiel rechts zeigt die Anzahl der innerhalb einer gewissen Zeit erreichbaren 25- bis 29-Jährigen).

Haben wir Sie neugierig gemacht? Gerne beraten wir Sie unverbindlich bezüglich Ihrer Fragestellungen.

Analytik in smarten Systemen

Die vier Analytiklevels smarter Systeme, nach Gartner (CC-BY-NC www.ebp.ch)

Begriffe wie Smart City, Smart Infrastructure und Smart Systems deuten darauf hin: Mit dem Internet der Dinge (Internet of Things, IoT), Industrie 4.0, Politik 4.0 und Verwaltung 4.0 beginnt eine neue Ära von Verfahren und Algorithmen mit Fokus auf heterogene Daten und neuartige Fragestellungen. Wodurch zeichnen sich jedoch diese «neuen» Analytikfunktionen aus?

Die Beratungsfirma Gartner hat ein Analytik-Reifegradmodell erarbeitet, das sich für die Beschreibung unterschiedlicher Analytiklevels eignet. Der Begriff «Reifegradmodell» enthält natürlich eine Wertung. Unserer Ansicht nach sind aber die weniger komplexen Analytiklevels nicht in jedem Fall weniger wertvoll als die komplexeren. Die komplexeren Analytiklevels werden durch die Anwendung spezieller Verfahren ermöglicht: Beispiele sind Simulation, Trendextrapolation, Machine Learning-Ansätze und Neuronale Netzwerke.

Die vier Analytiklevels smarter Systeme, nach Gartner (CC-BY-NC www.ebp.ch)
Die vier Analytiklevels smarter Systeme, nach Gartner (CC-BY-NC www.ebp.ch)

Folgende Analytiklevels können in intelligenten Systemen unterschieden werden:

Deskriptive Analytik (Descriptive Analytics)

Die deskriptive Analytik umfasst die Beschreibung von Zuständen und Ereignissen. Mit den Mitteln der deskriptiven Statistik und Informationsvisualisierung beantwortet sie die Frage: «Was ist wann / wo / wie geschehen?». Ein Beispiel von deskriptiver Analytik anhand eines Fahrzeugs wäre die statistisch-beschreibende Auswertung von Daten eines Fahrtenschreibers: Wie lange fuhr das Fahrzeug? Mit welcher Durchschnittsgeschwindigkeit?

Diagnostische Analytik (Diagnostic Analytics)

Die diagnostische Analytik geht über die deskriptive Analytik hinaus und fragt nach den Gründen (kausalen Zusammenhängen) hinter einem Zustand oder Ereignis. Sie beantwortet damit die Frage «Weshalb ist (…) geschehen?». Dazu nutzt sie kausalitätsaufspürende Verfahren. Statistische Korrelationsanalysen können dafür ein Ausgangspunkt sein – allerdings müssen Scheinkorrelationen (aufgrund von Mediatorvariablen bzw. confounding variables) ausgeschlossen werden können und der zeitliche Verlauf zwischen Ursache und Ereignis richtig sein. Im Fahrzeug-Beispiel gedacht könnte eine diagnostische Analyse der Frage nach den Gründen eines Motorschadens oder eines Unfalls nachgehen.

Prädiktive Analytik (Predictive Analytics)

Die prädiktive Analytik macht basierend auf Messungen oder Beobachtungen Vorhersagen zu zukünftigen Zuständen eines untersuchten Systems oder Ereignissen im System. Dadurch beantwortet Sie Fragen wie «Was wird wann / wo / wie geschehen?». Sie hilft damit direkt, Entwicklungen zu antizipieren und allenfalls entsprechende Massnahmen zu entwerfen. Ein einfaches Beispiel prädiktiver Analytik wäre ein System, dass Fahrzeuginsassen bei bevorstehendem Spurwechsel vor einer möglichen Kollision mit einem von hinten schnell nahenden anderen Fahrzeug warnt.

Präskriptive Analytik (Prescriptive Analytics)

Die präskriptive Analytik geht noch einen Schritt weiter als die prädiktive: Sie versucht, aus vorhergesehenen Zuständen bzw. Ereignissen direkt Handlungsanweisungen abzuleiten, um einen gewünschten Zielzustand des untersuchten Systems zu erreichen. Sie beantwortet also die Frage «Was muss ich wann / wo / wie tun, um den Systemzustand x zu erreichen?».

Bei der präskriptiven Analytik können zwei Untertypen unterschieden werden: Bei der Entscheidungsunterstützung formuliert die Analyse Empfehlungen, die dann von Menschen beurteilt und entweder zur Anwendung empfohlen oder verworfen werden. Bei der Entscheidungsautomatisierung ist auch das Anwenden der algorithmisch abgeleiteten Entscheidung dem System überlassen. Hier misst oder beobachtet ein smartes System also seine Umwelt, analysiert diese bezüglich von Menschen definierten Zielwerten und setzt automatisch Entscheidungen um. Diese Kategorie wird manchmal auch normative Analytik genannt.

Ein einfaches Beispiel für die Entscheidungsautomatisierung ist ein Spur- und Abstandsautomat in einem Fahrzeug, der zur Vermeidung von Kollisionen selbständig Lenk- und Bremsbefehle an die Fahrzeugsteuerung sendet. Ein Beispiel für Entscheidungsunterstützung wäre ein ähnliches System, bei dem aber «nur» Warnleuchten im Fahrzeugcockpit aufleuchten und die Entscheidung zu lenken oder zu bremsen weiterhin der Fahrerin oder dem Fahrer überlassen bleibt.

Welche Analytiklevels unterstützen Ihre Erhebungs- oder Messmethodik, Ihre Dateninfrastruktur, Ihre Softwareumgebung und Ihre Organisation? Welcher Analytiklevel ist für welche Ihrer Fragestellungen der richtige? Was ist der Nutzen und wie kann dieser möglichst effizient realisiert werden? Mit solchen Fragen dürfen Sie sich gerne an uns wenden.

Geländeanalysen 2.0

Oberflächenanalysen sind für viele verschiedene Einsatzgebiete interessant. Je nach Verwendungszweck kann man den Wert einer Analyse deutlich verbessern, wenn man einige Punkten Beachtung schenkt.

Mit Geoinformationssysteme können bekanntlich Vektor- und Rasterdaten analysiert werden. Letzere verwenden wir oft für die Modellierung des Geländes mit digitalen Höhenmodellen (DHM). Mit den Methoden der sogenannten Geomorphometrie und einem DHM können wir Geländeformen quantitativ beschreiben.

Anwendungen für Geländeanalysen

Analysen von Geländeformen sind für unsere Kundinnen und Kunden für verschiedene Einsatzzwecke nützlich. Beispielsweise lassen sich damit Aussagen machen zur:

  • Lagegüte von Land, Grundstücken und Gebäuden: exponiert versus ‚versteckt‘, Südhang versus Nordhang, Seesicht, Bergsicht, in einer Mulde, in einem Geländeeinschnitt, relativ ‚hoch‘ oder ‚tief gelegen‘, …
  • Ausprägung von physikalischen Prozessen wie Naturgefahren (Sturzgefahren, Lawinen, etc.), Schneedecke bzw. Schneeschmelze, Erosion, Versickerung, …
  • Eignung für den Abbau oder die Ablagerung von Material: Kiesgruben, Sandgruben, Mulden, Deponien, …
  • idealen Planung von Infrastruktur, so dass diese möglichst nicht das Landschaftsbild stört. Beispiele sind Strassen, Stromleitungen oder Bauten.

Die Auflösung bestimmt, was wir finden

Das Problem fast aller Analysen von Geländeformen mit Geoinformationssystemen besteht darin, dass die Auflösung (also die Zellengrösse) des verwendeten DHM direkt die Auflösung der Analyse bestimmt und damit auch, was wir in unserer Untersuchung überhaupt finden können. Dies aus folgendem Grund: Bei der Berechnung von Grössen wie Hangneigung und Wölbungen (Kurvaturen) für einen bestimmten Ort untersuchen die meisten Geoinformationssysteme die 9 nächsten Rasterzellen im DHM (manchmal auch nur 4!). Anschliessend wird in diesem 3×3-Ausschnitt des DHMs (gelb-grün) eine mathematische Oberfläche (türkis) eingepasst:

Anpassen einer Oberfläche an DHM-Rasterzellen (Quelle: Esri)

Für die Berechnung von Kurvaturen wird eine gewölbte Oberfläche verwendet. Für die Berechnung der Hangneigung kann die Oberfläche je nach verwendetem Algorithmus auch plan sein.

Wenn wir Hangneigung und Kurvaturen auf diese klassische Art berechnen, erfassen wir nur jene Geländeformen, die ungefähr im Skalenbereich von 3×3 DHM-Rasterzellen liegen. Wenn wir für unsere Berechnungen swissALTI3D mit 2 Metern Auflösung verwenden, finden wir also Formen von ungefähr 6 Metern Grösse. Verwenden wir DHM25, beschreiben wir Geländeformen von ungefähr 75 Metern Auflösung.

Aber es gibt einen Ausweg

Dass wir uns von der DHM-Auflösung die Resultate der Analyse diktieren lassen, ist unhaltbar. Die Auflösung des DHM zu mindern, ist aber aus diversen Gründen auch keine Lösung. Stattdessen setzen wir bei EBP für knifflige Fragestellungen Spezialsoftware ein, die es uns erlaubt, Geländeformen auf mehreren Skalenebenen zu analysieren. Statt nur eine 3×3-Umgebung zu verwenden, können wir beliebig grosse Umgebungen (zum Beispiel 5×5, 11×11, 21×21) definieren, die dann für die Berechnung von zum Beispiel Hangneigung und Kurvaturen benutzt werden. Zudem erlaubt uns das Tool deutlich mehr und aussagekräftigere Parameter zu berechnen als Standard-Geoinformationssysteme.

Es folgen einige Beispiele zur Veranschaulichung. Wo nicht anders beschrieben, sind die folgenden Resultate gemittelte Werte von 3×3-, 5×5-, 7×7-, 9×9- und 11×11-Umgebungen. Damit lassen sich also Geländeformen von circa 75 bis circa 275 Metern Grösse identifizieren:

Maximalkurvatur, über 3×3 bis 11×11 Rasterzellen berechnet. Dieser Parameter betont Grate (Formen, die zumindest in eine Richtung stark konvex sind) in violett und Mulden oder Trichter (Formen, die in alle Richtungen betrachtet konkav sind) in grün.
Minimalkurvatur, über 3×3 bis 11×11 Rasterzellen berechnet. Dieser Parameter betont Geländeeinschnitte im Skalenbereich 75-225 Meter (Formen, die zumindest in eine Richtung stark konkav sind) in grün und Kuppen oder Gipfel (Formen, die in alle Richtungen betrachtet stark konvex sind) in braun.
Longitudinalkurvatur, über 3×3 bis 11×11 Rasterzellen berechnet. Dieser Parameter betont Hangfüsse und Täler im Skalenbereich 75-225 Meter (Formen, die in Richtung der Fall- bzw. Fliesslinie konkav sind) in blau und obere Hangenden oder Grate (Formen, die in Fliessrichtung betrachtet konvex sind) in rot.
Wiederum Darstellung der Longitudinalkurvatur, hier aber über 3×3 bis 21×21 Rasterzellen berechnet (statt „nur“ bis 11×11 Rasterzellen). Man sieht, wie diese Analyse im Vergleich zur vorherigen grössere Geländeformen betont.

Mit den richtigen Werkzeugen können aus DHM und anderen Oberflächendaten sehr viel mehr Erkenntnisse gezogen werden als mit den weitum bekannten Standard-Tools. Sollten Sie im Zusammenhang mit Oberflächen mal auf knifflige Fragen stossen, dürfen Sie sich natürlich gerne unverbindlich bei uns melden.

 

e-geo-Interview mit Ralph Straumann: «Data Literacy ist eine grosse Herausforderung»

Mit dem letzten Newsletter schloss das Impulsprogramm e-geo.ch Anfang November 2016 seine Tätigkeiten ab. Ralph Straumann, Projektleiter in unserem Tätigkeitsfeld Systemberatung + Analytik wurde in diesem letzten, dem 28. Newsletter von e-geo.ch neben anderen GIS-Exponentinnen und -Exponenten interviewt. Das Interview dreht sich rund um unsere innovativen Themen: Data Science, die Zukunft von GIS und die digitale Transformation.

e-geo.ch und die NGDI. Bildquelle: e-geo.ch
e-geo.ch und die NGDI. Bildquelle: e-geo.ch

Personen in der Geoinformationsbranche ist e-geo.ch ein Begriff. Für alle anderen paraphrasiere ich aus der Newsletter-Einleitung von Christian Kaul: e-geo.ch war seit 2003 das Programm zur Förderung des Aufbaus einer Nationalen Geodaten-Infrastruktur (NGDI). Die Trägerorganisationen von e-geo.ch waren der Bund, die Kantone und die SOGI. Mit der neuen Geoinformationsgesetzgebung auf Stufe Bund (GeoIG) wurde 2008 ein grosser Meilenstein erreicht. Ab 2011 rückten dann Umsetzungsfragen zwischen Bund und Kantonen in den Fokus. Im Austausch zwischen den Trägerorganisationen zeigte sich dann ab Januar 2015, dass e-geo.ch zwar viel erreicht hat aber für die Umsetzung ein neuer Rahmen gesucht werden soll.

Der letzte e-geo-Newsletter bietet einen Rückblick in die „Pionierzeit“ und auf verschiedene Highlights des Impulsprogramms. Er zeigt aber auch aktuelle Herausforderungen der Geoinformation und fragt: Was kommt danach? Verschiedene Fachleute geben ihre Einschätzungen ab zu spannenden Visionen und Trends der Branche. Der Text aus dem Interview mit Ralph Straumann:

«Data Literacy ist eine grosse Herausforderung»

Das BAKOM nennt in einer Studie vier grosse Trends, die auch für die Geoinformation relevant sind, nämlich Information, Cloud, Mobile und Social. Wir alle produzieren immer mehr Daten, schon allein, weil wir mit dem Smartphone herumlaufen. Wir nutzen aber auch immer mehr Informationen in der einen oder anderen Form. Das wird ermöglicht durch die Cloud und ihre skalierbare Rechnerleistung. «Mobile» ist ein Trend, weil immer mehr Internetnutzung über das Handy läuft, und «Social» steht für die Netzwerke, wo man sich miteinander austauscht. Diese vier Trends gelten natürlich nicht nur für GIS, aber an ihnen kann man recht viel fest machen, was im Moment passiert.

Niederschwelligere Angebote

Weiter stelle ich fest, dass unser Feld sich öffnet. Es gibt neue Werkzeuge, die das Arbeiten mit Geodaten viel weniger exklusiv machen. Früher hatte man die grossen, teuren GIS-Systeme. Dazu gibt es heute Alternativen, kommerzielle und freie. Diese Entwicklung wird unter anderem vorangetrieben durch den Datenjournalismus, der in den letzten Jahren aufgekommen ist und auch häufig mit Karten zu tun hat. Aus dieser Richtung kommen viele neue Herangehensweisen von Leuten, die nicht so in den Paradigmen drin sind wie wir GIS-Leute. Das finde ich spannend, und das meine ich, wenn ich von «Mainstreaming» und «Consumerisation» spreche.

Geomorphometrie: Valleyness im Tessin (Straumann, 2010)

Komplexe Datenwissenschaft

Als Trend sehe ich auch die «Data Science», die Datenwissenschaft, die seit ein paar Jahren immer mehr in den Vordergrund tritt und in der wir bei EBP auch aktiv sind. Das Ziel der «Data Science» ist, mit den umfangreich anfallenden Daten Prozesse und Strukturen zu optimieren. Ein klassisches Beispiel ist Amazon: Wenn ich dort Bücher bestellt habe, sagt mir Amazon, welche Bücher mir auch noch gefallen könnten. Dieses Empfehlungssystem ist eine einfache Anwendung, aber es gibt auch noch andere Beispiele, wo das viel weiter getrieben wird, auch im Zusammenhang mit Geodaten.

Trajektorien in Zürich von lokalen und auswärtigen Flickr-Nutzerinnen und -Nutzern (Straumann, Çöltekin & Andrienko, 2014)
Trajektorien in Zürich von lokalen und auswärtigen Flickr-Nutzerinnen und -Nutzern (Straumann, Çöltekin & Andrienko, 2014)

Weniger einfache Tätigkeiten

Diese Trends haben für unsere Branche natürlich Konsequenzen, indem einfache GIS-Arbeiten in Zukunft vielleicht weniger gefragt sein werden. Vor fünf Jahren konnte es durchaus sein, dass ein Kunde zu uns kam mit einer Datenbank, in der die Adressen seiner Kunden hinterlegt waren und die er auf einer Karte sehen wollte. Solche einfachen Auswertungen kann es zwar immer noch geben, aber die Funktionalität dafür ist je länger je mehr in gängigen Desktop-Programmen eingebaut, so dass die Leute das selber machen können.

Aber die Kundenstandorte nicht nur zu kartieren sondern zu analysieren, zum Beispiel bezüglich der Frage, wo ein neuer Standort eröffnet werden soll und wie sich dieser auf das Betriebsergebnis oder die Versorgung auswirkt – das sind nach wie vor spannende Fragestellungen, die wir mit «Location Intelligence» beantworten können.

Es ergeben sich aber gerade noch weitere neue Fragen: Wir beraten unsere Kunden zum Beispiel zu den aktuellen Entwicklungen rund um das Internet of Things, Bots, Echtzeitdaten und Smart Cities bzw. Smart Infrastructure. Für diese Themen braucht es Fachwissen und spezielle Kompetenzen.

«Data Literacy» als Bürger(innen)pflicht

Ein besonderes Anliegen ist mir persönlich die «Data Literacy», das heisst die Befähigung von Nicht-Fachleuten, Daten und darauf aufbauende Analysen richtig «lesen» und interpretieren zu können – ganz besonders, wenn auf dieser Grundlage geschäftliche oder politische Entscheidungen getroffen werden. In unserer direkten Demokratie stimmen wir zudem über Fragen ab, die immer öfter ein gewisses Verständnis für Datenanalyse voraus setzen. Wir als Gesellschaft müssen also lernen, diese Dinge zu verstehen, damit umzugehen und manches auch kritisch zu hinterfragen.

Sie können das im e-geo-Newsletter erschienene Interview mit Ralph Straumann hier als PDF beziehen oder hier die gesamte Publikation herunterladen.

Vielen Dank an Swisstopo und Claudia Fahlbusch von escribo für die Erlaubnis zur Publikation dieses Texts auf unserem Blog.

Die nächste Evolution von GIS

… so hiess mein Artikel und Vortrag für den Track Innovation und Trends am GEOSummit 2016. Worum ging’s? Die Geodatenangebote der Kantone und des Bundes stehen, Services und zum Teil Datendownloads sind bereit und Behörden wie auch Private nutzen GIS auf dem Desktop, online und mobil on-the-go in raumrelevanten Fragen. In meinem Beitrag wollte ich aber mal ganz bewusst über das „Tagesgeschäft“ hinaus blicken und einige Veränderungen einfangen, die wir wegen ihrer Subtilität und vor lauter Routine oft nicht recht wahrnehmen.

Dabei habe ich mich zu einem guten Teil auf „weiche“ Faktoren konzentriert wie zum Beispiel Veränderungen am Umfeld, in dem GIS genutzt wird. Natürlich laufen nebenbei alle bekannten technologischen Umwälzungen: Drohnen, Augmented und Virtual Reality, Cloud Computing, Wearables, Nearables, autonome Systeme und Bots, Sensor Networks und Smart Infrastructure, etc. etc. Manche von diesen kommen am Rande auch vor in meinem Beitrag (und wir können uns gerne hier oder andernorts mal über die technologische Seite austauschen); die technischen Aspekte stehen bei meinen Betrachtungen aber nicht im Zentrum.

Die Folien meines Vortrags können Sie hier anschauen:

Und bei Interesse finden Sie hier den Volltext meines GEOSummit-Abstracts:

In vielen Bereichen unseres Lebens nutzen wir komplexe Infrastrukturen und Dienstleistungen. Beispielsweise bringt uns fünf Minuten nach Ankunft des Zugs ein Bus an unsere Destination. Wir sind mit Wasser, Strom, Gas oder Fernwärme versorgt. Abwasser und Abfall werden zuverlässig weggeführt. Die Regale in den Geschäften sind stets gefüllt und das nötige Ersatzteil wird zuverlässig in die Garage geliefert.

Basis für dieses gute Funktionieren unserer Infrastruktur – und unseres gesellschaftlichen, wirtschaftlichen und politischen Lebens – sind die sorgfältige Planung, Steuerung, und Pflege der involvierten Anlagen und Prozesse. Dafür sind Informationen unabdingbare Grundlage. So wie im letzten Jahrhundert die Entdeckung und Nutzung des Erdöls die Industriegesellschaft befeuert hat, sind Informationen wichtigster Grundstoff unserer Wissensgesellschaft.

Erzeugung und Verwendung von Informationen sind Veränderungen unterworfen, welche auch Auswirkungen auf die Geoinformationsbranche haben. In seinen Überlegungen zur Wissensgesellschaft identifiziert das Bundesamt für Kommunikation vier Haupttrends: Mobile, Social, Cloud und Information (Abb. 1).

Abb. 1: Die Haupttrends „Mobile“, „Social“, „Cloud“ und – im Zentrum – „Information“ sowie die involvierten Akteure (eigene Darstellung)

Von diesen Trends ausgehend: Was kommt auf uns zu?

Verändertes Umfeld

In der Wissensgesellschaft nimmt die Informationsnutzung in Verwaltung und Politik aber auch in der Zivilgesellschaft weiter zu. Hinter letzter stehen zum Teil neue Gruppen von Nutzenden von Geoinformation, welche sich im Zug der aufgezeigten Entwicklungen formiert haben: schon seit einiger Zeit finden Geodaten unter anderem im Datenjournalismus (data-driven journalism) immer häufiger Verwendung. Daneben hat die Open-Data-Bewegung neue Nutzende geschaffen, welche oft nicht den typischen Disziplinen entstammen. Nicht zu unterschätzen ist ferner die Breitenwirkung der BGDI mit der map.geo.admin-API und den teilweise geöffneten Datenbeständen des Bundes.

Die Bedürfnisse an unsere Branche entwickeln sich dadurch weiter: zum Beispiel umfassende und allgemein verständliche Dokumentation von Daten, schnelle Kommunikation auf Augenhöhe, einfache Nutzung (oder zumindest Sichtung) von Geoinformationen in Portalen aber auch die Bereitstellung offener Services, APIs und Daten (wo möglich in Echtzeit). Dadurch, dass bisher eher unterrepräsentierte Akteure auftreten, werden etablierte, aber vielleicht auch überholte Praktiken vermehrt in Frage gestellt werden. Für die Anbieter von Geoinformationen eröffnet sich die Chance, den Elan dieser neuen Nutzergruppen z.B. in die Produktentwicklung oder Qualitätsverbesserungen einfliessen zu lassen.

Consumerization und Mainstreaming

GIS wird vermehrt zu einer allgemein eingesetzten Technologie bzw. Methode werden: „GIS as a utility“. Dies ist bereits sichtbar in der fortschreitenden (leichten) GIS-Befähigung von Office-Software. Für einfache Aufgaben wie das Abbilden von Filialen auf einer Karte oder die Geocodierung eines Kundenstamms wird in Zukunft nicht mehr auf GIS-Fachleute zurückgegriffen werden müssen. Dies ist die Reifung von GIS: Der Begriff „GIS“ verschmilzt zum Teil mit anderen Themen und Disziplinen. Und: nicht überall wo GIS drin ist, steht „GIS“ drauf.

Die oben aufgezeigten Trends befähigen eine grosse Gruppe von Personen Daten – oft: Geodaten – selbst zu erheben, aus verschiedenen Quellen zu nutzen und zusammenzuziehen, aufzubereiten und weiterzuverbreiten. Dazu trägt auch die Verfügbarkeit von freier Software bei. Wie weit die Consumerization gehen wird, ist noch schwer abzuschätzen.

Neue Komplexität: IoT und smarte Systeme

Allerdings bringen technologische Impulse wie das Internet of Things (IoT) und smarte Infrastruktur, das partizipative Internet aber auch Trends wie Quantified Self sowie Virtual und Augmented Reality neue Komplexität mit sich: die bereits heute unübersichtliche Datenmenge wird sich noch weiter vergrössern. Datenströme werden wichtiger werden als Datensätze. Unternehmen und Behörden (z.B. Smart Cities) müssen durch Filtern und in Kombination von Datenströmen die richtigen Erkenntnisse gewinnen.

Dies bringt neue Herausforderungen in der Verarbeitung und Analyse von Daten, aber eben auch in der Entwicklung von künftigen Geschäftsmodellen. Hier werden Geoinformationsfachleute immer noch gefragt sein, sich aber auch zum Beispiel mit ‚Spatial Data Scientists‘ messen – oder sich zu solchen entwickeln.

R: Auch etwas für Sie?

R bei EBP

CC-BY-SA The R Foundation
CC-BY-SA The R Foundation

In diesem Blog haben wir schon verschiedentlich (teilweise) mit R erarbeitete Analysen und Visualisierungen gezeigt: etwa meine dreiteilige Serie über die Analyse von Velozähldaten mit R und Bence Tasnádys und Nadine Riesers unterhaltsamer dreiteiliger Bericht über die Eulertour mit dem Tram durch Zürich.

Bei EBP setzen wir R sehr vielfältig ein:

  • für die Bereinigung und Umformung von Daten,
  • für deskriptive und inferentielle Analysen und
  • für agentenbasierte Modellierung beispielsweise im Bereich von Energiepreisen und noch für einiges mehr.

Vor einigen Wochen habe ich R zum Beispiel genutzt, um Gemeinden basierend auf circa einem dutzend Attributen zu clustern. Mit dem berechneten Ähnlichkeitsmass zwischen Gemeinden konnte dann auf einfache Weise eine Vorschlagsfunktion ähnlich wie bei Amazon gebaut werden. Also in der Art: „Sie interessieren sich für Gossau. Möchten Sie vielleicht Gossau mit Flawil, Uzwil, Wil, Herisau oder Rorschach vergleichen?“

Wofür R?

Wieso finde ich also R interessant und wieso nutze ich neben Python, SQL, ETL-Tools u.a. eben auch die Programmiersprache und die Software R? Hier ist meine Liste von Punkten. Für andere Leute können natürlich andere Vor- oder Nachteile ausschlaggebend sein (basically: YMMV):

  • Ähnlich wie Python verfügt R mit dem Comprehensive R Archive Network (CRAN) über eine sehr grosse Menge von Libraries, welche diverse Funktionen abdecken, die in „Base R“ nicht oder nicht in dieser Güte abgedeckt sind. Zum Beispiel: Webscraping, Netzwerkmodellierung, explorative Datenanalyse, statische und interaktive Visualisierung, Verarbeitung von Geodaten, Datentransformationen etc. Was ich bei R manchmal als Nachteil empfinde (gerade gegenüber Python): es gibt nicht immer einen offensichtlich(st)en Weg, etwas zu tun. Die Fülle von Libraries ist eine Ursache hiervon.
  • R kann diverse Datenformate lesen (und viele auch schreiben), auch Geodaten. Der Zugriff auf diverse Datenbanken, NetCDF-Files, tabellarische Daten (Excel, CSV, TSV, etc.), XML-Dateien oder JSON-Dateien ist ohne weiteres möglich.
  • Datentransformationen sind eine Stärke von R: Ob Sie Daten umklassieren, säubern, Werte ersetzen, filtern, subsetten, bestichproben, gruppieren, aggregieren oder transponieren wollen – mit den mächtigen Datentransformationsfunktionen von zum Beispiel dplyr oder auch Base R ist fast alles möglich.
  • einfache Berechnung beschreibender (deskriptiver) Statistiken wie Mittelwert, Median, Standardabweichung, Schiefe einer Verteilung, und vieles mehr, auch auf facettierten Daten
  • Machine Learning-Techniken wie Regressionsanalyse, Klassifikationsanalysen, Clustering, multi-dimensional scaling (MDS-Analyse), u.v.m.
  • diverse Möglichkeiten, aus Daten gängige Visualisierungen abzuleiten wie zum Beispiel Balkendiagramme, Liniendiagramme, Scatterplots, zum Beispiel mit der vermutlich beliebtesten Library für Visualisierungen, ggplot2. Aber auch Karten, zum Beispiel mit ggmap, und interaktive Visualisierungen, mit ggvis und shiny.
  • Mit R kann man aber auch spezialisiertere Visualisierungen erstellen wie Starplots/Spiderplots, Boxplots, Violin Plots, Small Multiples oder Heatmaps.

Wieso R?

Wichtiger noch als diese Funktionen sind aus meiner Sicht aber Vorteile auf einer übergeordneten Ebene. Gerade für Datenaufbereitung, Datenanalyse und Datenvisualisierung geniesst R meiner Meinung nach einen gewichtigen Vorteil gegenüber anderen sehr viel häufiger genutzten Werkzeugen wie Tabellenkalkulationssoftware (Excel, Libre Office, etc.): In R sind alle Verarbeitungsschritte – vom Laden der Daten über allfällige Joins, Transformationen und Aggregationen, Pivot-Tabellen, Umklassierungen, Filterungen, Analyseschritte etc. bis hin zur Erstellung von Grafiken – geskriptet (in der Sprache R).

Die Vorteile dieser Vorgehensweise verglichen mit dem Arbeiten in Excel (auf die Art, wie die meisten Leute mit Excel arbeiten) sind:

  • Transparenz: Ich kann alle Verarbeitungssschritte, welche zu einem Resultat geführt haben, in Form eines Skripts abspeichern. Ich und andere können auch sehr viel später zum Beispiel noch nachlesen, welche Transformationen auf die Daten angewendet worden sind. Zusätzlich zum Quellcode kann ich die Transparenz mit erläuternden Kommentaren unterstützen. Ich kann auch eine Versionskontrolle etwa mit GitHub durchführen – da das Skript eine Textdatei ist.
  • Reduzierte Fehleranfälligkeit: Da Verarbeitungsschritte geskriptet sind und in der Regel nicht von Tastatur- oder Mauseingaben zur „Laufzeit“ der Analyse abhängig sind, reduziert sich meiner Meinung nach im Allgemeinen die Fehleranfälligkeit. Natürlich können sich auch in einem Skript noch Fehler einschleichen, aber zum Beispiel die doch ab und zu beobachteten (und von Excel gut versteckten) fehlerhaften Bezüge in umfangreichen Excel-Dateien gibt es in R zum Beispiel nicht. (Falsche Bezüge in Excel können einen ja bekanntermassen bei wirtschaftlich sehr wichtigen Entscheiden aufs Glatteis führen.)
  • Reproduzierbarkeit: Haben sich Ihre Daten seit dem letzten Anfassen inhaltlich geändert? Kein Problem, ich kann einfach mein R-Skript mit den zusätzlichen, aktualisierten oder korrigierten Daten nochmals laufen lassen und R macht dieselben Aufbereitungs- und Analyseschritte nochmals und spuckt im Hintergrund zwei Dutzend oder auch hunderte aktualisierter Grafiken aus, während ich mich anderen Problemen widme oder einen Tee trinke. Nicht zu vergleichen mit dem Aufwand, der wahrscheinlich nötig gewesen wäre, wäre der ganze Workflow nicht geskriptet umgesetzt gewesen. Wenn ich Grafiken nochmals neu produziere, laufe ich mit R auch nicht wie zum Beispiel bei Excel und Co. Gefahr, einen wichtigen manuellen Arbeitsschritt zu vergessen oder falsch auszuführen. Ich muss auch nicht alle Excel-Grafiken für die Weiterverwendung dann nochmals wieder in Rastergrafiken umwandeln.

Zuguterletzt: Mit der R-Bridge rücken R und ArcGIS künftig viel näher zusammen. Beispielsweise können in R Daten in einer File Geodatabase gelesen und analysiert werden. Auch im Microsoft-Ökosystem wird R künftig eine stärkere Rolle spielen, beispielsweise können im cloudbasierten Microsoft Azure Machine Learning (ML) Analysen in R geschrieben werden.

Hat dieser Artikel Ihr Interesse an R geweckt? Ist R das richtige Tool für Ihre Organisation? Möchten Sie gerne eine vertiefte Einführung erhalten? Wie kann R mit Ihren bestehenden Tools oder mit Ihren Python-Skripts kombiniert werden? Kontaktieren Sie mich unverbindlich.

Tilemap der Schweiz

Seit einiger Zeit werden in den (US-amerikanischen) Medien immer wieder mal Tilemaps verwendet. Das sind Karten, in denen zur einfachen und effizienten Darstellung von Informationen jeder Gliedstaat, jede Region mit derselben abstrakten Form dargestellt wird, in der Regel sind das Quadrate oder Sechsecke. Eine Übersicht und etwas Hintergrund dazu gibt es beispielsweise von NPR:

A hexagon tile grid, square tile grid and geographic choropleth map. Maps by Danny DeBelius and Alyson Hurt. (from npr)
A hexagon tile grid, square tile grid and geographic choropleth map. Maps by Danny DeBelius and Alyson Hurt. (from npr)

 

Wie ich andernorts schon mal erklärt habe, lohnt es sich meiner Ansicht nach immer, etwas über den GIS-Tellerrand hinauszuschauen, gerade im Bereich der Informationsvisualisierung. Wie Adrian Herzog und Yves Maurer habe ich mir schon vor einiger Zeit Gedanken gemacht, wie eine Square-Tilemap für die Schweiz aussehen könnte. Ein besonders gelungenes Beispiel einer Square-Tilemap kommt aus London, von After the Flood:

London Square Map, mit abstrahierter Darstellung der Themse (von After the Flood)
London Square Map, mit abstrahierter Darstellung der Themse (von After the Flood)

Der Blogpost, welcher die Erstellung dieser Karte erläutert und auch noch weitere innovative Verwendungsarten zeigt, ist äusserst lesenswert! Wir warten hier, bis sie ihn gelesen haben und wieder zurück sind.

In meiner Tilemap für die Schweiz habe ich zwar nicht eine organische Form wie die Themse aufgenommen wie das Beispiel aus London – teils, weil ich in der Schweiz wenige lineare Objekte kenne, welche einen ähnlichen Wiedererkennungswert haben. Ich habe mir aber erlaubt, das Gitter der Kacheln nicht völlig regelmässig zu gestalten. Die Halbkantone habe ich speziell mit diagonal geschnittenen Quadraten umgesetzt (was mit den Orientierungen der Halbkantone erstaunlich gut passt):

Tilemap im geographischen Raum (Shapefile)
Tilemap im geographischen Raum (Shapefile)

(Eine frühere Version der Tilemap hat versucht, die Topologie von SG/AI/AR besser abzubilden, das habe ich aber aufgegeben. Anders als Yves Maurer lasse ich aber SG und nicht die Appenzell (Appenzelle? Appenzelli? 😉 ) an TG angrenzen. Anders als die Fläche vermuten lässt, gehe ich davon aus, dass der Bevölkerungsschwerpunkt von SG recht weit nördlich ist. Aber vielleicht bin ich, in Gossau SG aufgewachsen, voreingenommen.)

Die Schweizer Tilemap ist zur allgemeinen Verwendung auf GitHub in folgenden Formaten gehostet:

  • GeoJSON in Mercator-Projektion (EPSG: 4326)
  • Shapefile in Web Mercator-Projektion (EPSG: 3857 / SR-ORG: 7483) für Webmapping-Frameworks wie CartoDB
  • Shapefile in „alten“ Schweizer Landeskoordinaten CH1903 LV03 (EPSG:21781)
  • Shapefile in „neuen“ Schweizer Landeskoordinaten CH1903+ LV95 (EPSG:2056)
  • SVG-Datei
  • Zusätzlich sind vorhanden: Beispieldarstellungen als Grafiken und Esri ArcGIS 10.3-Projekt mit verschieden gestalteten Beispiellayern.

Sie können die Schweizer Tilemap unter Nennung von „EBP, www.ebp.ch“ als Urheber beliebig verwenden (CC-BY-Lizenz) – etwa in Broschüren, Webseiten oder Zeitungsartikeln. Falls Sie das tun, würde es mich natürlich freuen, wenn ich von der Verwendung höre.

Beispieldarstellung: Ausgang der EWR-Abstimmung 1992:

Beispieldarstellung: Ausgang der EWR-Abstimmung 1992