Web Scraping von Wikipedia-Koordinaten

Wikipedia ist eine fast unerschöpfliche Informationsquelle: Die deutsche Ausgabe umfasst mittlerweile mehr als 1.5 Millionen Artikel. Wenn ich jeden Tag 100 Artikel daraus lesen würde, wäre ich ungefähr für die nächsten 40 Jahre beschäftigt, sofern keine neuen Artikel hinzukämen. Aus geographischer Sicht bemerkenswert und möglicherweise nicht so bekannt ist die Georeferenzierung von vielen Artikeln. Im WikiProjekt Georeferenzierung werden Lageinformationen für Wikipedia-Inhalte bestimmt. Mittlerweile gibt es deshalb in der deutschsprachigen Wikipedia über 340’000 Koordinatenangaben.  Beispielsweise sind neben den Artikeln für Städte oder Berge auch Artikel zu Bauwerken georeferenziert. Die Koordinaten eines Orts sind jeweils oben rechts eines Artikels zu finden. Praktischerweise kann man sich den Ort auch gleich auf einer Open Street Map-Karte anzeigen lassen.

millionenstaedte307 Millionenstädte gemäss Wikipedia

„Web Scraping von Wikipedia-Koordinaten“ weiterlesen

GIS-Netzwerk im Zeitalter von Social Media

Geographie („Erdbeschreibung“) beschäftigt sich mit Raum. Spätestens seit Michael Hermanns und Heiri Leutholds Arbeiten (sotomo) ist aber klar, dass diese Räume nicht immer geographisch im Sinn von „physisch“ sein müssen: Wir können zum Beispiel auch Merkmals-Räume, topologische Räume (Netzwerke, wie zum Beispiel Strassennetze oder Entwässerungssyteme) oder virtuelle Räume analysieren. Letzteres habe ich mir in diesem Blogpost vorgenommen.

Stephan Heuel (@ping13) und ich (@rastrau) sind beide schon länger auf Twitter. Wir schätzen die schnelle, unkomplizierte Art von Twitter als Plattform zur Kommunikation und zum Austausch von Informationen. Wir beide verfolgen auch zahlreiche GIS-Blogs und Twitter ist die schnellere, interaktivere Ergänzung dazu. Erfreulicherweise sind immer mehr Kolleginnen und Kollegen aus der GIS-Welt auch auf Twitter vertreten. Ein systematischer Überblick fehlte (zumindest mir) aber. Das habe ich zum Anlass genommen, die meines Wissens erste

Vermessung der Schweizer GIS-Szene 2.0

vorzunehmen. Dazu habe ich aus der Schar der Leute, denen ich auf Twitter folge, eine Liste erstellt mit Schweizer Twitter-Accounts, die sich mit Themen rund um GIS, räumliche Analyse und Kartographie auseinandersetzen. Etwas angereichert habe ich die Leute, indem ich auf Twitter noch um weitere GIS-bezogene Accounts nachgefragt habe. So erhielt ich meine circa 35 sogenannten „seed users„, also Ausgangspunkte

Diese subjektive Auswahl erfüllte mein Ziel einer Vermessung der Schweizer GIS-Szene 2.0 aber natürlich noch nicht! Ich habe dann ausgehend von dieser Liste einen Ansatz umgesetzt, mir unbekannte Accounts mit denselben Eigenschaften zu entdecken: Unter Entlehnung von Know How aus einem privaten Projekt, habe ich für die seed users diejenigen Accounts ermittelt, denen sie folgen und die ihnen folgen. Alle so entdeckten neuen Twitter-Accounts, welche mindestens vier Beziehungen mit meiner Gruppe von seed users hatten, habe ich anschliessend manuell geprüft. „Vier Beziehungen“ heisst hier beispielsweise: ein bestimmter Account folgt zwei seed users und zwei seed users folgen ihm. Bei der Prüfung habe ich aufgrund des Standorts und der Beschreibung („Twitter Bio“) eines Accounts (und in Zweifelsfällen aufgrund abgesetzter Tweets) entschieden, ob er der Schweizer GIS-Szene 2.0 zugeordnet werden kann oder nicht. Nach der Prüfung hat sich die Anzahl auf immerhin 74 Schweizer-GIS-Accounts verdoppelt!

Erkenntnisse

Hintergrund der Twitter-Nutzerinnen und -Nutzer

Die erste Abbildung zeigt eine Wordcloud der Begriffe aus den „Twitter-Biographien“ der gefundenen GIS-Twitter-Nutzerinnen und -Nutzer. Die üblichen Verdächtigen – gis, geospatial, schweiz, geoinformation, developer, geographer, data, geomatik/géomatique – sind natürlich vertreten. Daneben ist auch die „Open“-Community enthalten mit open, openstreetmap, qgis.

CH-GIS-Szene: Twitter-Biographien

 

Wer folgt wem und wer bildet zusammen eine Community?

Die nächste Abbildung zeigt das Netzwerk, das die 74 Twitter-Nutzerinnen und -Nutzer zusammen aufspannen. Mit Software für die Analyse sozialer Netzwerke habe ich die Knoten Gruppen (Communities) zuweisen lassen. Die verwendete Methode hat eine Zufallskomponente, aber die meisten der hier gezeigten Gruppen bleiben ziemlich stabil bei wiederholter Berechnung.

Die Knoten sind zudem gemäss der Anzahl ihrer „Branchen-Follower“ skaliert. Das bedeutet, ich habe für die Skalierung nicht die Anzahl Gesamt-Follower benutzt, sondern die Anzahl Follower im unten abgebildeten Netzwerk. Ansonsten wären manche Accounts, zum Beispiel jener des Bundesamts für Statistik und des Bundesamts für Umwelt deutlich grösser.

CH-GIS-Szene: Anzahl Follower

Sprachgrenzen aufgehoben?

„GIS-Netzwerk im Zeitalter von Social Media“ weiterlesen

Offene Daten: Was läuft in der Schweiz?

Es gibt das interessante aber nicht ganz unumstrittene geflügelte Wort, dass 80% aller Informationen einen räumlichen Bezug haben. Ob die 80% nun stimmen oder ob es eher 60% sind, sicherlich sind Geoinformationen weit verbreitet und von immer noch wachsender wirtschaftlicher Bedeutung. Letzte Woche fanden dann auch dicht an dicht gerade zwei sehr interessante Veranstaltungen mit Geoinformationsbezug statt: Das sogenannte Spirgartentreffen der etablierten Schweizer GIS-Community und das Open Data Camp zur Erkundung offener Daten. Wir haben beide Veranstaltungen besucht und schauen zurück:

Offene Daten: Frischer Wind für die Verwaltung? (www.opendata.ch)

„Offene Daten: Was läuft in der Schweiz?“ weiterlesen

Ist OpenStreetMap das Wikipedia für Karten?

Vor vier Jahren haben wir im Rahmen eines Projekts in München das erste Mal OpenStreetMap (OSM) in einem Kundenbericht erwähnt. Damals bedurfte das freie Geodatenprojekt bei unserem Auftraggeber einiger Erklärungen, obwohl schon zu diesem Zeitpunkt die Stadt München in OSM qualitativ und quantitativ sehr gut abgedeckt war. In den letzten Jahren ist OSM immer mehr ins öffentliche Bewusstsein gerückt und Unternehmen wie Apple nutzen die Daten von OSM. Doch was ist OpenStreetMap genau? Eine gängige Erklärung war und ist weiterhin, OpenStreetMap sei „Wikipedia für Karten“. Als erste Näherung ist die Definition nicht schlecht, da damit insbesondere der Crowdsourcing-Charakter herausgestrichen wird. Der Vergleich wird aber eigentlich beiden Projekten nicht ganz gerecht und hilft auch nicht, OpenStreetMap im Detail zu verstehen.

Ich möchte in diesem Blogpost den Vergleich von OpenStreetMap und Wikipedia nutzen, um uns dem Phänomen freier Geodaten zu nähern. Vor anderthalb Jahren hat Oliver Kühn bereits einen Blogpost über OpenStreetMap und Wikipedia geschrieben. Wir nehmen die Idee auf und möchten eine Reihe von Ähnlichkeiten und Unterschieden aufzeigen. Wir hoffen, dass dies dem besseren Verständnis für Crowdsourcing-Projekte allgemein und OSM im Besonderen dient.

Die Ähnlichkeiten und Unterschiede zwischen Wikipedia und OpenStreetMap

„Ist OpenStreetMap das Wikipedia für Karten?“ weiterlesen