Der digitale Zwilling von Zürich
Aus Millionen von Bildern und Videos haben ETH-Forscher ein dreidimensionales Modell der Stadt Zürich erstellt. Die von ihnen entwickelten Algorithmen erkennen automatisch Bildinhalte – seien es Gebäude, Fenster, Bäume, Gewässer, Menschen oder Autos. Die Technologie kann auch den Verkehrsfluss analysieren.
Nein, das oben stehende Bild von Zürich stammt nicht von Google Earth. Es ist auch keine Luftaufnahme aus einem Flugzeug oder einer Drohne. Es ist ein digitaler Zwilling der Stadt – ein 3-D-Modell, das ein Forscherteam der ETH Zürich allein aus Bildern zusammengefügt hat. In den vergangenen fünf Jahren hat das Team im Computer Vision Lab der ETH über 3 Millionen Fotos und Videos der Limmatstadt aus allen erdenklichen Quellen gesammelt: Luftaufnahmen, mit Spezialfahrzeugen aufgenommene 360-Grad-Panoramabilder, Touristenfotos aus sozialen Netzwerken, öffentliche Webcam-Daten und YouTube-Videos.
Um die Stadt digital nachzubauen, entwickelten sie eine neue Technologieplattform, Varcity genannt. Dabei verwendeten sie die Technik der Computer Vision, zu Deutsch: Bildverarbeitung. Das so entstandene Stadtmodell ist viel mehr als eine dreidimensionale Abbildung. Dank künstlicher Intelligenz und Algorithmen des maschinellen Lernens erkennt das System automatisch, was abgebildet ist – seien es Gebäude, Fenster, Bäume, Gewässer, Menschen oder Autos. Entwickelt wurde Varcity im Rahmen eines Projekts des Europäischen Forschungsrats (ERC).
Riesiger Datenschatz
In Fotos und Videos stecken viel mehr Informationen, als sich viele Menschen vorstellen können. Mit der Technologie der ETH kann dieser riesige Datenschatz gehoben werden. "Die Faustregel lautet: Was ein Experte sehen kann, das kann auch die Maschine digital erkennen", erklärt Hayko Riemenschneider. Er ist Varcity-Projektleiter in der Gruppe von Luc Van Gool, Professor am Computer Vision Lab der ETH Zürich. Aus dem 3-D-Modell geht hervor, aus welchem Material Fassaden sind, wie viele Fenster ein Haus hat, wie gross diese sind und welche Funktion ein Gebäude hat: Ist es eine Kirche, eine Sehenswürdigkeit oder ein Privathaus? Die Daten können zudem Aufschluss darüber liefern, wie viele Personen ein Haus durchschnittlich pro Tag betreten oder wo sich Menschen sammeln.
Die Technologie kann auch Veränderungen an Bauten simulieren, zum Beispiel die Auswirkungen einer Aufstockung auf die Umgebung: Wo und wann wirft das Gebäude Schatten? Wie viel Licht fällt in die Fenster des Nachbarhauses ein? Auch für Projekte mit Building Information Modeling (BIM) könne die Technik genutzt werden, sagt Riemenschneider. Die aus den Bildern gewonnenen Daten lassen sich automatisch, ohne Eingriff des Menschen, in ein BIM-Modell füttern.
Für Stadt- und Verkehrsplanung
Im Strassenraum kann die Technologie den Verkehrsfluss detailliert analysieren und Fussgängerströme messen – je nach Anwendung sogar in Echtzeit. Verkehrszählungen werden damit sehr einfach: Sie können allein mit Kameras und ohne in der Fahrbahn installierte Sensoren durchgeführt werden. Auf dieser Datengrundlage lassen sich auch Ampeln abhängig von der Verkehrslage in der gesamten Stadt schalten. Aus den Bilddaten können zudem Informationen herausgeholt werden, wie eine Kreuzung umgestaltet werden muss, damit der Verkehr besser fliesst und sich nicht an anderer Stelle staut.
Denkbar sind weiter visuelle Navigationsanwendungen. So werden die Autofahrer künftig vielleicht nicht mehr angewiesen, in 100 Metern rechts abzubiegen. Stattdessen wird ihnen etwa empfohlen, bis zum grossen roten Haus und dann rechts zu fahren. "Wir mussten dafür erst einmal lernen, was Menschen als Besonderheiten erkennen – beispielsweise, ob sie eine grosse Tür ebenso auffällig finden, wie unsere Software es tut", so Riemenschneider. Auch hochauflösende Karten für autonomes Fahren könnten mit den Daten erstellt werden. «Unsere Technologie bringt die Dynamik, das Leben, die Menschen und Fahrzeuge in 3-D-Städtemodelle», erklärt der Varcity-Projektleiter. Das sei einer ihrer grossen Vorteile gegenüber bekannten Anwendungen wie Google Street View, deren Bilder übrigens nicht in das Stadtmodell der ETH einfliessen.
Privatsphäre wird geschützt
Um aus den Bilddaten ein dreidimensionales Modell zu erstellen, verwenden die Wissenschaftler die Triangulation. Sie benötigen dazu von einem Objekt mehrere Aufnahmen aus unterschiedlichen Blickwinkeln. Über die Analyse der Distanzen und Winkel auf den verschiedenen Bildern lassen sich die Eckpunkte des Objekts im Raum genau verorten. Die Privatsphäre bleibt laut Riemenschneider geschützt. Die Technologie sei von Anfang nach dem "Privacy by design"-Prinzip aufgebaut worden. Das bedeutet: Es gelangen keinerlei Fotos oder Videos an die Öffentlichkeit. Die Algorithmen rechnen – teils in Echtzeit – diese Bilddaten in Informationen in anonymisierter Form um. Erst diese werden dann für die Modelle verwendet.
Bei Google Street View werden Gesichter und Autonummern gepixelt. Im Endprodukt von Varcity landen dagegen keine Informationen, die eine Identifikation einzelner Menschen erlauben. "Wir erzeugen neue Daten, die auf realen Bildinformationen basieren», erklärt Riemenschneider. "So kann es nicht geschehen, dass wir beispielsweise eine Person übersehen und zu pixeln vergessen." Lediglich die Anzahl an Personen und Fahrzeugen an bestimmten Orten ist aus den Visualisierungen abzulesen. Die Menschenströme und der Verkehr werden als Avatare angezeigt. Varcity entspricht damit den Datenschutzvorschriften.
"Das Einzigartige an unserem Projekt ist, dass wir eine ganze Stadt allein anhand von Bilddaten modelliert haben", sagt Riemenschneider. Mit der gleichen Technologie könnten Modelle jeder anderen Stadt erstellt werden. Erste Studien zeigen, wie gut die künstliche Intelligenz die Perspektive der Menschen bereits verstanden hat. So liessen die Forscher das System eine Stadtführung entwickeln, bei der alle wichtigen Sehenswürdigkeiten gezeigt werden. Sie machten dabei keinerlei Vorgaben, welche Gebäude abgedeckt werden müssen. Die künstliche Intelligenz lernte allein aus den zugrundeliegenden Bildern, wie Gebäude genutzt werden, wie oft sie fotografiert und wo die Aufnahmen geteilt wurden. Auch architektonische Auffälligkeiten erkannte das System.
Das 3-D-Modell von Zürich bieten die Wissenschaftler nicht als Anwendung an, doch die Technologie eröffnet vor allem in der Stadt- und Verkehrsplanung zahlreiche Möglichkeiten. Um Anwendungen auf dieser technologischen Basis zu vermarkten, haben die beteiligten Forscher mehrere Start-up-Firmen gegründet. Das junge Unternehmen Spectando bietet für den Immobilienmarkt virtuelle Gebäudebegehungen an. Casalva führt für Versicherungen virtuelle Schadensanalysen an Gebäuden durch, zum Beispiel nach Unwettern wie Hagelstürmen. Für diese Anwendungen werden keine speziellen Geräte benötigt: Gewöhnliche Smartphone-Aufnahmen reichen aus.
Einfaches Parkleitsystem
Auch das aus Varcity hervorgegangene Spin-off Parquery nutzt die Technologie. Die Firma entwickelte ein Parkleitsystem, das ausschliesslich mit auf Parkplätze gerichteten Kameras funktioniert und keine Parkplatzsensoren braucht. Der Computer wertet die Videodaten in Echtzeit aus, kann Autos erkennen und weiss somit, welche Parkplätze leer sind, aber auch, welche Autos nicht regelkonform parkiert wurden. Das System gelangte zuerst in Locarno zum Einsatz. Daneben gibt es international weitere 30 Projekte. Das ETH-Spin-off Uniqfeed schliesslich verwendet die Methoden, um bei Fernsehübertragungen von Sportveranstaltungen Bandenwerbung und einzelne Spieler zu erkennen. Damit kann es einerseits deren Sichtbarkeitsdauer während der Übertragung berechnen und andererseits die Bandenwerbung für unterschiedliche Nutzergruppen personalisieren. (stg)