Automatische Bildverarbeitung schützt vor Einbruch und Terror

Die Videoüberwachung wird intelligent: Sie alarmiert erst dann das Wach- oder Aufsichtspersonal, wenn etwas passiert – in Räumen von Museen und Banken, Hallen von Bahnhöfen und Flughäfen oder Außenbereichen von Fabriken und Botschaften. Bosch-Forscher entwickeln dazu Algorithmen zur automatischen Bildverarbeitung.

Plötzlich war die wertvolle Skulptur verschwunden. War die Aufsichtsperson unaufmerksam oder abgelenkt? Jedenfalls reichten die paar Minuten dem Dieb, das Prunkstück aus dem Museum zu schaffen. Später, beim Durchsehen der Aufnahmen der Sicherheitskameras konnte auf einen mutmaßlichen Täter geschlossen werden. Doch die Skulptur war erst einmal weg.

Das Beispiel ist fiktiv, zeigt aber das Wesentliche: Die Aufmerksamkeit eines Menschen ist beschränkt, und auch eine Videoüberwachung, die sich nur auf die Aufzeichnung und Darstellung von Bildern beschränkt, hat ihre Grenzen. Für den Geschäftsbereich Sicherheitssysteme von Bosch entwickeln die Hildesheimer Forscher deshalb Bildverarbeitungssysteme, deren Algorithmen Bewegungen und Veränderungen in einer Bildsequenz automatisch erkennen können. Anschließend „entscheidet“ das System, ob ein Alarm auszulösen ist, und bringt in diesem Fall die Videobilder optimal aufbereitet auf die Bildschirme des Wachpersonals.

Denn in letzter Instanz kann und soll nur der Mensch beurteilen, wie zu reagieren ist. Da Studien aber gezeigt haben, dass ein Beobachter ohne Ablenkung nur vier Monitore gleichzeitig überwachen kann, hat die automatische Bildverarbeitung die Aufgabe, das Wesentliche herauszufiltern. Das Wachpersonal im Museum bekommt also nicht ständig ein Videobild mit der Skulptur vorgespielt, sondern wird nur alarmiert, wenn etwas passiert.

Die Bildverarbeitung erfasst Objekte ganz einfach durch ihre Konturen. Helligkeits- oder Farbunterschiede zwischen den einzelnen Bildpixeln werden ermittelt und auf diese Weise Veränderungen im Bild erkannt. Wird eine Skulptur oder ein Gemälde bewegt, bzw. fehlt plötzlich etwas, wird dies sofort bemerkt und führt zum Alarm. Wird indes die Skulptur durch ein Imitat ausgetauscht, bleibt auch dies nicht unerkannt, da die Algorithmen keine Einzelbilder auswerten, sondern immer Bildsequenzen. Pro Sekunde werden typischerweise 25 Bilder aufgezeichnet und ausgewertet.

Die Herausforderung an die Forscher bei dieser Anwendung ist nun weniger die Detektion von Objekten oder Veränderungen, sondern das Unterdrücken von Störgrößen. Die definierte Umgebung in einem Museum macht da natürlich weniger Probleme, das bunte Treiben auf einem Bahnhof oder in einer Fußgängerpassage schon eher. Sich ändernde Beleuchtung, Schattenwürfe über den Tagesverlauf, Regen, Schnee, selbst das Herabfallen von Blättern im Herbst müssen die Forscher in ihren Algorithmen berücksichtigen. Als Bildänderung erkennt ein Algorithmus beispielsweise laufende Personen und Blätterrauschen gleichermaßen. Durch statistische Analyse der Bildinformationen werden Störgrößen, z.B. das Blätterrauschen, herausgefiltert.

Anschließend werden die detektierten Objekte in aufeinander folgenden Bildern verfolgt, nach ihrer Größe und anderen Eigenschaften klassifiziert und im vordefinierten Fall – etwa beim Überschreiten einer Sicherheitsgrenze oder beim Abstellen und Zurücklassen eines Koffers – Alarm ausgelöst.

Die Objektklassifikation der Bildinhalte – beispielsweise nach Fußgänger, Radfahrer, Auto, Hund, Vogel – programmieren die Forscher sowohl für die Sicherheitssysteme als auch für zukünftige Fahrerassistenzsysteme bei Kraftfahrzeugen. In beiden Fällen wird eine Klassifikation gefordert. Wird ein Fußgänger durch die Videokamera kurz vor einem unvermeidbaren Unfall erkannt, können Sicherheitssysteme aktiviert werden, beispielsweise um durch ein leichtes Anheben der Motorhaube die Verletzungen zu mindern. Gleichfalls ist es für Wachleute von Interesse, ob sich eine Person oder ein Tier einem Sicherheitszaun nähert.

Allerdings lässt sich noch nicht aus den Videodaten auf die mutmaßliche Absicht der „Objekte“ schließen. Zukünftige Arbeiten beschäftigen sich deshalb mit der Szeneninterpretation. Szenarien wie „Zwei Leute begrüßen sich per Handschlag“, „Tauschen etwas aus“, „Schlagen sich“ oder „Nachlaufen, jemand wird verfolgt“ werden aus den Daten herausgelesen oder zumindest ein Wahrscheinlichkeitsmaß für diese Szenarien abgeleitet, um die entsprechenden Videobilder einem menschlichen Begutachter dann vorzulegen.Interessant ist dies für Großveranstaltungen vom Festival bis zum Fußballspiel, aber auch für neuralgische Plätze in den Innenstädten.

Um sensible Bereiche beispielsweise vor Einbruch, Überfall oder Anschlägen zu schützen, sind auch Klassifikationen wie „Dort hält ein rotes Auto vor der Bank“ oder „Ein Kastenwagen parkt vor der Botschaft“ möglich. Geht bei einem Einbruch eine Scheibe zu Bruch, schwenkt die Kamera direkt auf die akustische Quelle, wenn Mikrophone in das System einbezogen sind.

Mit standardisierten Verfahren werden die anfallenden Videodaten komprimiert, mit so genannten Metadaten versehen und abgespeichert. Durch diese Metadaten ist es dann möglich, später den Datensatz mit einer Suchanfrage wie „Zeige mir alle Situationen in den letzten zwei Wochen, in denen ein rotes Auto an der Bank vorbeifährt“ zu durchforsten. Bei diesen mächtigen Möglichkeiten zukünftiger Bildverarbeitung muss auch der Schutz der Privatsphäre berücksichtigt werden. Je nach Anwendung stellen die Programmierer sicher, dass Gesichter und Nummernschilder automatisch unkenntlich gemacht werden.