• Agents of Change: Maschinen das Sehen beibringen

Agents of Change

Naila Murray: Maschinen das Sehen beibringen

„Wenn wir wirklich intelligente Maschinen schaffen wollen, müssen sie in der Lage sein, sich subjektive Meinungen zu bilden.“

Maschinen das Sehen beibringen

Computer Vision ist ein wichtiger Bereich der künstlichen Intelligenz. Verbesserungen bei der Beobachtung und Interpretation der Umgebung durch Maschinen könnten zu technologischen Entwicklungen führen, wie sie bisher nur in Science-Fiction-Filmen zu finden waren.

Aber werden Maschinen jemals wirklich das Sehen lernen? Was bedeutet Sehen in diesem Zusammenhang eigentlich? Und: Sollten Maschinen versuchen, die neuronalen Prozesse des menschlichen Sehvermögens nachzuahmen – oder besser bei Null anfangen?

Das sind die Fragen, die Naila Murray mit ihrem Team in der Gruppe Computer Vision im Xerox Research Centre im französischen Grenoble jeden Tag diskutiert.

Was bedeutet es, zu sehen?

Das menschliche Sehvermögen lässt sich nur schwer nachahmen. Daher haben sich viele Experten im Bereich „Computer Vision“ dafür entschieden, das menschliche Sehsystem komplett zu ignorieren. Denn könnte man nicht Maschinen entwerfen, welche die Welt völlig anders sehen – und zwar besser, als es uns das menschliche Auge gestattet?

Doch Naila, die in Trinidad und Tobago aufwuchs, ahnt, dass dieser Denkansatz in der Forschungsgemeinschaft nicht mehr ganz so verbreitet ist. Stattdessen „geht der Trend wieder dazu, erneut das menschliche Sehvermögen als Inspiration heranzuziehen“.

Naila und ihre Kollegen versuchen, Maschinen mit der Fähigkeit auszustatten, sich menschenähnliche Meinungen über ihre Beobachtungen zu bilden. Sie wollen ihnen sogar beibringen, was sie als ästhetisch ansprechend beurteilen sollen und was nicht. Und Computer sollen lernen, worauf sie sich konzentrieren müssen, wenn sie eine Szene beobachten.

Eyeball with gears

Es ist Pionierarbeit auf dem Gebiet des maschinellen Sehens, das sich traditionell mit semantischen oder objektiven Details der Umgebung befasst. „Wir haben subjektivere Eigenschaften wie Ästhetik und visuelle Salienz, also was genau beim Betrachten einer Szene Aufmerksamkeit erregt, in der Vergangenheit eher vernachlässigt“, erklärt Naila. „Diese Eigenschaften gehen über eine objektive Betrachtung hinaus, sind aber trotzdem sehr interessant. Wenn wir wirklich intelligente Maschinen schaffen wollen, müssen sie in der Lage sein, sich subjektive Meinungen zu bilden.“

Inspiration aus der Fotografie

Für ihre Arbeit wandten sich Naila und ihre Mitarbeiter an eine Online-Community für Fotografen, in der die Teilnehmer gegenseitig ihre Arbeiten bewerten. Naila wollte die Meinungen und das Fachwissen auf der Website nutzen, um einer Maschine oder einem Algorithmus die Rezension von Bildern beizubringen. Dazu verwendete sie maschinelles Lernen – eine Methode der Datenmodellierung, die Computern das Lernen ermöglicht, ohne extra programmiert zu werden. Dieses Gebiet macht sich die riesigen Mengen an verfügbaren Daten in der heutigen Welt und die ständige Steigerung der verfügbaren Rechenleistung zunutze.

Naila erläutert: „In der Vergangenheit hätte ein Forscher einen Algorithmus mit Expertenwissen zu den Merkmalen eines ästhetisch ansprechenden Bildes gefüttert. Der Algorithmus hätte dann versucht, anhand dieser Merkmale vorherzusagen, ob ein Bild ästhetisch ansprechend ist.“ Mithilfe von maschinellem Lernen können Computer sich jedoch die erforderlichen Erkenntnisse selbständig aneignen.

„Wir stellten einem Lernalgorithmus einfach Bilder mit den zugehörigen Rezensionen zur Verfügung und gaben ihm die Aufgabe, diese Rezensionen zu reproduzieren. Wir gingen davon aus, dass wir – wenn 100 Menschen darin übereinstimmen, dass ein Bild schön ist – recht zuversichtlich sein können, dass dies auch der Fall ist.

Three views of a highway

„Sie können sich vorstellen, dass die ästhetischen Merkmale zur Rezension eines Porträtfotos nicht dieselben wie bei der Bewertung einer Landschaftsaufnahme sind. Bei einer Landschaftsaufnahme betrachtet man eher Merkmale wie eine komplexe Zusammensetzung und Fluchtlinien. Bei einem Porträt gelten andere Regeln. Diese Unterschiede lernt die Maschine, indem sie zahllose Beispiele analysiert.

„Natürlich erfolgt die ästhetische Bewertung an erster Stelle durch den Menschen. Wir stellten also fest, dass zahlreiche Eigenschaften, die intuitiv sind oder bereits als Faustregel existieren, auch hier gelten.“

Eine Beziehung zu Maschinen

Nailas Interesse an Computer Vision ist auf ihr Studium der Elektrotechnik an der Princeton University zurückzuführen. „Ich interessierte mich sehr für selbst-navigierende Maschinen, also Maschinen, die sich in einem Umfeld selbständig zurechtfinden können. Ich wollte erforschen, was es braucht, um solche Maschinen zu schaffen. Ich machte also meinen Master-Abschluss in Künstlicher Intelligenz und Computer Vision.“

„Warum? Weil Computer Vision viel mit Intuition im Hinblick auf die visuelle Wahrnehmung des Menschen zu tun hat, gleichzeitig aber auch eine echte Herausforderung darstellt. Die menschliche Wahrnehmung erlaubt uns, Aufgaben wie z. B. die Objekterkennung fast nebenbei auszuführen. Einer Maschine ein vergleichbares Erkennungsvermögen beizubringen, hat sich jedoch als äußerst schwierig erwiesen. Die Untersuchung, welche Erkenntnisse wichtig sind, um Maschinen das Sehen beizubringen, und welche nicht, ist faszinierend.“

„Zum Beispiel kann der Mensch die Farbe eines Objekts in zahlreichen verschiedenen Lichtverhältnissen korrekt erkennen. Es kann draußen hell sein. Es kann dunkel sein. Es kann neblig sein. Wir können trotzdem mit sehr hoher Genauigkeit sagen, welche Farben wir sehen. Für einen Computer sind diese unterschiedlichen Bedingungen extrem schwierig zu handhaben, während unser Sehvermögen einen Großteil dieser Veränderungen bei den äußeren Bedingungen automatisch ausgleicht.“

Eyeball with a brain in the pupil

Deep Learning

Die Beschäftigung mit dem menschlichen Sehsystem entwickelte sich für Naila nach und nach zu einer wichtigen Inspirationsquelle, während sie im Rahmen ihrer Doktorarbeit an Modellen für das maschinelle Sehen arbeitete.

Der Wechsel in den Bereich „Deep Learning“, ein Teilgebiet des maschinellen Lernens, welches sich mit mehreren Schichten der Signalverarbeitung beschäftigt, war für sie der logische nächste Schritt. Naila erläutert: „Einige Deep Learning-Methoden nutzen künstliche neuronale Netze, die ihre Inspiration vom Sehsystem unseres Gehirns beziehen. Die „tiefen“ Netzstrukturen, die beim maschinellen Sehen zum Einsatz kommen, sind von biologischen Modellen weit entfernt. Die wichtigste Inspiration, die hierarchische Informationsextraktion, ist aber dieselbe.“

A man's eyes

Naila setzt auf Deep Learning, um Computern einen weiteren Aspekt bei der Herausforderung des maschinellen Sehens zu erschließen. Sie will Maschinen helfen, selbst zu entscheiden, was sie in ihrem Blickfeld betrachten sollten. Wie wichtig dieser Bereich der Forschung zu maschinellem Sehen ist, liegt auf der Hand. Beispielsweise benötigen Maschinen, die sich in einem Umfeld in Echtzeit selbständig zurechtfinden müssen, effiziente Algorithmen, um ihre visuelle Aufmerksamkeit zu lenken. Und ebenso wie Menschen ihre visuelle Wahrnehmung auf das Wichtigste konzentrieren, um Gehirnkapazität zu sparen, müssen Maschinen ebenfalls in der Lage sein, die visuellen Reize zu erkennen, die ihre begrenzte Rechenleistung verdienen.

Den Blick einer Maschine lenken

Naila erläutert: „Unsere Augen scannen ständig unser Sichtfeld und das ist etwas, was Computer Vision-Systeme ebenfalls tun. Stellen wir uns vor, eine Maschine muss die Bewegung einer Person in einem Video nachverfolgen. Wenn das Video im Freien gedreht wurde, kann die Maschine wahrscheinlich ohne Bedenken den Himmel ignorieren und sich auf den unteren Bildbereich konzentrieren. Meine Kollegen und ich haben uns damit beschäftigt, anhand von Deep Learning-Methoden die Arten von Aufmerksamkeitsmustern nachzuahmen, die für solche Szenarien erforderlich sind.“

„Also verwendeten wir eine Sammlung von Eye-Tracking-Daten. Diese erfassten die Augenbewegung von Menschen, während sie eine Reihe von Bildern betrachteten. Diese Bilder und die Eye-Tracking-Daten stellten wir einem Deep Learning-Algorithmus zur Verfügung, der einem Convolutional Neural Network beibrachte, die entsprechenden Aufmerksamkeitsmuster zu reproduzieren. Dies war recht erfolgreich und die erstellten Aufmerksamkeitskarten stellen die erfassten Daten sehr gut nach.“

Naila hat auch untersucht, wie diese Arbeit Behörden bei der Überwachung von Carpooling-Mautsystemen unterstützen kann. Ihr Team hilft den Systemen zu erkennen, wie viele Passagiere sich in einem Auto befinden, indem es irrelevante Hintergrundinformationen ignoriert und Systeme so genauer macht.

Cars on the highway

Nailas Team befasst sich auch mit der Entwicklung einer Augmented-Reality-Anwendung, die sich als besonders nützlich für diejenigen erweisen könnte, die ein fremdes Fahrzeug fahren. Die mobile App ermöglicht es den Benutzern, das Innere eines Autos zu scannen, sodass die Funktion der einzelnen Tasten und Schalter auf dem Bildschirm angezeigt wird. „Wenn man eine Vorstellung davon hat, wo Leute im Auto üblicherweise hinschauen – wie zum Beispiel das Infotainmentsystem oder die Instrumententafel, dann kann man dem Aufmerksamkeitsmodell beibringen, diese Bereiche zu lokalisieren. Die App kann sich so schnell auf Bereiche konzentrieren, die diese wichtigen Elemente aller Wahrscheinlichkeit nach enthalten.“

AI-Experten vereinigt euch

Nailas Meinung nach dürfte der Bereich Computer Vision zunehmend auf eine interdisziplinäre Zusammenarbeit zwischen den verschiedenen Gebieten der künstlichen Intelligenz angewiesen sein. Ihre Gruppe befasst sich bereits gemeinsam mit anderen Forschern auf dem Gebiet der Computerlinguistik mit der Interaktion zwischen Bildern und Text. Naila interessiert sich besonders für eine neue Facebook-Innovation, mit der sehbehinderte Benutzer Bilder „sehen“ können, indem sie in einer Form beschrieben werden, die von einem Screenreader vorgelesen werden kann.

Man working at a desk

„Dabei arbeiten drei Elemente zusammen“, sagt sie. „Maschinelles Sehen dient dazu, den Bildinhalt zu verstehen, natürliche Sprache dient dazu, diesen in Worte zu fassen, und die Spracherzeugung dient dazu, ihn in die mündliche Form zu übertragen. Es ergibt Sinn, dass diese Elemente zusammenarbeiten.“

„Die Linguistik befasst sich intensiv damit, wie Sprache dargestellt, deren Bedeutung erfasst und zusammengefasst werden kann. Es stellt sich heraus, dass sich eine Vielzahl von Möglichkeiten zur Darstellung von Text auch recht erfolgreich zur Darstellung von Bildern verwenden lässt.“

„Auf dem Gebiet der Computer Vision war Zusammenarbeit schon immer sehr wichtig. Ich würde sagen, sie wird sogar immer wichtiger, da die Technologie mittlerweile so ausgereift ist, dass wir beginnen können, komplexere Probleme aus mehreren Richtungen anzugehen.“

Computern das Denken beibringen

Naila und Hunderte von anderen Wissenschaftlern und Ingenieuren bei Xerox sind im Wesentlichen darum bemüht, Computer intelligenter zu machen. Wie weit und wie schnell wird sich diese Intelligenz Nailas Meinung nach weiterentwickeln?

„Allein in den letzten vier Jahren hat sich der Bereich Computer Vision enorm gewandelt. Wandel kann so schnell geschehen, dass ich nicht ausschließen würde, dass wir in den nächsten 20 Jahren eine wirklich spannende Entwicklung erleben werden. Auch wenn sich die technologische Singularität nicht so bald einstellen dürfte.“

„Ich bin kein Freund von Vorhersagen. Aber ich bin immer sehr daran interessiert, mich mit der neuesten Entwicklung zu beschäftigen. In der Forschung schließt man sein Projekt nie ab, sondern fragt sich ständig ‚Wie kann ich es verbessern?‘ oder ‚Wie lässt sich das auf diese Situation übertragen?‘. Genau mit diesen Fragen beschäftige ich mich, wenn ich den Blick in die Zukunft richte.

„Einer der Gründe, warum ich für Xerox arbeite, ist dass sich das Unternehmen für die Entwicklung innovativer Lösungen engagiert, um das Leben der Menschen positiv zu verändern. Und mein Job ist es, über Möglichkeiten nachzudenken, wie wir dies erreichen können.“

Agents of change

Wir alle haben die Welt verändert. Jeder einzelne von uns. Mit jedem Atemzug zieht unsere Existenz endlose Kreise.
Aber nur wenige von uns haben die Möglichkeit, das Leben von vielen zum Besseren zu verändern. Und noch weniger werden jeden Tag dazu herausgefordert, dies zu tun. Vor diese Herausforderung werden die Wissenschaftler bei Xerox tagtäglich gestellt – zu versuchen, Veränderungen herbeizuführen.
Im Gegenzug geben wir ihnen die Zeit und den Freiraum, um zu träumen. Und die Ressourcen, um diese Träume Wirklichkeit werden zu lassen – unabhängig davon, ob sie neue Materialien mit unglaublichen Funktionen entwickeln oder Augmented Reality nutzen, um das Erinnerungsvermögen von Alzheimer-Patienten zu stärken.
Xerox ist stolz auf seine „Agents of Change“ in seinen weltweiten Forschungszentren.