© Bild: Screenshot apple.com, ORF.at, iphoto, Gesichter

Wie Computer sehen lernen

"MATRIX"

08.02.2009

Die vergleichsweise einfache Gesichtserkennung, wie sie in Apples iPhoto, Googles Picasa und zahlreichen Digitalkameras zur Anwendung kommt, ist eine erste Anwendung des maschinellen Sehens für den Massenmarkt. Damit Computer tatsächlich sehen lernen, ist auch die Hilfe der Internet-Community gefragt.

Anfang Jänner hat Apple bei der Macworld Expo unter anderem die neueste Version des Fotoverwaltungsprogramms iPhoto vorgestellt. Neben einer verbesserten Bildbearbeitung und anderen Extras bietet das Programm jetzt auch die Funktion "Gesichter". Man kann damit Fotos von Personen mit deren Namen versehen und das Programm dann weitere Fotos dieser Person im digitalen Fotoalbum suchen lassen. Picasa von Google bietet ein vergleichbares Feature schon seit September vergangenen Jahres an, allerdings nur in der US-amerikanischen Version.

Digitale Kameras haben die Gesichtererkennung schon etwas länger eingebaut, um die Belichtung automatische darauf abzustimmen. Es gibt sogar Kameras, die auslösen, sobald das Fotomodell lächelt.

Am Sonntag in "matrix"

"Matrix - computer und neue medien" berichtet am Sonntag um 22.30 Uhr in Radio Ö1 über die Bedeutung der GPU, wie Computer sehen lernen, und warum Visualisierung für Medizin und Wissenschaft immer wichtiger wird.

Maschinelles Sehen

Den wissenschaftlichen Hintergrund für derartige Features liefert das Fach mit dem englischen Namen Computervision, früher auf Deutsch als maschinelles Sehen bezeichnet. Dass Gesichtserkennung eine der ersten Anwendungen für den Massenmarkt ist, ist kein Zufall. Erstens ist es ein Feature, das von den Usern gerne angenommen wird, und zweitens ist das Erkennen eines Gesichtes an sich für den Computer noch vergleichsweise einfach, weil Gesichter gewisse allgemeine Merkmale haben. Diese Merkmale muss man bei der Entwicklung einer Gesichtserkennungssoftware dem Computer aber erst einmal beibringen, beziehungsweise ihm helfen, es zu lernen.

Vereinfacht gesagt, nimmt man dafür ein digitales Foto einer Person, zeichnet die Umrisse des Gesichtes nach und schreibt dazu "das ist ein Gesicht". Dann nimmt man ein Foto einer Sonnenblume, zeichnet sie ebenfalls nach und schreibt dazu, "das ist kein Gesicht". Der Computer sucht sich dann selbst typische Merkmale, anhand derer er ein Gesicht erkennen kann.

Etwas komplexer wird ein Gesichtserkennungsprogramm natürlich noch, wenn es, wie bei iPhoto und Picasa, die Gesichter konkreter Personen erkennen soll. Bei Frontalaufnahmen funktioniert das aber schon ganz gut.

Tausende annotierte Bilder notwendig

Dass ein Computer ganz anders lernt als ein Mensch, zeigt das Beispiel der Autoerkennung. Beim Trainieren des Systems habe man festgestellt, so Horst Bischof, Professor am Institut für maschinelles Sehen und Darstellen der Technischen Universität Graz, dass es als wichtigstes Merkmal eines Autos den Schatten darunter festgelegt habe, denn der sei immer vorhanden.

Um einem Computer auf diese Weise das Sehen beziehungsweise das Erkennen von Objekten beizubringen, braucht man allerdings Tausende von markierten und annotierten Bildern. Bei Gesichtern und Autos sei es vielleicht noch möglich, Studenten mit Fotoapparaten auszuschicken und die Fotos dann annotieren zu lassen, so Horst Bischof.

Bei anderen Anwendungsbereichen mit weniger häufigen Objekten sei das aber nicht möglich. Die Entwicklung oder Verbesserung eines Lernalgorithmus sei daran oft gescheitert. Hier helfe mittlerweile das Internet, wo Milliarden von Bildern gefunden werden können. Diese Bilder sind noch dazu oft bereits mit Schlagworten und Namen versehen, und man könne den Rechner einfach die benötigten Bilder suchen lassen.

iPhoto

iPhoto Gesichtserkennung

iPhoto erkennt Katzen

Horst Bischof

Label Me

Gwap.com: Matchin

Mechanical Turk Amazon

Symposion Visual Computing Trends

Community hilft

Für die Markierung und Annotierung von Bildern kann man außerdem die Internet-Community beiziehen, zum Beispiel über den "Mechanical Turk" von Amazon. Das ist ein Webdienst, den Entwickler beziehungsweise Computerprogramme nützen können, um HITs oder Human Intelligence Tasks erledigen zu lassen. Die menschlichen Arbeiter können derartige Aufgaben auswählen und erhalten für deren Erledigung Geld oder Amazon-Gutscheine. Allerdings können bisher nur Menschen mit einer Adresse in den USA daran mitarbeiten.

Hilfe bei der Annotierung von Bildern durch die Community bietet auch das Werkzeug "LabelMe" des Computer Science and Artificial Intelligence Laboratory des Massachussetts Institute of Technology in Boston. Annotierungsaufgaben werden zum Teil auch in Online-Spielen "versteckt". Der User hat Spaß beim Spielen und liefert gleichzeitig wertvolle Hilfe für die Wissenschaft, so Horst Bischof.

Offensive in Wien

Die Stadt Wien entwickelte sich in den vergangenen Jahren zu einem Zentrum für Computergrafik und hat mit rund 100 Wissenschaftlern mittlerweile die zweitgrößte Forschergruppe in diesem Bereich in Europa. Wien war deshalb vergangene Woche auch Schauplatz des Symposions Visual Computing Trends, bei dem aktuelle Entwicklungen und Fragestellungen der Zukunft für die Bildaufbereitung, Computergrafik, Visualisierung und Computervision thematisiert wurden.

(matrix/Sonja Bettel)

Suche