Mensch-Maschine-Interaktion

Kleine Geste, große Wirkung

07.04.2014
Von 
Moritz Iversen ist freier Journalist in München.

Technisch noch nicht am Ziel

"Die bestehenden Systeme weisen gewisse Einschränkungen auf und sind größtenteils für einen engen Anwendungsbereich mit bestimmten Lichtverhältnissen ausgelegt", sagt Knecht. In jedem Fall müssen der menschliche Körper oder Teile davon vom Hintergrund sowie anderen Objekten im Sichtbereich der Kamera getrennt werden. Für diese Segmentierung gibt es hardware- und softwareseitig unterschiedliche Verfahren, die ihre Vor- und Nachteile haben.

Kopferkennung

"Günstige Lösungen wie monokulare 2D-Farbkameras ermitteln Silhouetten von Objekten anhand vorher festgelegter Farbeigenschaften", schildert Knecht. So kann zur Erkennung eines Kopfes ein Regelsatz definiert werden, der unter anderem die RGB-Werte (Rot, Grün, Blau) der Hautfarbe umfasst. Allerdings erschweren "variable Lichtverhältnisse oder Bewegungen im Hintergrund bei dieser Lösung die Segmentierung und demnach auch die Genauigkeit der Erkennung". Eine alternative monokulare Tracking-Methode ist die "Background Subtraction", bei der Objekte im Vordergrund vom Hintergrund "abgezogen" werden. Dabei vergleicht der Rechner aktuelle Aufnahmen mit einem Referenzbild, wobei die Differenz als Objekt interpretiert wird. Angewendet wird das Verfahren zur Verkehrsüberwachung.

Teurere Lösungen wie 3D-Tiefenkameras reagieren empfindlich auf Sonnenlicht und andere IR-Lichtquellen und haben meist eine begrenzte Reichweite. Dadurch, dass es bei ihnen zu jedem Pixel neben dem Farbwert auch noch einen Tiefenwert gibt, wird die Segmentierung hingegen einfacher. Die Verarbeitungsgeschwindigkeit erhöht sich und somit auch die Echtzeitfähigkeit. Knecht: "Zudem ermöglicht der Tiefenwert neue Arten von Gesten wie die Bestätigung einer Funktion durch Bewegung der Hand in Richtung der Kamera."

Abgleich mit erlernten Mustern

Zwei Beispiele für Verfahren, die mit 3D-Tiefenkameras arbeiten, sind Time of Flight (ToF) und Structured Light. Bei ToF-Kameras wird vom Sensor Licht ausgestrahlt, das von den Objekten im Raum reflektiert wird. Für jeden Bildpunkt wird die Zeit gemessen, die das Licht bis zum Objekt und wieder zurück benötigt. Bei dem Structured-Light-Verfahren, mit dem die Spielehardware Kinect arbeitet, wird ein großflächiges Muster aus Infrarotpunkten in den Raum projiziert, und eine Kamera empfängt die reflektierten Infrarotstrahlen. Anhand eines Abgleichs mit vorher gelernten Mustern (Referenz) kann der Tiefenwert bestimmt werden. Für die Hardware besteht bei allen Lösungen noch eine weitere Herausforderung: Sehr schnelle Bewegungen beispielsweise der Finger sind aufgrund der relativ niedrigen Kamerafrequenzen schwer zu erfassen.

Visuelle Gestenerkennung

Auch softwareseitig gibt es bei der visuellen Gestenerkennung unterschiedliche Herangehensweisen. In modellbasierten Methoden wird die Struktur des Körpers oder der Hand über das Kamerabild erfasst und auf ein in der Software hinterlegtes Körpermodell übertragen. Mit Hilfe der Gelenke (englisch Joints) können dynamische Gesten erfasst werden. "Jede gespeicherte Geste besteht aus der Ausgangsposition des Körpers sowie den Winkeländerungen aller Joints bis zum Ende der Gestenbewegung", analysiert Knecht. Aussagen über die Körperhaltung und die damit verbundenen Gesten lassen sich auch noch treffen, wenn im Kamerabild Verdeckungen auftreten.

Bei modellfreien Methoden werden nur einige ausgewählte Eigenschaften der Hand oder des Körpers betrachtet, wie zum Beispiel die Position der Fingerspitzen. Über einen festgelegten Regelsatz schließt der Computer dann unmittelbar auf die ausgeführte Geste. Ein Deskriptor extrahiert Eigenschaften (Features) aus dem Kamerabild, die sich dann klassifizieren lassen. Bei diesem Verfahren müssen Verdeckungssituationen vermieden werden, da eine Gestenerkennung sonst nicht mehr möglich ist. "Außerdem ist diese Lösung sehr rechenintensiv, und die Erstellung der Datenbank zur Klassifizierung ist sehr aufwendig", sagt Knecht.

Die am Markt erhältlichen Technologien erkennen meist nur ausladendere Hand- oder Fingergesten. Knecht geht aber davon aus, dass unter anderem durch höhere Auflösungen viele kleinräumigere Bewegungen und feinere Gesten auch des Gesichts erkannt werden und die Gestensteuerung somit zusätzlich an Bedeutung gewinnt. Und das Potenzial der Gestenerkennung ist immens, denn es ist längst nicht auf Rechner, Smartphones und Fernseher begrenzt. "Prinzipiell ergibt sich das Potenzial einer bestimmten Mensch-Maschine-Interaktionsform immer aus ihrer Möglichkeit, Prozessverbesserungen wie Zeit- und Kostenersparnis zu erlangen oder bestimmte Vorgänge erst zu ermöglichen", sagt Gestenexperte Neuhüttler vom Fraunhofer IAO.

Vorteil Natürlichkeit

So könnten Mitarbeiter in einem Reinraum ihre Bedienpanels ohne physischen Kontakt steuern und Verunreinigungen vermeiden. Notwendige Unterbrechungen durch Betreten und Verlassen des Reinraums und Reinigungsprozesse würden reduziert. Gleiches gilt für den Einsatz in hygienisch sensiblen Bereichen eines Krankenhauses. Hier können die Chirurgen und Krankenschwestern während einer Operation die Krankenakte und medizinische Vorgeschichte des Patienten einsehen, ohne den sterilen Bereich zu verlassen und sich danach wieder desinfizieren zu müssen. Auch bei Fahrkartenautomaten, die von vielen Menschen berührt werden und daher eine hohe Gefahr der Übertragung von Bakterien und Viren mit sich bringen, lässt sich die Gestensteuerung als Alternative einsetzen.

Ein weiterer Vorteil liegt in der Natürlichkeit der Gestensteuerung, die grundlegende Befehle in der Regel leichter erlernbar macht. "Daher eignet sie sich besonders für ältere Menschen mit kognitiven Einschränkungen, für die eine weniger intuitive Bedienform eventuell zu komplex wäre", sagt Neuhüttler. Gleichzeitig könnten ältere Menschen durch die Gestensteuerung motiviert werden, leichte Bewegungsabläufe oder Rehabilitationsübungen auszuführen. Ein industrielles Beispiel für diesen Vorteil ist die Steuerung von Roboterarmen. Ergeben sich Änderungen im Arbeits- und Produktionsablauf, müssen Mitarbeiter den Roboterarm übergangsweise per Joystick bedienen. Könnte der Mitarbeiter jedoch einfach per Hand die Bewegungen des Roboterarms vorgeben, ließe sich die Bedienung stark vereinfachen, argumentiert der Forscher vom Fraunhofer IAO.

Interaktive Videowände ("Digital Signage") im Einzelhandel, vor denen Menschen per Geste neue Kleidungsstücke "anprobieren" können, oder Fahrzeuge, deren Radio mit einer Handbewegung lauter gestellt wird, sind technisch möglich, aber noch längst nicht serienreif. Zudem muss nicht nur die Technik dazulernen, sondern auch der Mensch. Schließlich kann er sich bei jedem Verfahren und in jeder Situation auf neue Gesten einstellen, denn eine standardisierte "Gestensprache" wird es vorerst nicht geben. Der Aufwand ist zwar ärgerlich, aber beileibe kein Manko allein der Gestensteuerung: Kurse zum Zehn-Finger-Schreiben oder zum Tastschreiben gibt es auch heute noch an jeder Volkshochschule, und auch die Gebärdensprache muss mühsam erlernt werden. Wenn der Einstieg jedoch geschafft ist, hat auch die Gestensteuerung das Potenzial, eine intuitive und natürliche Form der Mensch-Maschine-Interaktion zu werden.