Technisch noch nicht am Ziel
"Die bestehenden Systeme weisen gewisse Einschränkungen auf und sind größtenteils für einen engen Anwendungsbereich mit bestimmten Lichtverhältnissen ausgelegt", sagt Knecht. In jedem Fall müssen der menschliche Körper oder Teile davon vom Hintergrund sowie anderen Objekten im Sichtbereich der Kamera getrennt werden. Für diese Segmentierung gibt es hardware- und softwareseitig unterschiedliche Verfahren, die ihre Vor- und Nachteile haben.
- Mensch-Maschine-Interaktion
In der Mensch-Maschine-Interaktion tut sich was. Hier finden Sie einige neue und bemerkenswerte Entwicklungen, die zum Teil schon dem Forschungsstadium entwachsen sind. - Der virtuelle Supermarkt
Tesco Homeplus – Im virtuellen Store der britischen Supermarktkette lässt sich der Einkauf erledigen während man auf die U-Bahn wartet. Lebensgroße Produkte mit dem Smartphone scannen und bestellen. Der Einkauf wird an die Haustür geliefert. - Gesichtserkennung
Die Software SHORE vom Fraunhofer-Institut für Integrierte Schaltungen (IIS) erkennt das Geschlecht und ein ungefähres Alter. Zusätzlich werden Gesichtsausdrücke wie fröhlich, erstaunt, wütend und traurig erkannt. - Intelligente Heizungssteuerung
Die Geo-Location App und das Thermostat vom Münchner Start-up Tado ersetzt das bestehende Heizungsthermostat durch eine intelligente Geodaten-basierende Lösung. - Gestensteuerung
Der Controller von Leap Motion erkennt Hände und Finger. Man kann dadurch steuern, ohne eine Benutzeroberfläche zu berühren. - Gestensteuerung mit dem Unterarm
Das Wearable-Device MYO von Thalmic Labs soll positionsunabhängige Gestensteuerung erlauben. Das System erkennt Kontraktionen der Muskeln und schließt dadurch auf Gesten wie zum Beispiel Fingerschnippen. - Touch der nächsten Dimension
Touche (Disney Research) ermöglicht Touch und Gestenerkennung auf Menschen, Displays, Flüssigkeiten und zahlreichen Alltagsobjekten. - Ganzkörper-Tracking
Ganzkörper-Tracking mit einer Standard-RGB-Kamera (Rot, Grün, Blau). Die Software Extreme Motion errechnet in Echtzeit die Bewegungen. - Gestenerkennung
Die Software SigmaNIL erkennt natürliche User-Interaktionen, stellt sie auf dem Bildschirm dar und ergänzt bei Bedarf um grafische Elemente (hier ein Star-Wars-Schwert). - Digitalisierte Bewegungen
Mit dem V Motion Project werden Musik und Bilder durch Bewegung lebendig. Das Video zeigte einen Tänzer, dessen digitales Abbild auf eine große Fläche projiziert wird. - Augen steuern Mauszeiger
Mit den Augen eine Benutzeroberfläche steuern: Die Soft- und Hardwarelösung Tobii REX trackt die Augen des Users und steuert damit den Mauszeiger. Die Lösung ist unter anderem als Touch-Ersatz gedacht, wenn etwas sehr kleine Bildschirmelementen angesteuert werden sollen. - Radar-Touch
Der Laser erkennt Bewegungen auf großen Screens auch aus großer Entfernung. Ein Radius bis zu 60 Meter ist hier möglich. Das Video zeigt, wie die Bewegungen der Menschen vor dem Screen mit der Darstellung des Schildes auf dem Screen synchronisiert werden. - Neue Spielzeugwelten
Cars 2 AppMATes verbindet die physikalische und digitale Welt. Hier fährt ein Kind mit einem realen Spielzeugauto über eine virtuelle Rennstrecke auf dem iPad. - Holografische Darstellung
Mit einem Heliodisplay sind beliebige Projektionen auf Luft machbar. - Microsoft Kinect in der Medizin
Mit Kinect und via Brain Scans werden 3D Patientendaten auf den Menschen augmentiert. Röntgendaten lassen sich beispielsweise mit dem Bewegtbild eines Kopfes überlagern. Damit ergibt sich ein vermeintlicher in das Innere des Schädels. - Virtual Reality
Durch fremde Welten fliegen: Mit dem System "Oculus Rift Immersive Virtual Reality", einem Headset, wird das zum Kinderspiel. - Projection Mapping im großen Stil
Das Projekt Visual Drugstore Projection Mapping zeigt am Beispiel der Alten Pinakothek in München, wie sich Fassaden mittels Lasertechnik verfremden und gestalten lassen. - Intelligentes Glas
Der Film „Corning – A Day Made of Glass 2“ zeigt visionäre Gedanken über den Alltag der Zukunft mit Glas-Technologien. - Messung von Gehirnströmen
Die Software mico erkennt im Zusammenspiel mit einem Kopfhörer die Stimmung des Nutzers. Dazu integriert der Kopfhörer einen Sensor, der die Gehirnströme messen soll. Je nach Verfassung des Nutzers spielt die Software passende Musik.
Kopferkennung
"Günstige Lösungen wie monokulare 2D-Farbkameras ermitteln Silhouetten von Objekten anhand vorher festgelegter Farbeigenschaften", schildert Knecht. So kann zur Erkennung eines Kopfes ein Regelsatz definiert werden, der unter anderem die RGB-Werte (Rot, Grün, Blau) der Hautfarbe umfasst. Allerdings erschweren "variable Lichtverhältnisse oder Bewegungen im Hintergrund bei dieser Lösung die Segmentierung und demnach auch die Genauigkeit der Erkennung". Eine alternative monokulare Tracking-Methode ist die "Background Subtraction", bei der Objekte im Vordergrund vom Hintergrund "abgezogen" werden. Dabei vergleicht der Rechner aktuelle Aufnahmen mit einem Referenzbild, wobei die Differenz als Objekt interpretiert wird. Angewendet wird das Verfahren zur Verkehrsüberwachung.
Teurere Lösungen wie 3D-Tiefenkameras reagieren empfindlich auf Sonnenlicht und andere IR-Lichtquellen und haben meist eine begrenzte Reichweite. Dadurch, dass es bei ihnen zu jedem Pixel neben dem Farbwert auch noch einen Tiefenwert gibt, wird die Segmentierung hingegen einfacher. Die Verarbeitungsgeschwindigkeit erhöht sich und somit auch die Echtzeitfähigkeit. Knecht: "Zudem ermöglicht der Tiefenwert neue Arten von Gesten wie die Bestätigung einer Funktion durch Bewegung der Hand in Richtung der Kamera."
Abgleich mit erlernten Mustern
Zwei Beispiele für Verfahren, die mit 3D-Tiefenkameras arbeiten, sind Time of Flight (ToF) und Structured Light. Bei ToF-Kameras wird vom Sensor Licht ausgestrahlt, das von den Objekten im Raum reflektiert wird. Für jeden Bildpunkt wird die Zeit gemessen, die das Licht bis zum Objekt und wieder zurück benötigt. Bei dem Structured-Light-Verfahren, mit dem die Spielehardware Kinect arbeitet, wird ein großflächiges Muster aus Infrarotpunkten in den Raum projiziert, und eine Kamera empfängt die reflektierten Infrarotstrahlen. Anhand eines Abgleichs mit vorher gelernten Mustern (Referenz) kann der Tiefenwert bestimmt werden. Für die Hardware besteht bei allen Lösungen noch eine weitere Herausforderung: Sehr schnelle Bewegungen beispielsweise der Finger sind aufgrund der relativ niedrigen Kamerafrequenzen schwer zu erfassen.
Visuelle Gestenerkennung
Auch softwareseitig gibt es bei der visuellen Gestenerkennung unterschiedliche Herangehensweisen. In modellbasierten Methoden wird die Struktur des Körpers oder der Hand über das Kamerabild erfasst und auf ein in der Software hinterlegtes Körpermodell übertragen. Mit Hilfe der Gelenke (englisch Joints) können dynamische Gesten erfasst werden. "Jede gespeicherte Geste besteht aus der Ausgangsposition des Körpers sowie den Winkeländerungen aller Joints bis zum Ende der Gestenbewegung", analysiert Knecht. Aussagen über die Körperhaltung und die damit verbundenen Gesten lassen sich auch noch treffen, wenn im Kamerabild Verdeckungen auftreten.
Bei modellfreien Methoden werden nur einige ausgewählte Eigenschaften der Hand oder des Körpers betrachtet, wie zum Beispiel die Position der Fingerspitzen. Über einen festgelegten Regelsatz schließt der Computer dann unmittelbar auf die ausgeführte Geste. Ein Deskriptor extrahiert Eigenschaften (Features) aus dem Kamerabild, die sich dann klassifizieren lassen. Bei diesem Verfahren müssen Verdeckungssituationen vermieden werden, da eine Gestenerkennung sonst nicht mehr möglich ist. "Außerdem ist diese Lösung sehr rechenintensiv, und die Erstellung der Datenbank zur Klassifizierung ist sehr aufwendig", sagt Knecht.
Die am Markt erhältlichen Technologien erkennen meist nur ausladendere Hand- oder Fingergesten. Knecht geht aber davon aus, dass unter anderem durch höhere Auflösungen viele kleinräumigere Bewegungen und feinere Gesten auch des Gesichts erkannt werden und die Gestensteuerung somit zusätzlich an Bedeutung gewinnt. Und das Potenzial der Gestenerkennung ist immens, denn es ist längst nicht auf Rechner, Smartphones und Fernseher begrenzt. "Prinzipiell ergibt sich das Potenzial einer bestimmten Mensch-Maschine-Interaktionsform immer aus ihrer Möglichkeit, Prozessverbesserungen wie Zeit- und Kostenersparnis zu erlangen oder bestimmte Vorgänge erst zu ermöglichen", sagt Gestenexperte Neuhüttler vom Fraunhofer IAO.
Vorteil Natürlichkeit
So könnten Mitarbeiter in einem Reinraum ihre Bedienpanels ohne physischen Kontakt steuern und Verunreinigungen vermeiden. Notwendige Unterbrechungen durch Betreten und Verlassen des Reinraums und Reinigungsprozesse würden reduziert. Gleiches gilt für den Einsatz in hygienisch sensiblen Bereichen eines Krankenhauses. Hier können die Chirurgen und Krankenschwestern während einer Operation die Krankenakte und medizinische Vorgeschichte des Patienten einsehen, ohne den sterilen Bereich zu verlassen und sich danach wieder desinfizieren zu müssen. Auch bei Fahrkartenautomaten, die von vielen Menschen berührt werden und daher eine hohe Gefahr der Übertragung von Bakterien und Viren mit sich bringen, lässt sich die Gestensteuerung als Alternative einsetzen.
Ein weiterer Vorteil liegt in der Natürlichkeit der Gestensteuerung, die grundlegende Befehle in der Regel leichter erlernbar macht. "Daher eignet sie sich besonders für ältere Menschen mit kognitiven Einschränkungen, für die eine weniger intuitive Bedienform eventuell zu komplex wäre", sagt Neuhüttler. Gleichzeitig könnten ältere Menschen durch die Gestensteuerung motiviert werden, leichte Bewegungsabläufe oder Rehabilitationsübungen auszuführen. Ein industrielles Beispiel für diesen Vorteil ist die Steuerung von Roboterarmen. Ergeben sich Änderungen im Arbeits- und Produktionsablauf, müssen Mitarbeiter den Roboterarm übergangsweise per Joystick bedienen. Könnte der Mitarbeiter jedoch einfach per Hand die Bewegungen des Roboterarms vorgeben, ließe sich die Bedienung stark vereinfachen, argumentiert der Forscher vom Fraunhofer IAO.
Interaktive Videowände ("Digital Signage") im Einzelhandel, vor denen Menschen per Geste neue Kleidungsstücke "anprobieren" können, oder Fahrzeuge, deren Radio mit einer Handbewegung lauter gestellt wird, sind technisch möglich, aber noch längst nicht serienreif. Zudem muss nicht nur die Technik dazulernen, sondern auch der Mensch. Schließlich kann er sich bei jedem Verfahren und in jeder Situation auf neue Gesten einstellen, denn eine standardisierte "Gestensprache" wird es vorerst nicht geben. Der Aufwand ist zwar ärgerlich, aber beileibe kein Manko allein der Gestensteuerung: Kurse zum Zehn-Finger-Schreiben oder zum Tastschreiben gibt es auch heute noch an jeder Volkshochschule, und auch die Gebärdensprache muss mühsam erlernt werden. Wenn der Einstieg jedoch geschafft ist, hat auch die Gestensteuerung das Potenzial, eine intuitive und natürliche Form der Mensch-Maschine-Interaktion zu werden.