Die Analyse menschlicher Bewegung ist zentral für das Verständnis motorischer und kognitiver Funktionen – insbesondere im Kontext von Rehabilitation und neurologischen Erkrankungen. Forschende der EPFL schlagen dafür einen ungewöhnlichen, aber praxisnahen Ansatz vor: die Küche als Bewegungslabor.
Unter der Leitung von Alexander Mathis, Assistenzprofessor an den Instituten Brain Mind und Neuro-X der EPFL, entstand der Datensatz «EPFL-Smart-Kitchen-30». Er bietet eine detaillierte, multimodale Erfassung von Bewegungen, die bei der Zubereitung von Mahlzeiten ausgeführt werden. Das Projekt wurde gemeinsam mit Teams der ETH Zürich und dem Microsoft Joint Swiss Research Center realisiert und wird Anfang Dezember 2025 an der NeurIPS-Konferenz vorgestellt.
Warum die Küche?
Die Wahl der Küche ist bewusst getroffen. «Zunächst einmal ist da die Frage der Privatsphäre», erklärt Alexander Mathis. «Von allen Räumen im Haus ist die Küche der unproblematischste.»
Zudem vereint sie eine Vielzahl komplexer Bewegungen. «In der Küche führen Sie eine unendliche Vielzahl von Bewegungen aus: Sie gehen, stellen sich auf die Zehenspitzen, öffnen Türen, hantieren mit Messern, Töpfen und Verpackungen. Es geht um Hand-Augen-Koordination, um Planung – damit alle Zutaten zur richtigen Zeit bereitstehen – und sogar um den Ausdruck Ihres persönlichen Stils. Es ist wirklich der ganze Körper und das ganze Gehirn, die mobilisiert werden.»
Hochauflösende Datenerfassung
Für das Projekt wurde auf dem EPFL-Biotech-Campus eine vollständig ausgestattete Küche aufgebaut. Neun fest installierte RGB-D-Kameras erfassen die Bewegungen aus mehreren Perspektiven, ergänzt durch ein HoloLens-2-Headset mit Blickverfolgung sowie Trägheitsmesseinheiten an Körper und Händen. Auch Küchenelemente wurden instrumentiert. «Wir haben zum Beispiel einen Beschleunigungsmesser an der Kühlschranktür angebracht. Damit konnten wir messen, wie schnell man sie öffnet, wie flüssig oder zögerlich die Bewegungen sind», erklärt Mathis.
Umfangreicher Datensatz für KI und Medizin
Insgesamt umfasst der Datensatz rund 30 Stunden Videomaterial. 16 Probandinnen und Probanden im Alter von 20 bis 46 Jahren bereiteten mehrere Gerichte zu, darunter Omelette, Ratatouille und Pad Thai. Jede Handlung wurde detailliert annotiert. Insgesamt wurden 768 Handlungstypen definiert, was zu durchschnittlich über 30 annotierten Handlungssegmenten pro Minute führte.
Diese Daten bilden die Grundlage für Referenzmodelle in Bereichen wie multimodale Handlungserkennung, Vision-Sprache-Modelle und Text-zu-Bewegung-Generierung. Aktuelle KI-Modelle erreichen bei der automatischen Handlungserkennung bislang eine Genauigkeit von rund 40 Prozent. «Sie sind noch weit davon entfernt, eine Kochsession mit der für klinische Anwendungen erforderlichen Zuverlässigkeit automatisch zu analysieren», stellt Mathis fest, zeigt sich jedoch optimistisch bezüglich der weiteren Entwicklung.
Relevanz für Neurorehabilitation
Ein zentrales Ziel des Projekts ist die Verbesserung der Beurteilung von Rehabilitationserfolgen im Alltag. Friedhelm Hummel, Professor für klinische Neuroengineering-Forschung an der EPFL, betont den Mehrwert alltagsnaher Beobachtungen: «Nehmen wir eine Person, die sich von einem Schlaganfall erholt. Heute würde man ihn zum Beispiel bitten, seinen Arm zu heben, und ihm für diese Geste eine Punktzahl zuweisen. Wenn man aber beobachtet, wie sie kocht, wird man viel mehr relevante Dinge über ihr tägliches Leben herausfinden.»
Langfristig könnten solche Daten genutzt werden, um klinische Scores zu ergänzen oder neue Indikatoren zu entwickeln, etwa zur Verlaufsbeobachtung einer Rehabilitation im häuslichen Umfeld.
Literatur
Andy Bonnetto, Haozhe Qi, Franklin Leong, Matea Tashkovska, Mahdi Rad, Solaiman Shokur, Friedhelm Hummel, Silvestro Micera, Marc Pollefeys, Alexander Mathis "EPFL-Smart-Kitchen: An Ego-Exo Multi-Modal Dataset for Challenging Action and Motion Understanding in Video-Language Models." The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track (2025)