Künstliche Intelligenz: Wie Roboter laufen lernen

3. Dezember 2018

Wie Roboter laufen lernen: Bestärktes Lernen in der Praxis

Wie lernen Kleinkinder das laufen? Sicher nicht durch das Aufstellen von kinematischen Bewegungsgleichungen, sondern auf dem Prinzip von Versuch und Irrtum. Die Kinder finden durch Ausprobieren heraus, was die optimale Strategie für ihre Fortbewegung ist. Bei einem erfolgreichen Bewegungsschritt belohnt die Umgebung sie, da sie ihrem Zielort näher kommen. Angelehnt an das biologische Lernen ist das sogenannte bestärkte Lernen (Reinforcement Learning) entstanden, ein Teilgebiet der Künstlichen Intelligenz. Für diese Art des maschinellen Lernens benötigen wir im Gegensatz zu anderen Methoden der Künstlichen Intelligenz keine Trainingsdaten. Das bestärkte Lernen steuert ein System mittels Versuch und Irrtum, indem es seine Leistungen durch Interaktionen mit der Umgebung kontinuierlich verbessert.

In der Künstlichen Intelligenz findet das bestärkte Lernen beim Steuern von autonomen Fahr-, Lauf-, Flug- oder Fußballrobotern eine breite Anwendung. Die Funktionsweise des bestärkten Lernens sieht dabei wie folgt aus: Ein Roboter befindet sich in einem Zustand und bewegt sich in einer Umgebung. Sobald er eine Aktion durchführt, ändert sich sein Zustand. In diesem Fall erhält der Roboter eine Rückmeldung durch eine Belohnung oder Bestrafung. Diese Rückmeldung ist ein Zahlenwert, welche gute Aktionen belohnen (positive Zahl) und schlechte Aktionen bestrafen (negative Zahl). Die Aufgabe des Roboters ist durch Versuch und Irrtum herauszufinden, welche Aktion er in einer gewissen Situation auszuführen hat. Das Ziel des Roboters besteht im Erlernen einer optimalen Strategie, die seinen Nutzen in Abhängigkeit der Belohnungswerte in allen Zuständen maximiert.

Am Hochschulcampus Tuttlingen setzten zwei Studenten des Masterstudiengangs Mechatronische Systeme das bestärkte Lernen der Künstlichen Intelligenz in die Praxis um. Ein vierbeiniger Krabbelroboter lernt dazu ohne eine festeinprogrammierte Steuerung das Laufen. Der Roboter kann sich damit auf unterschiedlichen Untergründen fortbewegen. Während des Laufens passt der Roboter seine Strategie an unterschiedliche Umwelteinflüsse an. Wenn beispielsweise ein Servomotor in einem Bein ausfällt, ändert er selbstständig seine Strategie, um sein Ziel zu erreichen. Diese Projektarbeit aus dem Seminar „Intelligente Datenanalyse“ zeigt, wie wir Künstliche Intelligenz in die Praxis umsetzen können.