Entwurf und Implementierung eines Regelungskonzeptes auf der Basis des Reinforcement Learning für einen Laborprozess

Zusammefassung Motivation Die Regelung des Laborprozesses (inverses Pendel) wurde bereits durch verschiedene, klassische Regelalgorithmen realisiert. Dabei trat ein durch Reibung bedingtes Überschwingen des Wagens, auf dem das Pendel steht, auf. Mit Hilfe der Algorithmen des Reinforcement Learning soll versucht werden, diese Effekte zu minimieren. Dazu muss jedoch zunächst geklärt werden, ob die Anwendung dieser Algorithmen das Pendel überhaupt stabilisieren kann. Desweiteren muss eine Sollwertverfolgung bezüglich der Position des Wagens garantiert werden können. Grundlagen Reinforcement Learning ist ein maschinelles Lernverfahren, welches ohne a priori-Informationen über das zu regelnde System (Umwelt) das gestellte Ziel zu erreichen versucht. Zunächst wird das Ziel der Regelung aufgestellt. Aus diesem kann das einzige zum Lernen benötigte Signal, das Fehlersignal, generiert werden. Mit Hilfe dieses Fehlersignal und der die Umwelt repräsentierenden Zustände ermittelt der Agent die Wertefunktion. Die Wertefunktion ordnet jeder Zustandskombination einen Wert zu, welcher eine Aussage darüber macht, wie gut oder schlecht es ist, sich in dem jeweiligen Zustand zu befinden. Die Differenz zweier aufeinanderfolgender Zustandswerte wird als temporale Differenz (TD) bezeichnet und kann zum Erlernen der korrekten Aktionen in jedem Zustand genutzt werden (Aktionsfunktion). Die Abbildung der beiden Funktionen erfolgt jeweils durch ein künstliches neuronales Netz (KNN). Das in den Netzen hinterlegte Wissen wird dabei implizite durch die Gewichte zwischen den Neuronen abgebildet. Durchführung Zunächst müssen die Gewichtsparameter der zur Abbildung zwei generierten Funktionen (Aktions- und Wertefunktion) benötigten KNN simulativ angelernt werden. Ein Anlernen am realen Prozess ist aufgrund der notwendigen großen Anzahl an Fehlerfällen (Umkippen des Pendels, Fahren des Wagens in die Begrenzung) nicht möglich, da der manuelle und zeitliche Aufwand dafür zu groß ist. Die ermittelten Parameter werden am realen Prozess angewendet und auf ihre Güte getestet. Auswertung Die Regelung mit Hilfe der Algorithmen des Reinforcement Learning kann das Pendel Stabilisieren und die Sollwertverfolgung bezüglich der Wagenposition ist ebenfalls möglich. Eine bessere Regelung im Vergleich zu den vorhandenen Algorithmen und bezüglich der Reibungseffekte ist nicht möglich, da sich die Gewichte am realen Versuchsaufbau nicht nachjustieren lassen.

Ilmenau, Techn. Univ., Diplomarbeit, 2010

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.