Reinforcement Learning in Continuous Time and Space

Artikeleigenschaften
  • Sprache
    English
  • Veröffentlichungsdatum
    2000/01/01
  • Zeitschrift
  • Indian UGC (Zeitschrift)
  • Auffrischen
    9
  • Zitate
    357
  • Kenji Doya ATR Human Information Processing Research Laboratories, Soraku, Kyoto 619-0288, Japan
Abstrakt
Zitieren
Doya, Kenji. “Reinforcement Learning in Continuous Time and Space”. Neural Computation, vol. 12, no. 1, 2000, pp. 219-45, https://doi.org/10.1162/089976600300015961.
Doya, K. (2000). Reinforcement Learning in Continuous Time and Space. Neural Computation, 12(1), 219-245. https://doi.org/10.1162/089976600300015961
Doya K. Reinforcement Learning in Continuous Time and Space. Neural Computation. 2000;12(1):219-45.
Journalkategorien
Medicine
Internal medicine
Neurosciences
Biological psychiatry
Neuropsychiatry
Science
Mathematics
Instruments and machines
Electronic computers
Computer science
Technology
Electrical engineering
Electronics
Nuclear engineering
Electronics
Technology
Mechanical engineering and machinery
Beschreibung

Kann sich Reinforcement Learning nahtlos an die Komplexität kontinuierlicher Umgebungen anpassen? Diese Forschung stellt ein neuartiges Framework für Reinforcement Learning (RL) vor, das direkt in kontinuierlicher Zeit und Raum operiert, wodurch die Notwendigkeit einer vorherigen Diskretisierung entfällt. Dies ist entscheidend für Aufgaben, bei denen Präzision und Echtzeit-Anpassungsfähigkeit von größter Bedeutung sind. Der Kern der Methode liegt in der Minimierung einer kontinuierlichen Zeitform des Temporal Difference (TD)-Fehlers, abgeleitet aus der Hamilton-Jacobi-Bellman (HJB)-Gleichung. Die Autoren entwickeln Update-Methoden unter Verwendung der Backward-Euler-Approximation und exponentieller Eligibility-Traces, wobei Parallelen zu traditionellen Algorithmen wie Residual Gradient und TD(λ) gezogen werden. Sie formulieren auch zwei Policy-Improvement-Ansätze: eine kontinuierliche Actor-Critic-Methode und eine wertgradientenbasierte Greedy-Policy. Diese Algorithmen sind wertvolle Werkzeuge für verschiedene Kontroll- und Optimierungsprobleme. Simulationen an Pendel-Swing-Up- und Cart-Pole-Swing-Up-Aufgaben demonstrieren die Überlegenheit der vorgeschlagenen Algorithmen, insbesondere der wertgradientenbasierten Policy mit einem gelernten dynamischen Modell, sowohl in Bezug auf die Anzahl der Versuche als auch auf die Effizienz. Die Ergebnisse deuten auf potenzielle Anwendungen in der Robotik, autonomen Systemen und anderen Bereichen hin, die eine präzise Steuerung und Echtzeit-Anpassung erfordern. Diese Forschung ebnet den Weg für effizientere und robustere RL-Lösungen in komplexen, kontinuierlichen Umgebungen und verschiebt die Grenzen dessen, was autonome Agenten erreichen können.

Veröffentlicht in Neural Computation, einer Zeitschrift, die sich mit rechnerischen und mathematischen Ansätzen zum Verständnis des Gehirns und des Nervensystems befasst, leistet dieser Artikel einen direkten Beitrag zum Schwerpunkt der Zeitschrift auf Reinforcement-Learning-Algorithmen. Durch die Entwicklung von Methoden, die auf dynamische Systeme in kontinuierlicher Zeit anwendbar sind, adressiert die Forschung wichtige Herausforderungen in der neuronalen Berechnung und in Steuerungssystemen.

Auffrischen
Zitate
Zitationsanalyse
Die erste Studie, die diesen Artikel zitiert hat, trug den Titel 10.1162/153244303768966148 und wurde in 2000. veröffentlicht. Die aktuellste Zitierung stammt aus einer 2024 Studie mit dem Titel 10.1162/153244303768966148 Seinen Höhepunkt an Zitierungen erreichte dieser Artikel in 2021 mit 32 Zitierungen.Es wurde in 168 verschiedenen Zeitschriften zitiert., 16% davon sind Open Access. Unter den verwandten Fachzeitschriften wurde diese Forschung am häufigsten von Neural Networks zitiert, mit 21 Zitierungen. Die folgende Grafik veranschaulicht die jährlichen Zitationstrends für diesen Artikel.
Zitate verwendeten diesen Artikel für Jahr