私はフィードフォワード ニューラル ネットワークの基礎と、バックプロパゲーション アルゴリズムを使用してそれらをトレーニングする方法を知っていますが、強化学習を使用してオンラインで ANN をトレーニングするために使用できるアルゴリズムを探しています。
例えば、カートポールが上がるこの問題については、ANN で解決したいと考えています。その場合、振り子を制御するために何をすべきかはわかりません。理想的な位置にどれだけ近づいているかだけがわかります。ANN に報酬と罰に基づいて学習させる必要があります。したがって、教師あり学習は選択肢ではありません。
もう一つの状況は、ヘビゲームフィードバックは遅延され、報酬ではなく目標と反目標に限定されます。
最初の状況には、ヒルクライミングや遺伝的アルゴリズムなどのアルゴリズムが考えられますが、どちらも遅いのではないかと思います。2 番目のシナリオにも適用できるかもしれませんが、非常に遅く、オンライン学習には適していません。
私の質問は簡単です:強化学習を使用して人工ニューラル ネットワークをトレーニングするための簡単なアルゴリズムはありますか?私は主にリアルタイムの報酬状況に興味がありますが、目標ベースの状況向けのアルゴリズムが利用可能であれば、さらに良いでしょう。
ベストアンサー1
このテーマに関する研究論文がいくつかあります。
- 進化するニューラル ネットワーク トポロジーによる効率的な強化学習 (2002)
- ニューラルネットワークを用いた強化学習と運動制御への応用
- 自律移動ロボットの障害物回避問題に対する強化学習ニューラルネットワーク
そしていくつかのコード:
- コード例ニューラルネットワーク強化学習用。
これらは、このトピックに関する Google 検索結果のトップの一部にすぎません。最初の 2 つの論文は、個人的には読んでいませんが、かなり良さそうです。Google Scholar で簡単に検索すると、強化学習を使用したニューラル ネットワークに関するさらに多くの情報が見つかると思います。