Registration info |
参加枠1 Free
FCFS
|
---|
Description
概要
8/24に行われた第2回目では思った以上にきちんと学習ができていたので、
続かないかと思いきや、意外と人気がでてきたので調子に乗って3回目です。
TD学習の一つであるQ学習をディープラーニングで行う第3回目。
前回8/24は基本的な理論とベルマン方程式を使った報酬期待値誤差のバックプロパゲーション、
またその実装をjsで行った時の問題点や長所を学びました。
jsはchromeV8ではc++にコンパイルされて実行されるので高速です。
また、deeplearn.jsでも実装されたwebGLはCUDAによらずクライアントコンピュータの
GPUパワーを利用できますし、実際(最適化チューニングされていない)CUDAとの量子アルゴリズムの比較では大きな差が出ませんでした。
量子コンピュータとの関連
また、MDRでは量子コンピュータ分野が強いので、量子アルゴリズムもしくはハミルトニアンを活用できるかどうかを検討したところ、エナジーモデルではできそうですが、ハミルトニアンにDQNほど表現力が持たせられなさそうなので、 bellman+DeepQで行こうと思います。ただ、もしかしたらエラーの最小化が最適化問題なので、非イジングのSQAをSGDの代わりに使えないかの検討は行います。
勉強会から派生した独自DLフレームワーク
また、jsでのフレームワークはconvnetjsもしくは最近出たdeeplearn.jsがありますが、なかをみてみたところ、ほとんどがフレームワークの構築に使われて肝心の式の部分はそんなに長くない&今回は勉強のためアドホックで進められる(汎用性がいらない)ので、専用のDL+SQAフレームワークを今後作って行く方針にしました。(勝手に)
用途
また、ブラウザアプリの使い道がわからなかったのですが、
roboraceの動画を見てとりあえず自動車レースだろうというノリの元に、自動車関連の強化学習とします。
とりあえずブラウザシミュレータとしてセンサーつきの自動車のコースを適当に作って、
自動車を複数台マルチエージェントでexperience replayに突っ込んで学習を進めたいと思います。
experience replayはすでに綺麗に動いていますので。
場所について
場所は未定ですが、千代田区丸の内もしくは本郷三丁目のラボカフェを予定しています。
決まり次第連絡させていただきます。
Media View all Media
If you add event media, up to 3 items will be shown here.