セミナー 印刷

深層強化学習の基本・最新アルゴリズムと応用

~「強化学習」「深層学習」「深層強化学習」の基本原理と応用、そして最先端最適化技術へ~
~応用できる、実務に活かせる目線で、重要ポイントを理解・習得する講座~
~深層学習のさらに先にある、『深層強化学習手法』とは!?~

★ AI(人工知能)の応用、ビジネス展開を真剣に検討されている方にとってのマスト!「強化学習」を習得!
★ 現場での深層強化学習の応用ノウハウと経験を解説し、すぐ役立つスキルを持ち帰ることができます。
日時 2019年6月24日(月)  10:30~16:30
会場 東京・大田区蒲田 大田区産業プラザ(PiO)  6F D会議室
会場地図
講師 電気通信大学 i-パワードエネルギーシステム研究センター&基盤理工学専攻 准教授 曽我部 東馬 氏
兼任 (株)GRID 最高技術顧問

【経歴・研究内容・専門・ご活動など】
物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、ドイツ マックス・プランク研究所、イギリス ケンブリッジで働いた後、2009年に一旦研究分野から離れ、(株)グリッドの共同設立者となり会社を立ち上げる。その後、東京大学 先端科学技術研究センターに研究の場所を移し、特任准教授として量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。2016年より電気通信大学の准教授および(株)GRIDの最高技術顧問を兼任。現在は、再生エネルギー最適化問題と人工知能のアルゴリズム開発、深層強化学習フレームワーク∞ReNomの開発に従事する。
【講師WebSite】
http://cluster-iperc.matrix.jp/ja/
http://www.gridpredict.jp/
受講料(税込)
各種割引特典
48,600円 ( S&T会員受講料 46,170円 ) S&T会員登録について
定価:本体45,000円+税3,600円
会員:本体42,750円+税3,420円
S&T会員なら、2名同時申込みで1名分無料 1名分無料適用条件
2名で48,600円 (2名ともS&T会員登録必須​/1名あたり定価半額24,300円)
備考※資料・昼食付
※講義中の録音・撮影はご遠慮ください。
※講義中のパソコン使用はキーボードの打音などでご遠慮いただく場合がございます。

セミナー趣旨

 2016年、世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め世界中でAIに対する期待が高まっています。また昨年、AlphaGoのシリーズにAlphaGo Zero とAlphaZeroが現れ、人間の経験を使用せずscratchから強くなるという典型的な強化学習手法が学術産業界から一層注目を集めています。
 AIの研究や将来のビジネスチャンスを踏まえたAIの応用を真剣に検討されている方々にとっては、深層学習の先にある「深層強化学習手法」の基本原理をしっかり理解することがマストといえるでしょう。しかし現状としては、深層強化学習手法をわかりやすく説明している資料はなかなか見当たりません。

セミナー講演内容

<得られる知識・技術>
・強化学習の基本原理と要素技術の基本知識の習得
・深層学習の基本原理と要素技術の基本知識の習得
・深層強化学習の基本原理と応用に関する知見の習得
・最先端最適化技術の可能性と問題点についての知見を習得


<プログラム>
第1部 はじめに

 1.1 強化学習の基本概念
 1.2 強化学習・深層学習および深層強化学習の特徴と違い
 1.3 深層強化学習により可能となること
 1.4 強化学習における探索と利用のジレンマ
 1.5 多腕バンディット問題の解法をわかりやすく説明

   ・Epsilon-greedy
   ・最適初期値設定法
   ・UCB1
   ・Bayesian/Thompson 法の詳細
 1.6 簡易デモ(python):Gridworld(上記4種類解法の実行:直感的に理解する)

第2部 基本概念:マルコフ決定過程(MDP)の基本原理のポイント 
 2.1 マルコフ性とは
 2.2 平均という簡単な概念からMDPを学ぶ
 2.3 MDPの定義と式の導き方
 2.4 状態遷移確率と行動確率の違い
 2.5 価値関数V(s)と状態行動価値関数[Q(s,a)]の定義
 2.6 簡易演習デモ(python)1:Gridworld(式を理解するために)
 2.7 最適状態価値関数V_* (s)のポイント
 2.8 最適状態行動価値関数Q_* (s,a)のポイント
 2.9 簡易デモ(python)2:Gridworld(式を理解する)
 2.10 ディスカッション:最適性と近似性について


第3部 中核:強化学習におけるMDP問題の解法
 3.1 動的計画法の解説と入門
   ・最適な方策の探索手法をわかりやすく説明
    ・方策反復法による最適状態価値関数を求める
    ・価値反復法による最適状態価値関数を求める
   ・簡易デモ(python):Gridworld(4種類解法の実行と結果比較:概念を理解する)
 3.2 Monte-Carlo(MC)法をわかりやすく解説
   ・モデル法とモデルフリー法のちがい
   ・MC法による最適状態行動価値関数Q(s,a)の求め方とポイント
   ・簡易デモ(python):Gridworld(2種類MC法の実行と比較:概念を理解する)
 3.3 TD学習手法のポイントと入門
   ・SARSA法の説明と式の導きかた
   ・Q-学習法の説明と式の導きかた
   ・On-PolicyとOff-Policyを詳しく説明
   ・簡易デモ(python):Gridworld(3種類TD法の実行と比較:概念を理解する)

第4部 拡張:強化学習における関数近似手法とは(入門編)
 4.1 Tabular法(表形式手法)と近似解法のちがい
 4.2 回帰モデルと誤差関数をあらためて復習
 4.3 最急降下勾配法とMC法との関連性をわかりやすく説明
 4.4 疑似勾配(Semi-Gradient)とは
 4.5 簡単な線形回帰モデルに基いたMC法による状態価値関数V(s,θ)を求める
 4.6 簡単な非線形回帰モデルに基いたTD(0)法によるV(s,θ)を求める
 4.7 簡単な非線形回帰モデルに基いたSARSA法によるV(s,θ)を求める
 4.8 簡易デモ(python):Gridworld(回帰近似MDP解法の実行:直感的理解)


第5部 最前線:深層強化学習の基本概念と最重要ポイント
 5.1 簡易型ニューラルネットワークを応用したQ-学習手法の説明
 5.2 深層Q-学習(DQN)の基本ポイント
 5.3 連続動作空間における強化学習のポイント
 5.4 方策勾配法の基本と式の導き方
 5.5 ガウシアン型行動確率分布の導入
 5.6 方策勾配法による連続動作空間における強化学習の簡易説明
 5.7 深層Actor-Critic法の基本と実行のコツ
 5.8 確率方策勾配法と決定的方策勾配の比較
 5.9 決定的方策勾配DDPGの長所と短所について分析
 5.10 簡易実演デモ(python): Mountain car, Cartpole, Atariなど (概念の理解)


第6部 応用:強化学習と深層強化学習の応用事例
 6.1 蓄電池充放電制御における強化学習の応用事例
 6.2 混合整数計画問題における深層強化学習応用事例
 6.3 PID制御素子における強化学習の応用事例 


 □全体のまとめと質疑応答・名刺交換□