セミナー 印刷

<深層強化学習の基本・最新アルゴリズムと応用>
強化学習アルゴリズム入門
~「平均」からはじめる基礎と応用~

~「強化学習」「深層学習」「深層強化学習」の基本原理と応用、そして最先端最適化技術へ~
~応用できる、実務に活かせる目線で、重要ポイントを理解・習得する講座~
~深層学習のさらに先にある、『深層強化学習手法』とは!?~

★ AI(人工知能)の応用、ビジネス展開を真剣に検討されている方にとってのマスト!「強化学習」を習得!
★ 現場での深層強化学習の応用ノウハウと経験を解説し、すぐ役立つスキルを持ち帰ることができます。
★ 「平均」という観点から強化学習の基本が理解できます!
★ 難解な強化学習の原理を、中高生にもなじみ深い「平均値の計算」という観点からわかりやすく解説します。
このセミナーの受付は終了致しました。
日時 2019年6月24日(月)  10:30~16:30
会場 東京・大田区蒲田 大田区産業プラザ(PiO)  6F D会議室
会場地図
講師 電気通信大学 i-パワードエネルギーシステム研究センター&基盤理工学専攻 准教授 曽我部 東馬 氏
兼任 (株)GRID 最高技術顧問

【経歴・研究内容・専門・ご活動など】
物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、ドイツ マックス・プランク研究所、イギリス ケンブリッジで働いた後、2009年に一旦研究分野から離れ、(株)グリッドの共同設立者となり会社を立ち上げる。その後、東京大学 先端科学技術研究センターに研究の場所を移し、特任准教授として量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。2016年より電気通信大学の准教授および(株)GRIDの最高技術顧問を兼任。現在は、再生エネルギー最適化問題と人工知能のアルゴリズム開発、深層強化学習フレームワーク∞ReNomの開発に従事する。
【講師WebSite】
http://cluster-iperc.matrix.jp/ja/
http://www.gridpredict.jp/
受講料(税込)
各種割引特典
48,600円 ( S&T会員受講料 46,170円 ) S&T会員登録について
定価:本体45,000円+税3,600円
会員:本体42,750円+税3,420円
S&T会員なら、2名同時申込みで1名分無料 1名分無料適用条件
2名で48,600円 (2名ともS&T会員登録必須​/1名あたり定価半額24,300円)
備考※資料・昼食付
※講義中の録音・撮影はご遠慮ください。
※講義中のパソコン使用はキーボードの打音などでご遠慮いただく場合がございます。

セミナー趣旨

 AlphaGoがプロ棋士を破った2016年以降、さまざまな分野から注目されている深層強化学習ですが、専門書は非常に難解でわかりづらい傾向にあります。
 そこで本セミナーは、初歩的な数学を使って原理をわかりやすく解説します。価値・探索・マルコフ決定過程・動的計画法・モンテカルロ法・TD法といった強化学習の諸要素を、中高生にもなじみ深い平均値の計算から説明し、初学者でも基本とコツを自然と身につけられます。抽象的な強化学習の概念と煩雑な数学式を直感的に感じつつ、本質まで把握できることが本セミナーの最大の特徴です。
 また本セミナーと併行する書籍では、全例題にPythonとMATLABのコード付き。原理・数式・コードという一連の流れを紐付けて理解できるようになっています。初学者でも入りやすく、難しさを感じないまま、強化学習の基本と深層学習のコツを自然と身につけられるセミナーです。

セミナー講演内容

<本セミナーの特徴>
 難解な強化学習の原理を、中高生にもなじみ深い「平均値の計算」という観点からわかりやすく解説します。
 テキストとして使用する書籍「強化学習アルゴリズム入門」には、すべての例題にPythonとMATLABのコードが例示されています。セミナー受講とともに実際のコードを確認することでより理解が深まります。

<プログラム>
第1章 平均から学ぶ強化学習の基本概念

 1.0 はじめに
 1.1 平均と期待値

  1.1.1 平均
  1.1.2 期待値
  1.1.3 期待値と平均の関係
 1.2 平均と価値
 1.3 平均とマルコフ性

  1.3.1 平均の計算式とその変形
  1.3.2 逐次平均表現とMP
 1.4 平均によるベルマン方程式の導出
  1.4.1 平均表現と価値関数の導入
  1.4.2 決定型Bellman方程式の導出
  1.4.3 確率型Bellman方程式の導出
 1.5 平均によるモンテカルロ学習手法の導出
  1.5.1 総報酬関数Gt+1の導入
  1.5.2 総報酬GtとVtの比較
  1.5.3 総報酬Gtの平均による価値関数vSt
 1.6 平均によるTD法の導出
  1.6.1 TD(0)法の計算式の導出
  1.6.2 TD(n)法の計算式の導出


第2章 各アルゴリズムの特徴と応用
 2.0 はじめに
 2.1 方策π(a | S)

  2.1.1 多腕バンディット問題
  2.1.2 ε-Greedy方策
  2.1.3 UCB-1方策
  2.1.4 Bayes sampling方策
 2.2 動的計画法
  2.2.1 ε-Greedy(ε=1)反復方策
  2.2.2 ε-Greedy(ε=0)方策反復法(On-Policy)
  2.2.3 ε-Greedy(ε=0)価値反復法(Off-Policy)
 2.3 モンテカルロ法
  2.3.1 固定開始点モンテカルロ法
 2.4 TD(0)法
  2.4.1 方策反復方策からSARSA法の導出
  2.4.2 TD(0)-SARSA法
  2.4.3 価値反復方策からTD(0)-Q学習法の導出
  2.4.4 完全Off-Policy のTD(0)-Q学習法
  2.4.5 部分Off-Policy のTD(0)-Q学習法
  2.4.6 Q学習法とSARSA法の比較

第3章 関数近似手法
 3.0 はじめに
 3.1 関数近似の基本概念
 3.2 関数近似モデルを用いたV(St)の表現
 3.3 機械学習による価値関数の回帰

  3.3.1 誤差関数からわかる回帰と分類
  3.3.2 誤差関数の設計と確率勾配降下法
  3.3.3 強化学習における回帰解析の仕組み
 3.4 モンテカルロ法を応用した価値関数回帰
 3.5 Td(0)-SARSA法を適用した行動状態価値関数の回帰
 3.6 Td(0)-Q法を応用した行動状態価値関数の回帰


第4章 深層強化学習の原理と手法
 4.1 TD-Q学習におけるNNによる行動価値関数回帰
 4.2 DQNによる行動状態価値関数近似
 4.3 確率方策勾配法

  4.3.1 モンテカルロ離散方策勾配法
  4.3.2 ベースラインモンテカルロ離散方策勾配法
  4.3.3 離散型Actor-Critic法
  4.3.4 連続型Actor-Critic法
 4.4 決定型方策勾配法
  4.4.1 DDPG
  4.4.2 ハイブリッドDDPG
 4.5 TRPO/PPO法
  4.5.1 EMアルゴリズム
  4.5.2 信頼領域(trust region)と自然勾配
  4.5.3 信頼領域方策勾配法TRPO
 4.6 まとめと展開 


 □質疑応答・名刺交換□