セミナー 印刷

【Live配信(Zoom使用)限定セミナー】
よくわかる!逆強化学習の基礎、手法選択と応用

■講義中は、講師が画面に直接、書き込みや注釈を加えながらLive配信いたします■

本セミナーは、Zoomによる【Live配信受講】のみです。会場開催はございません。
※詳細につきましては下記「ライブ配信」の項目をご確認ください。
★ 逆強化学習を基礎から解法まで1日で徹底学習!
日時 2020年12月14日(月)  10:30~16:30
会場 Live配信セミナー(リアルタイム配信) ※会社・自宅にいながら学習可能です※  
会場地図
講師 電気通信大学 i-パワードエネルギーシステム研究センター&基盤理工学専攻 准教授 曽我部 東馬 氏
兼任 (株)GRID 最高技術顧問

【経歴・研究内容・専門・ご活動など】
物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、ドイツ マックス・プランク研究所、イギリス ケンブリッジで働いた後、2009年に一旦研究分野から離れ、(株)グリッドの共同設立者となり会社を立ち上げる。その後、東京大学 先端科学技術研究センターに研究の場所を移し、特任准教授として量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。2016年より電気通信大学の准教授および(株)GRIDの最高技術顧問を兼任。現在は、再生エネルギー最適化問題と人工知能のアルゴリズム開発、深層強化学習フレームワーク∞ReNomの開発に従事する。
【講師WebSite】
http://cluster-iperc.matrix.jp/ja/
http://www.gridpredict.jp/
受講料(税込)
各種割引特典
49,500円 ( S&T会員受講料 46,970円 ) S&T会員登録について
定価:本体45,000円+税4,500円
会員:本体42,700円+税4,270円
S&T会員なら、2名同時申込みで1名分無料 1名分無料適用条件
2名で49,500円 (2名ともS&T会員登録必須​/1名あたり定価半額24,750円)
テレワーク応援キャンペーン(1名受講)【Live配信/WEBセミナー受講限定】
1名申込みの場合:受講料( 定価:35,200円/S&T会員 33,440円 )

35,200円 ( S&T会員受講料 33,440円 ) 
 定価:本体32,000円+税3,200円
 会員:本体30,400円+税3,040円
1名様でLive配信/WEBセミナーを受講する場合、上記特別価格になります。
※お申込みフォームで【テレワーク応援キャンペーン】を選択のうえお申込みください。
※他の割引は併用できません。
配布資料製本テキスト(開催前日着までを目安に発送)
 ※セミナー資料はお申込み時のご住所へ発送させていただきます。
 ※開催まで4営業日~前日にお申込みの場合、セミナー資料の到着が、
  開講日に間に合わない可能性がありますこと、ご了承下さい。
オンライン配信【ZoomによるLive配信】
・本セミナーはビデオ会議ツール「Zoom」を使ったライブ配信セミナーとなります。
・お申込み受理のご連絡メールに接続テスト用のURL、ミーティングID​、パスコードが記されております。
 「Zoom」をインストールができるか、接続できるか等をご確認下さい。
・セミナー開催日時に、視聴サイトにログインしていただき、ご視聴ください。講師へのご質問も可能です。
・お申込みの際は、接続確認用URL(https://zoom.us/test)にアクセスして接続できるか等ご確認下さい。
・開始時に視聴できないなどのお問い合わせが増えています。予めZoomのテスト確認を必ずお願いいたします。
 Zoomのテスト
 http://zoom.us/test
 音声に関するQ&A
 https://support.zoom.us/hc/ja/articles/115002262083
 Zoomのアプリの他、ブラウザによる視聴環境について
 https://support.zoom.us/hc/ja/articles/214629443-Zoom
 Internet Explorer 10以降       Chromium Edge 80以降
 Google Chrome 53.0.2785以降    Safari 10.0.602.1.50以降
 Firefox 76以降
備考※資料付 
※講義中の録音・撮影はご遠慮ください。

セミナー講演内容

第1部 逆強化学習の基礎知識
 1.1 マルコフ決定過程

      ・平均とマルコフ性(MP)
      ・逐次平均表現とMP
      ・マルコフ報酬過程
      ・マルコフ決定過程
 1.2 Bellman方程式の導出:
      ・平均から決定型Bellman方程式の導入:
      ・平均表現と価値関数の導入:
      ・確率型Bellman方程式の導出:
       (日)行動状態価値関数の導入:
       (月)確率型ベルマン方程式の導出
       (火)遷移確率関数 T (r ( S') , S'│s,a )の極意
       (水)グリッドワード問題の応用
 1.3 動的計画法
      ・ε = 1 - Greedy反復方策
      ・ε = 0 - Greedy方策反復法(On-Policy)
      ・ε = 0 - Greedy価値反復法(Off-Policy)
 1.4 逆強化学習の基本概念の導入
      ・報酬関数の定義
      ・報酬関数による価値関数の推定

第2部 逆強化学習の解法:線形計画最適化逆強化学習手法
 2.1 線形計画最適化逆強化学習手法の導入
 2.2 線形計画逆強化学習手法の定式化
 2.3 線形計画逆強化学習手法のコーディング要領
 2.4 線形計画逆強化学習手法の応用事例の紹介

第3部 逆強化学習の解法:最大エントロピー逆強化学習手法
 3.1 関数近似の基本概念 
 3.2 関数近似モデルを用いた報酬の表現 
 3.3 機械学習による報酬関数の回帰 
 3.4 最大エントロピーを取り入れた報酬誤差関数の設計
 3.5 熟練者による行動確率教師データの生成
 3.6 最大エントロピー逆強化学習手法のコーディング要領
 3.7 最大エントロピー逆強化学習手法の応用事例の紹介

第4部 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
 4.1 深層NN(neural network)の導入
 4.2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
 4.3 熟練者による状態頻度教師データの生成
 4.4 深層NN最大エントロピー逆強化学習手法のコーディング要領
 4.5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

第5部 逆強化学習の展望と関連技術の紹介


  □質疑応答□