セミナー 印刷

逆強化学習の基礎と発展

※本セミナーは※日程が変更となりました。(2023/10/2 15:10 更新)
【変更前】2023年9月28日(木)

【変更後】2023年11月21日(火)

変更後のHPはこちらから
受講可能な形式:【Live配信】のみ
このセミナーの受付は終了致しました。
日時 2023年9月28日(木)  10:30~16:30
会場 オンライン配信セミナー  
会場地図
講師 下坂 正倫(しもさか まさみち) 氏 
東京工業大学 情報理工学院 情報工学系 准教授(博士(情報理工学))


<略歴>     
2001年 東京大学 工学部 機械情報工学科 卒業
2006年 東京大学大学院 情報理工学系研究科 知能機械情報学専攻 博士課程修了
2006年~2007年 東京大学大学院 情報理工学系研究科 助手
2007年~2011年 東京大学大学院 情報理工学系研究科 助教
2011年~2015年 東京大学大学院 情報理工学系研究科 講師
2015年 東京工業大学 情報理工学(系)研究科 准教授
2016年 東京工業大学 情報理工学院 准教授
現在に至る。 
受講料(税込)
各種割引特典
53,900円 ( E-Mail案内登録価格 53,900円 ) S&T会員登録とE-Mail案内登録特典について
定価:本体49,000円+税4,900円
E-Mail案内登録価格:本体49,000円+税4,900円
お1人様受講の場合 53,900円 (49,000円+税4,900円)
1口でお申込の場合  66,000円 (60,000円+税6,000円/1口(3名まで受講可能))
※S&T E-Mail案内登録価格 S&T複数同時申込み割引対象外

※開催7日前に請求書を発送します。
※開催日から9日前以降のキャンセルは受講料全額を申受けます。但し、セミナー終了後テキストを郵送します。
  ​一旦、納入された受講料はご返金できません。当日ご都合のつかない場合は代理の方がご出席下さい。
※サイエンス&テクノロジーが設定しているアカデミー価格・キャンセル規定対象外のセミナーです。
主催(株)トリケップス
オンライン配信★本セミナーは、Zoomウェビナーを使用して行います。
 受講者の通信回線にセキュリティなどの制限がある場合は参加できないことがあるため、
 事前に当日ご利用予定の通信回線にて、
 Zoom公式ページ(https://zoom.us)にアクセスできることをご確認していただくようお願いします。
 または、Zoomのテストミーティング(http://zoom.us/test)にアクセスできることをご確認ください。
 Zoomをダウンロードしている方はマイクとスピーカーのテストも可能です。
 ※こちらは接続テスト用のミーティングです。実際のセミナー参加者画面とは異なります。

★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。
 講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

★受講中の録音・撮影等は固くお断りいたします。

※開催5日前までに主催会社(株)トリケップスから参加者に当日必要なURLとパスワードをメールにてお知らせします。
備考★受講申込者が必要定員に満たないセミナーは中止・延期させていただく場合があります。
 その場合は開催1週間前にご連絡します。

★1口でお申込の場合
 代表受講者を定めて下さい。請求書発送等の連絡は代表受講者へ行います。
 申込時に参加者全員の氏名・所属が明記されていない場合、ご参加できない場合があります。

セミナー趣旨

 逆強化学習は統計を基盤とした機械学習と最適制御の学際領域を担う,近年発達著しい研究領域である.強化学習が「成功」と「失敗」の繰り返しの経験から,ロボットに最適な動作を自律獲得させる学習の仕組みであるのに対し,逆強化学習は,明文化が難しい熟練者の巧みなスキルを機械に自律獲得させる,見まねを通じた学習の枠組みになっている.熟練者のうまみ=「報酬」を,観察に基づき推定する枠組みとみなせるため,逆強化学習は,強化学習の逆問題に相当するものである.そのため逆強化学習は模倣学習と呼ばれるほか,逆最適制御とも呼ばれる.これは,強化学習の実応用で問題となる報酬関数の設計など,明文化が難しいスキルの「コツ」といったものをモデル化することに適した技術であり,人行動のモデル化とも関連した応用も多い.例えば状況に応じた運転経路・目的地予測,人と人とのインタラクション行動の予測,運転の好みに応じた追い越し運転予測といった応用などがある.
 本セミナーでは,このような逆強化学習の応用事例を紹介したうえで,逆強化学習の理解につながる,機械学習や強化学習の基礎から説明し,そのうえで逆強化学習の数理的な問題設定,さらに,本研究分野の発展に寄与するいくつかのアルゴリズムを紹介していく.近年の逆強化学習の課題なども紹介できればと考えている.

セミナー講演内容

1 AI分野における模倣学習の位置づけ
 1.1 AI分野における強化学習の位置づけ
 1.2 最適制御と強化学習
 1.3 強化学習と逆強化学習
 1.4 行動クローニングと逆強化学習

2 逆強化学習の応用事例
 2.1 行動スキル獲得
 2.2 行動予測
 2.3 効率的な強化学習

3 機械学習の基本要素の確認
 3.1 損失の期待値・平均値の最小化
 3.2 正則化
 3.3 数値最適化(勾配法)

4 強化学習の問題設定
 4.1 マルコフ決定過程
 4.2 報酬最大化
 4.3 価値関数・Bellman方程式・価値反復法

5 逆強化学習の基礎
 5.1 逆強化学習の基本的枠組の導出
 5.2 モデルベース離散状態空間の逆強化学習
  5.2.1 最大マージン逆強化学習
  5.2.2 最大エントロピー逆強化学習
 5.3 強化学習と逆強化学習の双対性(GAIL)

6 逆強化学習の発展
 6.1 モデルフリー連続状態空間の強化学習
  6.1.1 価値関数近似・方策勾配法
  6.1.2 SAC,PPO,TRPO etc.
 6.2 報酬関数の表現手法
  6.2.1 線形モデル
  6.2.2 加法モデル
  6.2.3 非線形モデリング
  6.2.4 敵対的生成モデリング(AIRL)

7 逆強化学習の実装
 ~シミュレーション環境を用いた逆強化学習の実装事例を紹介する

8 逆強化学習の最近の進展