セミナー 印刷

Vision Transformerの仕組みとBEV Perception

~物体検出、自己教師あり学習、BEV Perception等のコンピュータビジョン最前線~

受講可能な形式:【Live配信】のみ
日時 2025年9月25日(木)  10:30~16:30
受講料(税込)
各種割引特典
53,900円 ( E-Mail案内登録価格 53,900円 ) S&T会員登録とE-Mail案内登録特典について
定価:本体49,000円+税4,900円
E-Mail案内登録価格:本体49,000円+税4,900円
お1人様受講の場合 53,900円 (49,000円+税4,900円)
1口でお申込の場合  66,000円 (60,000円+税6,000円/1口(3名まで受講可能))
※S&T E-Mail案内登録価格 S&T複数同時申込み割引対象外

※開催7日前に請求書を発送します。
※開催日から9日前以降のキャンセルは受講料全額を申受けます。但し、セミナー終了後テキストを郵送します。
  ​一旦、納入された受講料はご返金できません。当日ご都合のつかない場合は代理の方がご出席下さい。
※サイエンス&テクノロジーが設定しているアカデミー価格・キャンセル規定対象外のセミナーです。
主催(株)トリケップス
オンライン配信★本セミナーは、Zoomウェビナーを使用して行います。
 受講者の通信回線にセキュリティなどの制限がある場合は参加できないことがあるため、
 事前に当日ご利用予定の通信回線にて、
 Zoom公式ページ(https://zoom.us)にアクセスできることをご確認していただくようお願いします。
 または、Zoomのテストミーティング(http://zoom.us/test)にアクセスできることをご確認ください。
 Zoomをダウンロードしている方はマイクとスピーカーのテストも可能です。
 ※こちらは接続テスト用のミーティングです。実際のセミナー参加者画面とは異なります。

★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。
 講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

★受講中の録音・撮影等は固くお断りいたします。

※開催5日前までに主催会社(株)トリケップスから参加者に当日必要なURLとパスワードをメールにてお知らせします。
備考★受講申込者が必要定員に満たないセミナーは中止・延期させていただく場合があります。
 その場合は開催1週間前にご連絡します。

★1口でお申込の場合
 代表受講者を定めて下さい。請求書発送等の連絡は代表受講者へ行います。
 申込時に参加者全員の氏名・所属が明記されていない場合、ご参加できない場合があります。

セミナー講師

藤吉弘亘(ふじよしひろのぶ) 氏 
   中部大学 工学部 情報科学科 / 大学院 工学研究科 情報工学専攻 教授(博士(工学))

 <略歴>     1997年 中部大学大学院 博士後期課程了
 1997~2000年 米国カーネギーメロン大学 ロボット工学研究所 Postdoctoral Fellow
 2000年 中部大学 講師
 2004年 中部大学 准教授
 2005~2006年 米国カーネギーメロン大学 ロボット工学研究所 客員研究員
 2010年 中部大学 教授
 2014年 名古屋大学 客員教授
  現在に至る
 <学会>     電子情報通信学会、情報処理学会、ロボット学会、IEEE
 <主な受賞>     ロボカップ研究賞(2005年)
 情報処理学会論文誌CVIM優秀論文賞(2009年)
 情報処理学会山下記念研究賞(2009年)
 画像センシングシンポジウム優秀学術賞(2010, 2013, 2014年)
 電子情報通信学会 情報・システムソサイエティ論文賞(2013年)
 <研究>     計算機視覚、動画像処理、パターン認識・理解の研究に従事

セミナー趣旨

 自己注意機構を活用したニューラルネットワークであるTransformerは、機械翻訳タスクでSoTAを達成し実用化を加速させている。このTransformerをコンピュータビジョンタスクに適用したモデルがVision Transformerであり、2019年以降、急速に応用と改良が加えられている。Vision Transformerは、CNNとは異なる新たな特徴表現獲得が可能となり、テクスチャノイズに対してロバストな認識が可能となっている。
 本セミナーでは、Vision Transformerについて従来の手法と対比しながらその仕組みと特長について解説し、コンピュータビジョン応用として物体検出、セマンティックセグメンテーション、自己教師あり学習について紹介する。また、BEV PerceptionによるEnd-to-end自動運転技術の最前線についても紹介する。

セミナー講演内容

1 Transformerの仕組み
 1.1 Transformer
 1.2 大規模言語モデル

2 Vision Transformerの仕組み
 2.1 特徴表現獲得の変遷
 2.2 VIsion Transformer(ViT)
 2.3 ViTによる画像認識
 2.4 ViTによる特徴表現獲得
 2.5 ViTベースの物体検出、セマンティックセグメンテーション
 2.6 ViTの自己教師あり学習
 2.7 ViTの派生手法(Swin Transformer、ConvNeXtなど)

3 Vision and Languge Model(VLM)による知識獲得向
 3.1 VLMとは
 3.2 CLIPとオープンボキャブラリ認識
 3.3 LLaVA
 3.4 Vision-Language-Actionモデル(VLA)

4 TransformerによるBEV Perception
 4.1 Bird’s-Eye-View(BEV)空間
 4.2 BEVベースの3D物体検出:BEVFormer
 4.3 BEVベースのE2E自動運転:UniAD、Para-Drive、EMMA