セミナー 印刷

技術者のための視覚基盤モデル入門
:2015年からの進化と未来

受講可能な形式:【Live配信】のみ
日時 2025年9月9日(火)  13:00~17:00
受講料(税込)
各種割引特典
51,700円 ( E-Mail案内登録価格 53,900円 ) S&T会員登録とE-Mail案内登録特典について
定価:本体47,000円+税4,700円
E-Mail案内登録価格:本体49,000円+税4,900円
お1人様受講の場合 51,700円 (47,000円+税4,700円)
1口でお申込の場合  66,000円 (60,000円+税6,000円/1口(3名まで受講可能))
※S&T E-Mail案内登録価格 S&T複数同時申込み割引対象外

※開催7日前に請求書を発送します。
※開催日から9日前以降のキャンセルは受講料全額を申受けます。但し、セミナー終了後テキストを郵送します。
  ​一旦、納入された受講料はご返金できません。当日ご都合のつかない場合は代理の方がご出席下さい。
※サイエンス&テクノロジーが設定しているアカデミー価格・キャンセル規定対象外のセミナーです。
主催(株)トリケップス
オンライン配信★本セミナーは、Zoomウェビナーを使用して行います。
 受講者の通信回線にセキュリティなどの制限がある場合は参加できないことがあるため、
 事前に当日ご利用予定の通信回線にて、
 Zoom公式ページ(https://zoom.us)にアクセスできることをご確認していただくようお願いします。
 または、Zoomのテストミーティング(http://zoom.us/test)にアクセスできることをご確認ください。
 Zoomをダウンロードしている方はマイクとスピーカーのテストも可能です。
 ※こちらは接続テスト用のミーティングです。実際のセミナー参加者画面とは異なります。

★インターネット経由でのライブ中継ため、回線状態などにより、画像や音声が乱れる場合があります。
 講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

★受講中の録音・撮影等は固くお断りいたします。

※開催5日前までに主催会社(株)トリケップスから参加者に当日必要なURLとパスワードをメールにてお知らせします。
備考★受講申込者が必要定員に満たないセミナーは中止・延期させていただく場合があります。
 その場合は開催1週間前にご連絡します。

★1口でお申込の場合
 代表受講者を定めて下さい。請求書発送等の連絡は代表受講者へ行います。
 申込時に参加者全員の氏名・所属が明記されていない場合、ご参加できない場合があります。

セミナー講師

速水 悟(はやみずさとる) 氏
早稲田大学 グリーン・コンピューティング・システム研究機構 上級研究員 / 研究院 教授(博士(工学))

 <経歴、等>
1981年、東京大学大学院 工学系研究科 修士課程修了。通商産業省工業技術院電子技術総合研究所、CMU 客員研究員、CNRS/LIMSI 客員研究員、岐阜大学教授を経て、2021年より早稲田大学グリーン・コンピューティンクグ・システム研究機構。
著書「製造業向け人工知能講義」日経BP(2024/08) 、日経クロステック「速水教授の人工知能講義」
 IEEE、エレクトロニクス実装学会、電子情報通信学会、日本技術士会等の会員。
 著書:バウンダリスキャンハンドブック(青山社、監訳)、Three-Dimensional Integration of Semiconductors (Springer、共著)ほか。
研究分野:知覚情報処理/メディア情報学/機械学習。

セミナー趣旨

 本セミナーでは、視覚基盤モデル(Vision Foundation Model)を技術者向けに解説します。この技術は視覚言語モデル(VLM)、視覚言語行動モデル(VLA)へと発展し、実世界との接点としてPhysical AI(Embodied AI)への適用が注目されています。そこで視覚基盤モデルの技術を解説し、工学分野・製造業に与える影響を考察します。

セミナー講演内容

1 視覚基盤モデルの重要性
  1.1 外界を認識し、行動する上で「見る」ことの重要性
  1.2 深層学習の深化:物体検出、領域分割など視覚タスクの広がり
  1.3 タスクごとのモデルから基盤モデルへの進化
  1.4 自動運転、ロボット、製造業における応用

2 自己教師あり学習
  2.1 自己教師あり学習(Self-supervised Learning)の意義
  2.2 自己教師あり学習手法(対比学習: Contrastive Learning)
  2.3 マスク画像モデリング(Masked Auto-encoder)
  2.4 自然言語処理分野での成功(BERT、GPT)の波及

3 Transformerのインパクトとマルチモーダル学習
  3.1 画像分野におけるTransformer のインパクト
  3.2 マルチモーダル学習:画像とテキストの融合(CLIP)
  3.3 視覚言語モデル(Vision Language Model)における言語の役割
  3.4 外観検査への視覚言語モデルの応用:汎用外観検査
  3.5 集約型視覚基盤モデル:AM-RADIO [CVPR2024]、 RADIO-v2 [CVPR2025]

4 三次元(3D)世界への拡張:3D表現学習
  4.1 二次元(2D)視覚からの発展:なぜ3D理解が重要なのか?
  4.2 三次元表現手法(その1):Neural Radiance Fields(NeRFs)
  4.3 三次元表現手法(その2):3D Gaussian Splatting
  4.4 スチューデントt分布の適用:3D Student Splatting and Scooping [CVPR2025]
  4.5 VGGT:Visual Geometry Grounded Transformer [CVPR2025]
  4.6 CADとの連携:CADTalk [CVPR2024]、CADDreamer[CVPR2025]

5 行動理解とロボティクスへの視覚基盤モデルの応用
  5.1 動画像からの人間動作理解:視覚の役割深化
  5.2 マークと軌跡の利用(Set-of-Mark:SoM、Trace-of-Mark:ToM)
  5.3 Magma: A Foundation Model for Multimodal AI Agents [CVPR 2025]
  5.4 ロボットシミュレーションにおけるVLA(Vision-Language-Action)モデル
  5.5 言語による汎化性+推論による行動計画・実行の進化
  5.6 UI ナビゲーションから点検作業支援/安全管理への発展の可能性

注)テキストからの画像生成は時間の関係で扱いません。