大規模視覚言語モデル(VLM)の基礎と実践的な利活用のポイント ~デモ付~ <オンラインセミナー>

~ 生成AIとVLM、VLMによる視覚・言語処理、VLMの性能評価・分析手法とその注意点、学習なし/学習ありによる性能改善のポイント ~

・コンピュータビジョンの実装に役立つVLMについて基礎から効果的な利活用のポイントまで修得し、実務で活用するための講座

・テキスト情報と画像などの視覚的情報を複合的に扱えるVLMの仕組みや特徴と学習方法から目的に沿った性能改善方法までを修得し、効果的なシステム開発に活かすためのセミナー!

※オープンVLMを用いたデモを行ないますが、環境を用意いただければ実際に触れることができます

オンラインセミナーの詳細はこちら:

・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。

講師の言葉

 発展めざましい大規模言語モデル(LLM)がテキスト情報のみを扱うのに対して、画像などの視覚的情報を扱えるモデルを大規模視覚言語モデル(VLM)と呼びます。VLMの利点は実世界の情報を直接扱える点にあり、物体の位置関係の把握、文字の読み取りといったコンピュータビジョンのタスクを汎用的に解くことができる他、利用者の指示に沿った出力を得られるため、我々が実世界で直面する様々な問題に活用できる可能性を秘めています。日本におけるLLMの利活用が途上にある中で、VLMの利活用も未だ検討段階にあり、利活用の勘所を掴みにくいと感じている方も多いのではないでしょうか。

 本講義では、VLMを自社で活用、またはVLMを開発する他社と協業して活用したい方がVLMの要点と利活用の勘所を掴めることを目的とします。具体的には、VLMの仕組みや学習方法といった基礎から、VLMが各自の課題解決のためにどのように適用可能かを検証・改善するまでの一通りのプロセスについて参加者の皆様にも実際に手を動かしていただく演習を交えながら解説します。

セミナー詳細

開催日時
  • 2025年06月23日(月) 10:30 ~ 17:30
開催場所 オンラインセミナー
カテゴリー オンラインセミナーソフト・データ・画像・デザイン
受講対象者 ・VLMの基礎や概要から知りたい方、興味・関心をお持ちの方
・VLMを自社で、またはVLMを開発する他社と協業して活用したい方
・VLMを自社の課題解決に活用したい方
予備知識 ・機械学習の使用経験や基礎知識(特に、尤度、損失関数)があるとより理解が深まります
・一部専門用語も出てくるため、わからない用語があればお答えしますので、講義中や休憩時間中などでお気軽にお尋ねください
修得知識 ・VLMの基本的な仕組みや学習方法
・国内外の英語VLM・日本語VLMの近年の動向と活用のポイント
・VLMの評価と性能改善のための検証プロセスの実施方法に関する知識
プログラム

1.概論:生成AIとVLM

  (1).生成AIのインパクト

    a.生成AIとは、基盤モデルとは

    b.大規模言語モデル(LLM)が拓いたAI研究の新時代

    c.生成AIの将来展望:マルチモダリティ対応、AIエージェント

    d.生成AIをめぐる国内外の近年の動向(研究、活用事例、課題感)

  (2).いま、なぜ大規模視覚言語モデル(VLM)なのか

    a.VLMの特徴、LLMとの違い

    b.VLMで今後何ができるようになるのか(研究、活用事例)

    c.VLMの現状の課題感

    d.VLMを使いこなすために必要な知識・スキル、本講義の趣旨

  (3).本講義の構成と進め方について

 

2.VLMによる視覚・言語処理の基礎

  (1).VLMの基本的な仕組み

    a.VLMは画像とテキストをどのように処理するか

    b.エンコーダ型VLMとデコーダ型VLM

  (2).エンコーダ型VLM: CLIP

    a.推論方法

    b.学習方法

    c.エンコーダ型VLMの特徴・課題

  (3).デコーダ型VLM: LLaVA, Qwen2-VL

    a.推論方法

    b.学習方法

    c.デコーダ型VLMの特徴・課題

  (4).エンコーダVLM、デコーダVLMの使いどころ

    a.様々な制約条件(リソース、コスト、ライセンスなど)下でどのモデルを使うべきか

    b.プロプライエタリな最高性能VLM:GPT-4o, Gemini

    c.高性能なオープンVLM

    d.日本語を扱えるVLM

  (5).オープンVLM性能を引き出すための工夫

    a.テキストプロンプトの工夫: In-context learning (few-shot learning, Chain-of-thought)

    b.視覚プロンプトの工夫: Visual prompting

    c.Visual Instruction Tuningデータセットによる事後学習

 

3.VLMの性能評価手法と実践のポイント―独自ベンチマーク作成

  (1).VLMベンチマークの基礎

    a.なぜ独自のVLMベンチマークを作るべきなのか

    b.VLMの基本的な評価・分析方法と注意点

  (2).演習(デモ)

    a.VLMベンチマークデータセット作成の実践

    b.VLMの定性分析・定量分析

 

4.追加の学習を行なわずにVLMの性能を改善する方法とそのポイント

  (1).評価と改善のループをどのように回すか

  (2).演習(デモ)

    a.テキストプロンプトの工夫: In-context learning (few-shot learning, Chain-of-thought)

    b.Visual prompting

 

5.追加の学習によってVLMの性能を改善するための実践ノウハウ

  (1).どのような状況で学習あり戦略を検討するべきか

  (2).手を出す前に:タスクの難易度を見極める

    a.プロプライエタリな最高性能VLM(例:GPT-4o)でどれくらいできる?

    b.学習なし戦略の効果は?

  (3).Visual Instruction Tuningのデータをどのように作成するか

    a.学習に必要なリソース、コスト感

    b.演習:人手によるデータ作成

    c.人手によるデータ作成の注意点・難しさ

    d.発展:データ合成戦略の検討

 

6.まとめ:持ち帰っていただきたいポイント

  (1).VLMの実利用で問題になりやすいと思われるポイント

  (2).今後想定される国内外の動きの中で何から始めるか

キーワード vision and Language 深層学習 ディープラーニング Transformer 事前学習 ファインチューニング 生成モデル ニューラルネットワーク 画像認識 自然言語処理 LLM VLM 基盤モデル
タグ AI・機械学習SLAM・自己位置推定自動運転・運転支援技術・ADASイメージセンサカメラカムソフト品質ソフト教育ソフト知的財産データ解析モバイルコンピューティング位置情報音声処理画像処理画像認識組み込みソフト位置決めGPUGUIFPGA
受講料 一般 (1名):52,800円(税込)
同時複数申込の場合(1名):47,300円(税込)
会場
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
contact us contact us
各種お問い合わせは、お電話でも受け付けております。
03-5322-5888

営業時間 月~金:9:00~17:00 / 定休日:土日・祝日