大規模視覚言語モデル(VLM)の基礎と応用技術および事例 <オンラインセミナー>
~ VLMの基本的な仕組み、応用事例、VLMを動かすためのコツと課題、VLMの現状と実利用での問題 ~
・爆発的に応用先が広がっているVLMを基礎から体系的に修得し、高性能なシステム開発に応用するための講座
・マルチモーダルAIとして発展が著しいVLM技術を学び、ロボット行動生成、自動運転、外観検査や生産技術へ応用しよう!
・VLMをローカルで動かすための技術とそのコツおよび最新技術のReasoning、Visual promptingについても解説いたします
オンラインセミナーの詳細はこちら:
・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。
講師の言葉
近年、ChatGPTをはじめとする大規模言語モデル(LLM:Large Language Model)は飛躍的な進化を遂げ、自然言語による高度な推論や生成が可能になり、大きなインパクトを与えています。LLMはテキストという唯一のモダリティ(情報の種類)に特化しながらも、人間のような柔軟な応答や知識活用を実現してきました。
そして現在、このLLMは画像・音声・動画などの他のモダリティと統合されつつあります。複数のモダリティを統合して処理できる「マルチモーダルAI」への発展は、実世界の多様な課題に対応するための次のステップとして注目されています。
本講義で紹介する視覚言語モデル(VLM:Vision&Language Model)は、テキストと画像を同時に扱えるLLMの発展系です。VLMは、物体検出や文字認識といったコンピュータビジョンの従来の課題を、LLMの持つ知識を可能とし、言語での認識結果出力可能にします。本講義ではVLMの基礎から応用事例までを紹介します。
一方、LLM以上にVLMの活用はまだ始まったばかりであり、応用場所はまだ模索途中です。とはいえ、爆発的に応用先が広がってきています。
本講義では、VLMを業務や研究に活用したい方、または外部のVLM活用サービスと連携したい方に向けて、体系的に学んでいただきます。さらに、最新技術のReasoningやVisual Promptingなどについても説明いたします。
セミナー詳細
| 開催日時 |
- 2026年09月07日(月) 10:00 ~ 17:00
|
| 開催場所 |
オンラインセミナー |
| カテゴリー |
オンラインセミナー、ソフト・データ・画像・デザイン |
| 受講対象者 |
・VLMの基礎や概要を知りたい方
・VLMを自社で活用したい方
・VLMの最新動向を知りたい方 |
| 予備知識 |
・機械学習、ディープラーニングの基礎知識があると理解しやすいですが、なくても問題はありません
・ChatGPTはじめLLMを使用した経験があることが望ましいです(講義までに一度体験してください)
・もし専門用語がわからない場合でも、講義中に質問していただければ、その都度解説いたします |
| 修得知識 |
・VLMの基礎と特徴、使いこなすために必要な知識・スキル
・VLMの応用事例
・VLMをローカルで動かす方法とそのコツ |
| プログラム |
1.概論:生成AIとVLM
(1).生成AI
a.生成AIとは
b.マルチモーダルAI
c.生成AI最新動向
(2).Vision&Language Model(VLM)とは
a.VLMの特徴、LLMとの違い
b.VLMで何ができる?
c.VLMを使いこなすために必要な知識・スキル、本講義の趣旨
2.VLMの基礎と活用テクニック
(1).VLMの基本的な仕組み
a.画像とテキスト処理の仕組み
(2).CLIP
a.CLIPの概要
b.CLIPの応用例
(3).主要なオープンソースVLM LLaVA、Qwen2.5-VLなど
a.LLaVA系
b.QwenVL系
c.その他
(4).クラウド型VLM
a.GPT-4o
b.Gemini
c.Claude
(5).VLMのテクニック
a.In-context learning (ICL)
b.Chain-of-thought(CoT)
c.Visual prompting
(6).Reasoningモデル
a.Reasoningモデルとは?
3.VLMの応用技術と事例
(1).VQA(Visual Question Answering)
(2).文章理解
(3).ロボットの行動生成(Visual Language Action Model)
(4).自動運転への応用
(5).外観検査や生産技術への応用
4.VLMをローカルで動かすには
(1).必要スキル、必要ハードウェア
(2).学習データと学習
(3).VLMを動かすためのコツと課題
5.まとめ
(1).VLMの現状と実利用での問題
(2).今後の予想
(3).Reasoning、AIエージェント
|
| キーワード |
生成AI マルチモーダルAI VLM CLIP LLaVA Qwen2.5‑VL クラウド型VLM GPT‑4o Gemini Claude ICL CoT Visual Prompting Reasoningモデル VQA |
| タグ |
自動運転・運転支援技術・ADAS、AI・機械学習、ソフト管理、ソフト外注管理、ソフト品質、ソフト教育、ロボット |
| 受講料 |
一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
|
| 会場 |
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
|