大規模視覚言語モデル(VLM)の基礎と活用のポイントおよび応用事例 <オンラインセミナー>
~ VLMを使いこなすために必要な知識・スキル、ロボットの行動生成、自動運転、外観検査や生産技術への応用、ReasoningやVisual Promptingなどの最新技術 ~
・今後爆発的に応用先が広がるVLMの基礎から最新技術までを先取りし、高性能な応用システムの開発に活かすための講座
・言語だけでなく、画像・音声・動画などを統合的に処理し、多様な課題に対応可能なVLMの基礎と活用のポイントを修得し、付加価値の高いシステム開発に活かそう!
オンラインセミナーの詳細はこちら:
・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。
講師の言葉
近年、ChatGPTをはじめとする大規模言語モデル(LLM: Large Language Model)は飛躍的な進化を遂げ、自然言語による高度な推論や生成が可能になり、大きなインパクトを与えています。LLMはテキストという唯一のモダリティ(情報の種類)に特化しながらも、人間のような柔軟な応答や知識活用を実現してきました。
そして現在、このLLMは画像・音声・動画などの他のモダリティと統合されつつあります。複数のモダリティを統合して処理できる「マルチモーダルAI」への発展は、実世界の多様な課題に対応するための次のステップとして注目されています。
本講義で紹介する視覚言語モデル(VLM: Vision & Language Model)は、テキストと画像を同時に扱えるLLMの発展系です。VLMは、物体検出や文字認識といったコンピュータビジョンの従来の課題を、LLMの持つ知識を可能とし、言語での認識結果を出力可能にします。本講義ではVLMの基礎から応用事例までを紹介します。
一方、LLM以上にVLMの活用はまだ始めったばかりであり、応用場所はまだ模索途中です。とはいえ、爆発的に応用先が広がってきています。
本講義では、VLMを業務や研究に活用したい方、または外部のVLM活用サービスと連携したい方に向けて、体系的に学んでいただきます。さらに、最新技術のReasoningやVisual Promptingなどについても説明いたします。
セミナー詳細
開催日時 |
- 2025年11月10日(月) 10:30 ~ 17:30
|
開催場所 |
オンラインセミナー |
カテゴリー |
オンラインセミナー、ソフト・データ・画像・デザイン |
受講対象者 |
・システム、ソフト、データ分析ほか関連部門の技術者の方
・VLMの基礎や概要を知りたい方
・VLMを自社で活用したい方
・VLMの最新動向を知りたい方
・ロボット、自動運転、外観検査、生産技術、医療診断、図面管理ほか関連システムの技術者の方 |
予備知識 |
・機械学習、深層学習の基礎知識があると理解しやすい
・もし専門用語がわからない場合でも、講義中に質問していただければ、その都度解説いたします
・ChatGPTはじめLLMを使用した経験があることが望ましい |
修得知識 |
・VLMの基礎と特徴、使いこなすために必要な知識・スキル
・VLMの応用事例
・VLMをローカルで動かす方法とそのコツ |
プログラム |
1.生成AIとVLM 概論
(1).生成AI
a.生成AIとは
b.マルチモーダルAI
c.生成AI最新動向
(2).Vision & Language Model(VLM)とは
a.VLMの特徴、LLMとの違い
b.VLMで何ができる?
c.VLMを使いこなすために必要な知識・スキル、本講義の趣旨
2.VLMの基礎と活用のポイント
(1).VLMの基本的な仕組み
a.画像とテキスト処理の仕組み
(2). CLIP
a.CLIPの概要
b.CLIPの応用例
(3).主要なオープンソースVLM LLaVA、Qwen2.5-VLなど
a.LLaVA系
b.QwenVL系
c.その他
(4).クラウド型VLM
a.GPT-4o
b.Gemini
c.Claude
(5).VLMのテクニック
a.In-context learning (ICL)
b.Chain-of-thought(CoT)
c.Visual prompting
(6).Reasoningモデル
a.Reasoningモデルとは?
b.OpenAI o3
3.VLMの応用事例
(1).VQA(Visual Question Answering)
(2).文章理解
(3).ロボットの行動生成(Visual Language Action Model)
(4).自動運転への応用
(5).外観検査や生産技術への応用
4.VLMをローカルで動かすには
(1).必要スキル、必要ハードウェア
(2).学習データと学習
(3).VLMを動かすためのコツと課題
5.まとめ
(1).VLMの現状と実利用での問題
(2).今後の予想
(3).Reasoning、AIエージェント
|
キーワード |
生成AI マルチモーダルAI Vision & Language Model VLM CLIP LLaVA QwenVL Reasoningモデル 行動生成 自動運転 外観検査 Reasoning、AIエージェント |
タグ |
AI・機械学習、自動運転・運転支援技術・ADAS、コンテンツ、ソフト管理、データ解析、画像、画像処理、画像認識、ロボット、ITサービス |
受講料 |
一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
|
会場 |
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
|