大規模視覚言語モデル(VLM)の基礎と実装および実践的な活用法 ~デモ付~ <オンラインセミナー>
~ 画像認識から視覚言語モデル(VLM)までの技術的な流れと基礎原理、CLIP、BLIP、LLaVAの代表的モデルの構造と応用方法、VLMの実装と使い方のポイント ~
・近年急速に発展している視覚と言語を統合したAI技術「大規模視覚言語モデル(VLM)」の基礎から応用までのポイントを体系的に修得し、システム開発に応用するための講座
・CLIP、BLIP、LLaVAなど代表的VLMモデルの構造と応用方法を修得し、キャプション生成や視覚的質問応答(VQA)などのシステムに実践的に活用しよう!
オンラインセミナーの詳細はこちら:
・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。
講師の言葉
本セミナーでは、近年急速に発展している視覚と言語を統合したAI技術「大規模視覚言語モデル(VLM:Vision-Language Model)」について、その基礎から応用までを体系的に解説します。
まず、画像認識や自然言語処理の発展を振り返りながら、VLMがどのように誕生し、どのような技術要素(CNN・Transformer・マルチモーダル学習など)によって支えられているかを紹介します。続いて、CLIP、BLIP、LLaVAといった代表的モデルを題材に、実際のキャプション生成や質問応答、画像・映像生成などの応用例を実演形式で体験いただきます。さらに、最新の研究動向や今後の技術的課題、大規模モデルの方向性についても展望します。画像処理やAIに関心のあるエンジニア・研究者の方々にとって、理論と実践を結びつける良い機会となる内容です。
セミナー詳細
| 開催日時 |
- 2026年03月06日(金) 10:00 ~ 17:00
|
| 開催場所 |
オンラインセミナー |
| カテゴリー |
オンラインセミナー、ソフト・データ・画像・デザイン |
| 受講対象者 |
・システム、ソフト、画像処理ほか関連部門の技術者の方
・画像認識、自然言語処理、AI開発に興味・関心をお持ちの方
・VLM(Vision-Language Model)の仕組みや活用方法を学びたい方
・生成AIやマルチモーダル技術の最新動向を把握し、業務や研究に応用したい方 |
| 予備知識 |
・特別な専門知識は必須ではありませんが、画像認識や自然言語処理、機械学習の基本的な考え方を理解していると内容をより深く理解できます
・一部専門用語も出てくるため、セミナー中にわからない点があればその都度ご質問ください |
| 修得知識 |
・画像認識から視覚言語モデル(VLM)までの技術的な流れと基礎原理
・CLIP、BLIP、LLaVAなど代表的VLMの構造と応用方法
・キャプション生成や視覚的質問応答(VQA)などを通じたVLMの実践的な活用方法 |
| プログラム |
1.VLMの導入と応用分野
(1).VLM(Vision-Language Model)とは何か
(2).なぜ今VLMが注目されているのか
(3).応用分野の概要
(4).本セミナーの構成と進め方について
2.VLMの基盤技術とマルチモーダル学習の仕組み
(1).画像認識技術の発展(CNN→Vision Transformer)
(2).自然言語処理の発展(RNN→Transformer→GPT)
(3).画像認識技術と自然言語処理の融合
(4).マルチモーダル学習の仕組み
(5).代表的なVLMの紹介(CLIP、BLIP、LLaVAなど)
3.VLMの実装と使い方のポイント (デモを含む)
(1).環境構築および実導入における課題
(2).画像理解・キャプション生成
(3).視覚的質問応答(VQA)
(4).画像生成・映像生成
(5).VLMの実装応用例
4.今後の展望
(1).最新の研究動向
(2).大規模モデルの方向性
(3).VLMの限界と次の課題
(4).これからの研究・開発トレンド
|
| キーワード |
VLM CNN RNN マルチモーダル学習 CLIP BLIP LLaVA 画像理解 キャプション生成 VQA 画像生成 映像生成 大規模モデル |
| タグ |
AI・機械学習、ソフト管理、ソフト外注管理、ソフト品質、ソフト教育、ソフト知的財産、画像、画像処理、画像認識 |
| 受講料 |
一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
|
| 会場 |
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
|