LLMの基礎と実装フレームワークの効果的な活用法:DifyとOllamaによるRAGの構築、マルチモーダルモデルの利用法 ~デモ付~ <オンラインセミナー>

~ ローカル言語モデルとRAGの組み合わせ、Transformerの構造理解、事前学習の具体的な方法、GPTを利用した独自データの文書識別、マルチモーダル (Vision & Language) の仕組みと利用 ~

・マルチモーダル化が進むLLMの最新技術を先取りし、システム開発に応用するための講座

・DifyとRAGを利用した質問応答システムの実装方法やLoRA、BERTにおけるチューニング技術などを修得し、高機能なシステム開発に活かそう!

オンラインセミナーの詳細はこちら:

・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。

講師の言葉

 近年、TransformerのDecoder部分で事前学習を適用したGPTおよびChatGPTが各言語で、自然な応答返したり、試験に解答したり、会話やプログラムを生成することが話題になり、自然言語処理研究者だけでなく、多くの実務に関係する人々の興味を集めています。本講義では、ChatGPTをはじめとしたAPIによる大規模言語モデルの利用例について説明した後、その中心的な機構の解説と実装について具体的に説明します。さらに、Downloadして利用可能なローカル言語モデルが多数公開されており、手持ちのデータを組織内のパソコンで大規模言語モデルに適用できるようになりました。大規模言語モデルに独自データを一時的に読み込ませて回答するRAGにより、組織内の文書に対して高いレベルの質問応答システムの構築が組織内で構築することも可能になってきました。
 本講義ではビジュアルなツールであるDifyを利用してローカルな言語モデルを使ったRAGの構築例について説明します。また、ローカル言語を学習させる方法としてLoRAが開発されたことから、GPUのメモリが限られている状況でも手持ちのデータで大規模言語モデルをfine-tuneできるようになりました。本講義ではLoRAの実装例、およびどの程度のGPU環境が必要かなど明らかにしたいと思います。また、マルチモーダルが発展しており、最新の内容を解説する予定です。講義では、LinuxとPythonを利用したデモを行いますが、特に深い知識は必要ありません。この講義を通してGPTモデルの発展の理解を深めることで皆様がお持ちになる課題の解決の一助となることを願っています。

セミナー詳細

開催日時
  • 2025年06月26日(木) 10:30 ~ 17:30
開催場所 オンラインセミナー
カテゴリー オンラインセミナーソフト・データ・画像・デザイン
受講対象者 ・自然言語処理、GPTの応用に興味がある方
・自然言語処理が必要になった技術者の方
・言語処理まわりの課題を既にお持ちになっていて、処理手法の選択肢を広げたい方
・RAGの実装例や質問応答をうまく作成するポイントを知りたい方
・ローカルな言語モデルでDifyを利用してAPIによる費用が発生せずにRAGを構築したい方
・GPTやBERTを利用して独自のデータを学習させたい方
・画像になっている文書を大規模言語モデルに適用する手法を学びたい方
予備知識 ・予備知識は特に仮定しませんが、深層学習に関連した具体的なプログラムをパソコン上で利用した経験があるとより具体的な部分が理解しやすいです
修得知識 ・自然言語処理においてGPTおよびChatGPTの機構および応用の範囲を俯瞰的に理解することができます
・ローカルな言語モデルとRAGを利用した質問応答システムの実装方法
・GPTに対して学習するLoRAの実装やBERTにおけるfine-tuningなどを用いて文をベクトル化する手法について理解し、どのような拡張可能性があるかを理解することができます
プログラム

1.大規模言語モデル (LLM) による言語処理を中心とした発展
  (1).大規模言語モデルはTransformerのDecoder部分
    a.大規模言語モデルはTransformerによる翻訳モデルの一部
    b.Transformerのネットワーク構造
    c.文書をGPTに入れるための変換
    d.ChatGPTなどのクローズド言語モデルとダウンロードして使うローカル言語モデル
  (2).ChatGPTなどAPIを利用したクローズド言語モデルの能力とサービス
    a. GPTの基本的な言葉の処理例 (文書校正、感情処理、国家試験など)
    b. プロンプトの工夫(Chain-Of-Thought他)
    c. API経由でのGPTの学習 (GPT-4od. GPTを利用したサービス
    (GPTs,検索も利用する Gemini (Gmail検索)、Perplexity AI、Bing他)
    e. RAG (Retrieval-Augmented Generation) の利用 (文書(pdf)や表の処理など)
    f. ReACT (GPTをエージェント化: 複数回検索を実行・評価して質問に回答)
    g. マルチモーダルの利用例 (API) (画像の説明、OCR、音声会話)
    h. 画像や動画生成、編集の発展 (Stable Diffusion、Runway、Sora 他)
  (3).まとめ
  (4).質疑応答

2.ローカルな生成系言語モデルの展開とRAG (DifyとOllamaを利用)
  (1).Downloadして利用するローカルな言語モデル
    a.利用可能な日本語大規模言語モデルの現状
    b.ローカル言語モデルの開発組織
    c.ローカル言語モデルの利用環境
    d.ローカル言語モデルの学習コスト(事前およびfine-tuning)
  (2).RAGを利用した独自データに対する質問応答システムの実装例
    a.ローカル言語モデルとRAGを組み合わせる利点
    b.RAGの構成 (LLMの選択、DBの構築方法、表や画像、PDFの処理)
    c.DifyとOllamaを利用したローカル言語モデルによるRAGの構成例
    d.LlamaIndexを利用したRAGの実装例 (チャンク化のポイント)
    e.RAGを利用した質問応答システムの評価と問題点の整理
  (3).まとめ
  (4).質疑応答

3.Transformerの構造の理解
  (1).全体構成 (翻訳タスクを主眼に置いた構造)
    a.Encoder部分とDecoder部分の機能と役割
    b.翻訳の際の処理の流れ
  (2).トークン化 (Tokenization)
    a.WordPieceおよびByte Pair Encoding (BPE)
    b.データ入力の際のマスク作成やpaddingなどの構造化
  (3).位置情報の獲得 (Position encoding)
    a.周期を利用した位置情報
    b.回転行列とattentionでの相対化
  (4).文内の要素同士の関係抽出 (Attention機構の利用)
    a.Attention機構による共起情報の獲得機能
    b.Multi-head attention機構
  (5).深層学習における構造 (Residual network、Layer normalization)
    a.EncoderとDecoderの基本構成要素
    b.DecoderにおけるAttention機構
    c.Residual network,Layer normalizationの機能
  (6).質疑応答
  (7).質疑応答

4.事前学習モデルの成立要因 (言葉理解の鍵となる要素とは)
  (1).大規模言語モデルは言葉の意味をどのように学習しているか
    a.自己符号化で人手の正解データがなくても学習できるようになった
    b.分布仮説とword2vecで単語の意味を埋め込むことができた
    c.EncoderやDecoderで文書を学習させると文の意味を埋め込むことができた
  (2).事前学習の具体的な方法
    a.BERT (Encoderモデル) によるMASKを利用した事前学習
    b.GPT (Decoderモデル) による事前学習
    c.GPT における人の指示に対するtuning
    d.日本語の言語モデルで利用される追加事前学習
  (3).GPT内部の分析(GPT内にどのような情報が獲得されているか)
  (4).まとめ
  (5).質疑応答

5.GPTを利用した独自データの文書識別 (コード例を含む)
  (1).GPTを利用した文書識別モデルの実装
    a.文書識別の課題
    b.GPTの文ベクトルを利用した文書識別モデルの構築
  (2).LoRAによるGPTメモリの消費を抑えたfine-tuning
  (3).識別結果の確認
  (4).GPTのサイズによるGPUメモリの消費量
  (5).まとめ
  (6).質疑応答

6.BERTを利用した独自データの文書識別 (コード例を含む)
  (1).BERTを利用した文書識別モデルの実装
    a.文書識別の課題
    b.BERTの[CLS]のベクトルを利用した文書識別モデルの構築
    c.最終層から複数の層を利用したfine-tuningの適用
    d.識別結果の確認
  (2).fine-tuningを成功させるポイント
  (3).Encoderを利用した学習とGPTを利用した学習の違い
  (4).利用可能なBERTの学習済みモデル
  (5).BERTを利用した対照学習とRAG
  (6).まとめ
  (7).質疑応答

7.マルチモーダル (Vision & Language) の仕組みと利用
  (1).マルチモーダルの大規模言語モデル (MM-LLM)
    a.画像から言語および言語から画像などアダプターの利用
    b.音声や動画も含めたマルチモーダル大規模言語モデルの構造
  (2).Vision & Language (V & L) (画像言語)モデル
    a.Vision & Languageの基本的な枠組み
    b.OpenAIのCLIPによる言語と画像のベクトル空間の共有
    c.BLIPによる画像に対する文書生成
    d.VILAなどCLIPの言語っぽい画像ベクトルを利用した画像質問応答
  (3).まとめ
  (4).質疑応答

8.全体のまとめ

9.質疑応答

キーワード 大規模言語モデル クローズド言語モデル GPT プロンプト RAG  ReACT マルチモーダル Dify Ollama Transformer トークン化 Byte Pair Encoding  Attention機構 自己符号化 分布仮説 BERT  LoRA  Vision & Language V & L CLIP  VILA
タグ AI・機械学習コンテンツソフト管理ソフト教育データ解析画像処理ITサービス
受講料 一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
会場
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
contact us contact us
各種お問い合わせは、お電話でも受け付けております。
03-5322-5888

営業時間 月~金:9:00~17:00 / 定休日:土日・祝日