Transformerの基礎と発展モデルおよび自然言語処理システムへの実装とポイント <オンラインセミナー>
~ GPT-3やGPT-4、BERT、Reformer、Conformer、Deformeの特徴と活用法、jaxによる自動微分とGPUの利用 ~
・Transformerや派生モデルの基礎と実装法を修得し、自然言語処理システムの開発に応用するための講座
・従来のモデルを超える高精度化を実現するTransformerの発展技術やjaxによる自動微分とGPUの利用技術を先取りし、付加価値の高いシステム開発に活かそう!
オンラインセミナーの詳細はこちら:
・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。
講師の言葉
近年、Transformerを利用した派生モデルが数多く出現して、自然言語処理を中心に従来モデルの精度を超えるだけでなく、ほとんど学習データがない場合でもある程度、質問に回答できる新たな処理方法が提案されています。
本講義では、翻訳で利用されているTransformerを中心に、どのような応用法が展開されているかを俯瞰するとともに、その中心的な機構についてどのような役割を果たしているかを説明します。これにより、Transformerだけでなく、共通の機構をもつ、GPT-2やGPT-3、GPT-4、BERT、さらに改善されたReformer、Conformer、Deformerなどの理解を深めるとともに、具体的な結果を見ていただくことでどの程度の処理ができるのかを体験していただきます。また深層学習のパッケージから自動微分とGPU利用を取り出したjaxが発展してきており、より簡単に効率的に幅広いモデルを記述することが可能になりました。講義では、LinuxとPythonを利用したデモを行いますが、特に深い知識は必要ありません。この講義を通してTransformer関連のモデルの発展の理解を深めることで皆様がお持ちになる課題の解決の一助となることを願っています
セミナー詳細
開催日時 |
- 2023年06月02日(金) 10:30 ~ 17:30
|
開催場所 |
オンラインセミナー |
カテゴリー |
オンラインセミナー、ソフト・データ・画像・デザイン |
受講対象者 |
・自然言語処理やTransformerに興味のある方
・自然言語処理が必要になった技術者の方
・言語処理まわりの課題を既にお持ちになっていて、処理手法の選択肢を広げたい方
・Transformerの一部であるGPT-3、GPT-4やBERTを利用して言語処理モデルを利用したい方
・文書をベクトル化して深層学習に適用する手法を具体的に学びたい方
・システム、ソフト、データ解析関連の技術者の方 |
予備知識 |
・予備知識は特に仮定しませんが、深層学習に関連した具体的なプログラムをパソコン上で利用した経験があるとより具体的な部分の理解が深くなります
・講義では、深層学習の理論的な側面では無く、応用可能性を中心に、どの部分の機構がどういう働きがあるかの理解に努めます。どんなデータをどのぐらい学習として使うとどういうことができているのか、また、新たに開発された利用可能なモデルで現在どのぐらいの処理が出来ているのか、デモを通して体験していただきます。プログラミングを深く理解している方は講義中に疑問に思ったところを質問していただくことでより深くお答えすることができます。
|
修得知識 |
・自然言語処理においてTransformerを利用したモデルの相関関係が理解できます
・OpenAIで作成されているGPT-3を利用した言語処理の複数の手法(例えばプログラミングコードの補完やクラス分類)についての実装方法が習得できます
・近年のjaxに関連したツールの発展、Transformerを発展させたReformerを初めてとするモデル、BERTなど文をベクトル化する手法について理解し、どのような拡張可能性があるかを理解することができます
|
プログラム |
1.Transformer周辺で起きている新たな自然言語処理
(1).Transformerとは
a.全体のネットワーク構造
b.翻訳モデルを意識した入力と出力
c.深層学習におけるベクトル化を利用したEncoderとDecoderモデル
d.従来法からの数多くの改良点 (LSTMより学習が早く長距離依存関係が捉えられる)
e.文内の言葉同士の関係を取り出す機構
f.実用例として翻訳システム
(2).Transformerから派生したモデルの活躍
a.全体の相関関係(BERT、 RoBERTa、 GPT-2、GPT-3、GPT-4、T5、PaLM、Reformer、 Conformer、 Deformer)
b.BERTについて (Encoder部分の利用)
c.BERTの利点 (文をトークンに分解して文脈を考慮してベクトル化できる)
d.BERTの事前学習 (Masked Language Modelingにより言語の知識を大規模テキストデータのみから獲得することができる)
e.BERTの有効性:(教師あり学習のタスクで精度向上)
f.GPT-3について (Decoder部分の利用)
g.GPT-3の利点 (文生成を利用してクラス分類や検索、会話など1度事前学習しただけで、すべてのタスクを少ない事例で解く枠組を提供)
h.GPT-3の特徴 (文を生成する際に1つ1つ出力auto-regressive)
i.GPT-3の期待される機能 (新たなタスクに対する回答を出力 (Few-shot learning))
(3).まとめ
(4).質疑応答
2.Transformerの構造の理解
(1).全体構成 (翻訳タスクを主眼に置いた構造)
a.Encoder部分とDecoder部分の機能と役割
b.翻訳の際の処理の流れ
(2).トークン化 (Tokenization)
a.WordPiece、Sentencepiece、MeCab Piece
b.データ入力の際のマスク作成などの構造化
(3).位置情報の獲得 (Position encoding)
a.周期を利用した位置情報
b.回転行列とattentionでの相対化
(4).文内の要素同士の関係抽出 (Attention機構の利用)
a.Attention機構による共起情報の獲得機能
b.Multi-head attention機構
(5).深層学習における構造 (Residual network、Layer normalization)
a.EncoderとDecoderの基本構成要素
b.DecoderにおけるAttention機構
c.Residual network、Layer normalizationの機能
(6).質疑応答
3.Transformerの発展
(1).Reformer
a.長い文を処理する際のTransformerの弱点
b.LSH (locality-sensitive hashing)を適用して簡素化
c.Attentionの計算にLSHを取り込んでメモリの効率化
d.Reversible Residual Networkの適用によるメモリの削減
e.長い文書に対する処理スピードの向上
(2).Conformer
a.TransformerのAttentionの弱点:局所情報の獲得
b.Transformerブロックの中にCNN (Convolutional Neural Network)を利用
c.音声認識における精度の向上
(3).Deformer
a.BERT (encoder側)で行う質問応答(QA)におけるメモリの削減と高速化
b.低レイヤー層のAttentionの分割
c.質問応答タスクで高速かつメモリ削減に成功
(4).まとめ:Transformerの発展
4.jaxによる自動微分とGPUの利用
(1).jaxの特徴
a.jaxが必要となる背景とjaxの利点
b.numpyのAPIを利用可能
c.自動微分とGPUデバイスに対する並列計算処理
d.複数のデータ取り込みに対するtensorflow datasets の利用
(2).jaxを利用するモデルとその関連
a.深層学習モデル (Flax Haiku)
b.確率的プログラミングモデル (Tensorflow probability、PyMC3、 NumPyro)
c.タンパク質立体構造予測 (AlphaFold2)
d.numpyの代わりとして利用
(3).まとめ:jaxの価値
(4).質疑応答
5.GPT-2、GPT-3からPaLMまで:Decoderを利用した新たな言語処理
(1).Decoder部分の利用
a.言語を生成する機構 (Autoregressiveモデル)
b.言語生成機構を利用した少数事例による学習 (Few-shot learning)
(2).GPT-2におけるネットワーク構造
a.ネットワーク構造と各要素の説明
b.言語生成のモデルとの対応(GPT-2の論文から)
(3).GPT-2およびGPT-3の学習方法
(4).GPT-2実装と実行例
a.GPT-2実行環境の構築
b.英語および日本語を利用したデモ
(5).GPT-3の利用方法と実行例
a.GPT-3の全体の説明
b.用意されている各モデルとタスクの説明
c.Playgroundの利用 (Completionを利用した言語生成のデモ、またCodexを利用した言葉
の指示によるプログラム作成)
d.Pythonでの環境の構築 (ローカルのLinuxマシンからアクセスするための設定)
e.Pythonを利用したローカルLinuxマシンからの利用例
(6).GPT-3以降のDecoderモデル:PaLM他
a.PaLMの特徴
b.PaLM構築における学習の工夫
c.PaLMによる新たな結果
(7).まとめ:Decoderベースの手法における利点と欠点
a.Decoderモデルにおけるプロンプト入力の考察
b.GPT-2、GPT-3における利用制限など他
(8).質疑応答
6.BERTを利用した自然言語処理
(1).Encoder部分を利用した文ベクトル化モデル
a.BERTの利用で精度が向上した例
b.GPTと相違点
(2).BERTのネットワーク構造 (GPT-2と比較)
(3).Masked Language Model (MLM)による学習
a.繰り返しトークンを隠しながら学習
b.大規模データを利用した事前学習の注意点
(4).BERTの利用
a.BERTは基本的にFine-tuningによる正解データを使った学習が必須
b.Fine-tuningを成功させるポイント
(5).利用可能なBERTの学習済みモデルと実行例
a.英語の学習済みモデル
b.日本語の学習済みモデル
c.BERTからXLNetまでの発展
(6).まとめ (BERT の利点と欠点)
(7).質疑応答
7.全体のまとめ
8.質疑応答
|
キーワード |
Transformer 自然言語処理 深層学習 ベクトル化 BERT RoBERTa GPT-2 GPT-3 T5PaLM Reformer Conformer Deformer 位置情報 共起情報 jax 自動微分 GPU Autoregressiveモデル Few-shot learning ネットワーク構造 |
タグ |
AI・機械学習、コンテンツ、ソフト管理、データ分析、GPU、ITサービス |
受講料 |
一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
|
会場 |
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
|
こちらのセミナーは受付を終了しました。
次回開催のお知らせや、類似セミナーに関する情報を希望される方は、以下よりお問合せ下さい。