BERTを利用した自然言語処理技術と転移学習によるテキスト分類の実践 <オンラインセミナー>
~ BERTを利用した自然言語処理における学習とベクトル化、転移学習によるテキスト分類の実践とそのポイント ~
・BERTの基本的使い方と応用例、BERTの転移学習によるテキスト分類の実践講座!
・BERTを使ったテキスト分類の実装技術を修得し、転移学習によりテキスト分類の精度の高いシステムに応用しよう!
・自然言語処理に一つの転換点をもたらしたBERT手法を学ぶ特別講座!
*講義で利用するサンプルプログラムは配布いたします
オンラインセミナーの詳細はこちら:
・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。
講師の言葉
BERTを使ったテキスト分類を実装して転移学習によって分類が高い精度で行えることを学べます。事例として小説の作者を分類する課題を対象にします(3人の著者を推定)。小説であるテキストデータをベクトル化するためにある単位に分割して、固有の番号を割り付けてベクトル化してからBERTに入力します。BERTは既に大規模なテキストデータを学習しており配付されています。これに対して小説の分類学習データを与えて転移学習させることで小説を分類するシステムを作成します。
講義ではテキストをどのように単位に区切るか、BERTから目的の問題を解くためにどのように変形して利用するかをサンプルコードを元に動かしながら解説します。BERTは問題に応じて調整することが重要です。講義では調整のポイントについて説明します。講義で利用するプログラムは配付する予定です。ご自身で応用したいタスクへの参考になればと思います。
セミナー詳細
開催日時 |
- 2020年12月02日(水) 10:30 ~ 17:30
|
開催場所 |
オンラインセミナー |
カテゴリー |
オンラインセミナー、ソフト・データ・画像・デザイン |
受講対象者 |
・システム、ソフト、データ解析部門の技術者の方
・BERTを利用した自然言語処理に興味がある方
・テキスト分類やテキストの採点、類似テキストの検索などに興味がある方
・自然言語処理が必要になった技術者の方
・言語処理まわりの課題を既にお持ちになっていて、処理手法の選択肢を広げたい方
・ニューラルネットワークを利用した自然言語処理を実践したい方 |
予備知識 |
・予備知識は特に必要ありませんが、パソコン上でテキストを形態素解析などしている経験があると理解しやすい
・Pythonなどプログラミング言語になれている方が理解が早いと思います
・Linux環境に関する知識があると実践が楽になります |
修得知識 |
・既に配付されている事前学習済みのBERTを使ってテキスト分類の課題に適用し、転移学習を実行させて分類する方法を習得できる |
プログラム |
1.BERTを利用した自然言語処理における学習とベクトル化
(1).言葉のベクトル化を利用した自然言語処理
a.Chat Bot (質問応答) を作るとしたらどんな構成になるか
b.ベクトル化に必要な言語ツール (形態素解析(複数の辞書)、Word Piece (MeCabなど)、Sentence Piece)
c.言語をベクトルに変換する方法 (bag-of-words、one-hot vector、分散表現ベクトル (word2vec、fasttext))
d.分散表現ベクトルによる柔軟な言葉の意味の表現
e.BERTは文脈込みの分散表現ベクトル (fasttextより良い点、悪い点)
f.配付されている日本語の大規模分散表現ベクトルおよび学習済みBERT
(2).BERTの構造と期待できる機能 (BERTの良さ)
a.BERTの構造 (TransformerのEncoder部分)
b.Attentionを利用したQuery-Key-Valueによる文の特徴抽出
c.言葉の前後位置を関数で埋め込むことで高速に学習
d.文の単位で単語の意味を文脈付きで学習する事前学習
e.事前学習による言語知識獲得と応用の可能性
(3).BERTの基本的な使い方と応用例
a.CLSを利用した文のベクトルに転移学習
b.各単語のベクトルを利用した転移学習
c.BERTを利用することで精度が向上した事例
d.BERTを利用しても現段階ではあまり精度が向上しない事例
e.BERTを利用するポイント(CLS以外の利用,転移学習での工夫等)
(4).まとめと質疑
2.BERTの転移学習によるテキスト分類の実践
(1).比較モデルとしてSVMによるテキスト分類
a.環境構築 (Linux環境へのログイン)
b.学習・テストデータセットの確認(小説文に対する著者推定)
c.識別モデルと特徴量の設計
d.形態素解析器を利用してテキストデータからSVMに入力するための特徴量ベクトルの作成 (pythonを利用)
e.SVMによる学習とテストデータによる評価 (SVMの出力結果の読み方)
(2). BERTによるテキスト分類1(Tensorflow+Kerasを利用予定)
a.学習済みBERT (Kikutaモデル)の環境構築
b.SentencePieceによるトークン化
c.入力データのベクトル化 (SentencePiece)
d.転移学習のネットワーク構造
e.転移学習結果を利用したテストデータの識別 (コードの解説)
(3). BERTによるテキスト分類2(Tensorflow+Kerasを利用を予定)
a.学習済みBERT (東北大モデル)の環境構築
b.MeCab Pieceによるトークン化
c.入力データのベクトル化 (MeCab PieceのBertTokenizer)
d.転移学習のネットワーク構造
e.転移学習結果を利用したテストデータの識別 (コードの解説)
f.BERTのチューニングポイント
(4).BERTによるテキスト分類の質疑応答
|
キーワード |
自然言語処理 原因抽出、分散表現 形態素解析 野適用性 ラベル 関係子 RDF 述語論理 トピックモデル LSTM 深層学習 分散表現 SVM Tensorflow BERT テキストデータ |
タグ |
統計・データ解析、AI・機械学習、コンテンツ、データ分析 |
受講料 |
一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
|
会場 |
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
|
こちらのセミナーは受付を終了しました。
次回開催のお知らせや、類似セミナーに関する情報を希望される方は、以下よりお問合せ下さい。