自然言語処理技術の基礎と機械学習(SVM・深層学習)によるテキスト分類の実践 ~1人1台PC実習付~

~ 自然言語の構造、言語処理でよく利用される技術、SVM、Tensor flowによるテキスト分類技術とチューニング ~

・Pythonプログラムを利用したテキスト処理技術を実習を通じてマスターし、応用するための講座

・SVMや深層学習を利用したテキスト分類技術のノウハウを学び、高度な言語処理ができるシステム開発へ応用しよう! 

・処理方法だけではなく、ベクトル化する時のイメージを分かりやすく解説いたします

*PCは弊社でご用意いたします
*使用したデータはお持ちかえりできますので、USBをご持参ください

講師の言葉

 近年、自然言語処理は機械学習の発展と大規模なテキストデータや辞書が利用可能になり、今まででは不可能であった処理(例えば質問応答システムなど)が可能となってきました。またPythonによる機械学習、深層学習のパッケージや形態素解析システムなどが無料で利用できる環境になり、各個人が所有するテキストを処理したいという要求が高まりつつあります。しかしながら、言語処理ではどのようなことが可能/不可能なのか、また具体的にどう処理すれば良いか分かりにくいと考えられます。
 そこで本講座では、言語処理で起こりえる既知の問題、文章構造の原理、既存手法やテクニックを講義することで、参加者がアプローチを自ら探せるようになるヒントを与えます。さらに、簡単な文書分類問題を対象に、形態素解析を適用して、ベクトル化し、機械学習を適用して分類した結果を確認する、一連の流れをPythonのプログラムを利用して体験していただきます。これにより言語処理の実際の感覚を掴んでいただきます。

本講座の申込み受付は終了しました。

セミナー詳細

開催日時
  • 2019年06月17日(月) 10:30 ~ 17:30
開催場所 日本テクノセンター研修室
カテゴリー ソフト・データ・画像・デザイン
受講対象者 ・自然言語処理に興味がある方
・自然言語処理が必要になった技術者の方
・言語処理まわりの課題を既にお持ちになっていて、処理手法の選択肢を広げたい方
・言語を実際にベクトル化して統計モデルに入力する事例を体験したい方
・システム、データ分析、AI、電子機器ほか関連企業の技術者の方
予備知識 ・予備知識は特に仮定しませんが、パソコン上でテキストを形態素解析などしている経験があると分かりやすくなります
(統計的手法など、細かな理論には立ち入らず、どういう利点があるかについて講義するため背景知識は必要ありません)
・Pythonなどプログラミング言語になれている方が実習では理解が早いと思います
・当日はWindows内にインストールしたLinux環境で、簡単なコマンドを利用します。深い知識は不要ですが、先に知識があると当日の実習が楽になります。
修得知識 ・自然言語処理の具体的な課題に対する取るべきアプローチがおおまかに理解できる
・具体的に言語データをベクトルに変換して機械学習(SVMや深層学習など)に入力して、テキスト分類する方法を修得できる
プログラム

1.自然言語処理技術の理解
  (1).言語処理課題の特徴
    a.言語処理の難しいポイントを整理
    b.言語処理課題を解くために必要な知識とは
  (2).実タスクを処理するシステムを構築するために
    a.実タスクは個別の問題に適応した手法の開発が必要
    b.学術上の研究課題と実タスクとのギャップ
    c.分野適用性の困難さ
    d.言語処理システムを作るための大まかな方針
  (3).言語処理技術
    a.自然言語の構造
     (項構造、係り受け、意味役割、語彙意味論他)
    b.言語処理ツール・データ (形態素解析(複数の辞書)、
     係り受け解析、電子化辞書他)
    c.言語を計算可能なベクトルに変換する複数の手法
     (bag-of-words、one-hot vector、分散表現)
    d.word2vecなどの分散表現の解説と利用法
    e.言語処理でよく利用される技術
     (単語の重要度(tf-idf)、
      良い/悪いなどのキーワードを文書から自動で獲得する手法、原因抽出)
    f.統計的学習モデルの特徴
     (SVM、RNN、LSTM、Neural attentionモデル)
    g.まとめ
  (4).成功例に学ぶ実用レベルの言語処理システムの例
      (論文や研究発表から)
    a.クイズ番組で人間に勝利した言語処理システム
    b.twitter解析で利用されている実システム
    c.テキストマイニングで利用されているシステム
    d.深層学習を利用した大規模翻訳システム
    e.試験問題を解くシステムでうまくいった方法
    f.まとめ: 成功する実システムの共通点
    g.質疑応答

2.機械学習(SVMおよび深層学習)によるテキスト分類の実習
  (1).SVMによるテキスト分類の実習
    a.環境構築
     (Windows10 Home上でVirtual boxによるCentOS7.4)
    b.タスク設定(語義曖昧性解消タスクを予定)
    c.識別モデルと特徴量の設計
    d.形態素解析器を利用してテキストデータからSVMに入力するための
      特徴量ベクトルの作成(Pythonを利用)
    e.SVMによる学習とテストデータによる評価
     (SVMの出力結果の読み方)
    f.特徴量の変更によるチューニング
     (分散表現(skip-gram)による精度向上の確認他)
  (2).Tensorflowによるテキスト分類の実習
    a.タスク設定
    b.環境設定の確認
     (Virtual box内で設定したCentOS7.4上でのTensorflowの起動の確認、
      Virtual box (約8Gbyte) は持ち帰り可能)
    c.RNNおよびLSTMの構造の説明
    d.深層学習のための入力テキストの特徴ベクトルの作成
    e.Tensorflowでの誤差関数の設計とパッケージ利用のポイント
    f.LSTMによる単語分散表現を利用した語義判別
    g.深層学習でよく行われるチューニングの説明と実装:
     (Dropoutの適用、L2ノルム)
    h.Neural attentionモデルの構造の説明と実装および実行 
    i.深層学習の特徴とまとめ
  (3).実習及び全体についての質疑応答

キーワード 自然言語処理 原因抽出、分散表現 形態素解析 野適用性 ラベル 関係子 RDF 述語論理 トピックモデル LSTM 深層学習 分散表現 SVM  Tensorflow
タグ AI・機械学習ソフト管理文章の書き方ソフト教育音声処理
受講料 一般 (1名):49,680円(税込)
同時複数申込の場合(1名):44,280円(税込)
会場
日本テクノセンター研修室
〒 163-0722 東京都新宿区西新宿2-7-1 小田急第一生命ビル(22階)
- JR「新宿駅」西口から徒歩10分
- 東京メトロ丸ノ内線「西新宿駅」から徒歩8分
- 都営大江戸線「都庁前駅」から徒歩5分
電話番号 : 03-5322-5888
FAX : 03-5322-5666
こちらのセミナーは現在募集を締め切っております。
次回開催のお知らせや、類似セミナーに関する情報を希望される方は、以下よりお問合せ下さい。
contact us contact us
各種お問い合わせは、お電話でも受け付けております。
03-5322-5888

営業時間 月~金:9:00~17:00 / 定休日:土日・祝日