Rとビッグデータ連携による解析技術 (BigQuery+RMeCab)とその応用 〜デモ付〜

〜 BigQueryのクエリーと新機能のUDFを使用したクラウド上でのデータ解析、R言語と日本語形態素解析ツールMeCabによる本格的な日本語テキストの解析方法 〜

・従来難しかった日本語のビッグデータ解析ができる技術を解説する講座

・日本語ビッグデータの有効な分析手法を修得し、マーケティングや品質管理、犯罪防止などに活かそう!

講師の言葉

 ビッグデータの有効利用は、品質向上、コスト削減、売り上の向上などのビジネス分野や、交通事故の防止や医療への応用など様々な分野で効果を発揮することができます。
 このようにビッグデータの有効利用には多くのメリットがありますが、課題もあります。まず 第一に、例えばHadoopなどを使用した場合などは、プログラミング等かなりのスキルレベルが要求されます。第二に、テキスト解析を行う場合、米国等で開発されたシステムでは、単語間が空白等で区切られている事が想定されており、日本語テキストの解析等を行ことはできません。
 本講座ではこの両方を解決して効果的にビッグデータ処理を行う方法を解説します。具体的には、最初にGoogleのビッグデータ解析システムBigQueryのクエリーと新機能のUDF(User Defined Function)を使用したクラウド上でのデータ解析を紹介し、次にR言語および日本語形態素解析ツールのMeCabを組みわせてより本格的な日本語テキストの解析を行う方法を見ていきます。これによってビジネス分野を含めた様々な分野でビッグデータから有意な情報を得ることができるようになります。

セミナー詳細

開催日時
  • 2016年02月06日(土) 10:00 ~ 13:00
開催場所 日本テクノセンター研修室
カテゴリー ソフト・データ・画像・デザイン
受講対象者 ・システム、データ解析部門の方 ・ビッグデータ処理と日本語形態素解析の組み合わせ処理について知りたい方
予備知識 ・特に必要ありませんが、クエリーやプログラム言語について初歩的な理解のあると分かりやすいです
修得知識 ・SNS等の日本語ビッグデータを集積し、形態素解析によって販売促進、品質向上や犯罪防止などに有効なデータを生成・分析することができるようになります
プログラム

1.データ連携解析システムとは
  (1).データ連携解析システムの概要
  (2).使用されるツール類
    a.twitter反響まるごと収集ツール
      ・カラム型ストレージ
      ・カラム指向ストレージの特徴:トラフィックの最小化、高い圧縮率
    b.SNSデータ収集ツール:mention
    c.センサー
    d.Google BigQuery
    e. R言語
    f.MeCab (和布蕪)
      ・MeCabとは
      ・MeCabの特徴
        ・辞書, コーパスに依存しない汎用的な設計
        ・条件付き確率場(CRF)に基づく高い解析精度
        ・ChaSen や KAKASI に比べ高速辞書引きアルゴリズム/データ構造に,
        ・高速な TRIE 構造である Double-Arrayを採用
        ・再入可能なライブラリ
  (3).各種スクリプト言語バインディング(perl/ruby/python/java/C#)の比較

2.SNSデータの収集
  (1).SNSデータの収集
    a.twitter反響まるごと収集ツールを使用する
    b.データを収集する:収集テーマの登録
    c.SNSのキーワード収集ツール「mention」を使用する
  (2).センサーデータの収集
    a.USB Thermometer-528018を使用する
      ・簡易温度センサーとは
      ・簡易温度センサーでセンサーデータを収集する
    b.温度計測を行う
    c.RS232C/USB通信タイプ デジタルガイガーカウンター

3.クラウドのGoogle BigQueryを使用する
  (1).BigQueryを使用するための準備手順
  (2).SNSデータのBigQueryアップロード
    a.BigQuery UDFとは
    b.BigQuery UDFのプログラム処理サンプル
  (3).アップロードデータの集積化(ビッグデータ化)
    a.クエリ実行
    b.BigQueryのテーブルにセーブ
    c.セーブされたデータの確認
    d.新しいデータの追加

4.BigQuery + R + MeCabの環境の設定
  (1).R言語環境
  (2).RからBigQueryにアクセスできるようにする
    a.次のコマンド入力でBigQuery接続用のライブラリをCRANからインストールする
    b.BigQuery接続の実行(センサデータ例)
      ・Rで形態素解析 RMecabを使えるようにする
      ・形態素解析エンジン MeCabをインストールする

5.BigQuery + R + MeCab環境による基本操作
  (1).R言語の基本を理解する
    a.複数の数値をベクトルとして扱う
      ・簡単な数値計算
      ・簡単なベクトル演算
      ・文字列をベクトルのように扱う
      ・簡単な行列の作成と演算
      ・簡単なリストの作成
      ・簡単なデータフレームの作成
      ・関数(サブルーチン)の定義
      ・グラフの作成
    b.基本的なプログラミングの構文
      ・if 文
      ・while 文
      ・for文
    c.その他のコマンドや関数
      ・変数と属性
      ・apply 系関数
      ・図の作成
      ・ファイル出力フォルダ指定指定されたフォルダの確認
  (2).RからBigQueryのクリーを実行し結果をダウンロードする
    a.SNSデータ marugoto
    b.SNSデータ mention

6.BigQuery + R + MeCab環境によるデータ操作:日本語データの分析
  (1).BigQueryからデータをダウンロードしてフォルダに格納する
  (2).BigQueryのデータを R + MeCab環境で形態素解析する
     ・頻度分析:単語の出現頻度を調べる
     ・共起語分析:隣接した単語を見つける
     ・Ngram解析:語の連なりについて調べる
     ・テキストのネットワーク分析

キーワード ビッグデータ クラウド連携 BigQuery MeCab テキスト分析
タグ 統計・データ解析インターネットクラウドコンピューティングソフト管理データ解析センサネットワークITサービスR言語
受講料 一般 (1名):33,000円(税込)
同時複数申込の場合(1名):33,000円(税込)
会場
日本テクノセンター研修室
〒 163-0722 東京都新宿区西新宿2-7-1 新宿第一生命ビルディング(22階)
- JR「新宿駅」西口から徒歩10分
- 東京メトロ丸ノ内線「西新宿駅」から徒歩8分
- 都営大江戸線「都庁前駅」から徒歩5分
電話番号 : 03-5322-5888
FAX : 03-5322-5666
こちらのセミナーは受付を終了しました。
次回開催のお知らせや、類似セミナーに関する情報を希望される方は、以下よりお問合せ下さい。
contact us contact us
各種お問い合わせは、お電話でも受け付けております。
03-5322-5888

営業時間 月~金:9:00~17:00 / 定休日:土日・祝日