AIシステム構築のためのデータ前処理技術と精度向上手法およびLLMの効果的な活用ノウハウ ~デモ付~ <オンラインセミナー>
~ 機械学習における基本的なデータ前処理技術、特徴選択・次元削減手法と処理精度向上のポイント、テキストデータの前処理手法とLLMの活用法および小規模データの拡張ノウハウ ~
・学習精度向上のために複雑で未整理なデータを適切に前処理する手法と少ないテキストデータを容易に拡張する手法を習得し、データ解析の実務に活かすための講座
・収集したが活かしきれていないデータの標準化、特徴量選択、次元削減などの前処理技術を修得し、実用的なAIシステムの構築に応用するためのセミナー!
・自然言語処理の実践テクニックからLLMの活用法までを修得し、急速な発展を続けるChatGPTなどのAIサービスを原理から理解した上で正しく使いこなそう!
※Google Colab. で使用可能なサンプルコードを事前に配布します
オンラインセミナーの詳細はこちら:
・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。
講師の言葉
本セミナーでは、人工知能(AI)やデータサイエンスにおける基本的なデータ処理の方法を説明します。Google Colabを使用して実演しますので、参加者が手元のPCで手を動かしながら学べます。事前に共有するサンプルコードを使って、各技術を実際に試してみることをおすすめします。Google Colabでは、一般的な数値計算や機械学習ライブラリ、GPUを利用した深層学習フレームワークがすでにインストールされており、環境設定に関する問題はほとんどありません。
最初のセクションでは、実用的なAIシステムの構築に必要なデータの標準化、特徴選択、次元削減などの前処理技術を紹介します。このセミナーを通じて、実世界の複雑で未整理のデータに対処するスキルを身につけることができます。後半では、テキストデータの前処理や自然言語処理に加えて、最近注目されている大規模言語モデルについてもサンプルコードを使用して解説します。とくに、自然言語処理において不足しがちなテキストデータを簡単に拡張する手法を紹介しますので、その効果について実際のサンプルコードを実行して確認してもらえると思います。
このセミナーを通して得た知識、目の前に大量に転がっているデータの山の中から貴重な知見をあなたの手で見つけ出してみましょう!
セミナー詳細
開催日時 |
- 2024年10月18日(金) 10:30 ~ 17:30
|
開催場所 |
オンラインセミナー |
カテゴリー |
オンラインセミナー、ソフト・データ・画像・デザイン |
受講対象者 |
・Pythonを学び始めた方でデータ分析をしてみたい方
・手元に大量のデータがあり、機械学習を使って分析してみたい方
・Pythonによるプログラミング経験があり、人工知能やデータサイエンスに興味があるが、何から始めたらよいのかわからない方
・テキストマイニングやデータマイニングの手法を仕事に生かしたい方
・Pythonを使った機械学習関連の学術書やハウツー本を手にしてみたが、理解できずに挫折してしままい、再度チャレンジしてみたい方
・社内に眠っているテキストデータを活用してみたい方
・簡単なAIを自分でプログラミングしてみたい方
|
予備知識 |
・Pythonの基本文法
・簡単なプログラミング経験
|
修得知識 |
・Google Colabを用いたデータ分析の基礎と実践
・Pythonを用いたデータの前処理の基礎と実践
・数値、テキストデータの前処理の基礎と実践
・LLMの使い方の基礎と実践
・テキストデータ拡張の基礎と実践
|
プログラム |
1.基本的な前処理技術とその応用
(1).標準化と正規化による機械学習の精度向上
a.StandardScalerによる標準化
b.MinMaxScalerによる正規化
(2).外れ値・欠損値の検出と補完による精度向上
a.四分位範囲による外れ値検出と除去
b.SimpleImputerとKNNImputerによる欠損値補完法
2.特徴選択・次元削減
(1).フィルタ法、ラッパ法
a.カイ二乗値、相互情報量による特徴量スコアリング
b.再帰的特徴量削減(RFE)を用いた特徴量選択
(2).不均衡データへの対処
a.オーバーサンプリング手法
b.アンダーサンプリング手法
(3).次元削減
a.PCAによる次元削減と可視化
b.UMAPによる次元削減と可視化
c.オートエンコーダによる次元削減と可視化 <GPU>
3.テキストデータの前処理と自然言語処理の基本と応用
(1).文のトークナイズ
a.MeCabによる形態素解析
b.sentencepieceによるトークン化
(2).文のベクトル化と文書分類
a.TF-IDFを用いたベクトル化と分類
b.word2vecを用いたベクトル化と分類
c.BERTを用いたベクトル化と分類 <GPU>
(3).言語モデルの利用
a.LLMの基本と使い方 <GPU>
b.LLMのチューニングによる文生成モデル <GPU>
c.小規模言語モデル TinyLlama <GPU>
(4).言語データの拡張方法
a.Easy Data Augmentationを使ったデータの拡張
b.データ拡張手法の性能評価 <GPU>
|
キーワード |
AI 人工知能 機械学習 Python データサイエンス 自然言語処理 データ前処理 小規模データ 標準化 正規化 学習精度向上 特徴選択 次元削減 再帰的特徴量削減 RFE サンプリング オートエンコーダ テキストデータ 文書分類 大規模言語モデル LLM BERT GPT GPU データマイニング テキストマイニング 小規模言語モデル TinyLlama データ拡張 |
タグ |
統計・データ解析、精密機器・情報機器、AI・機械学習、イノベーション、コンテンツ、業務改善、シミュレーション・解析、ソフト品質、データ解析、ネットワーク、GPU、ITサービス |
受講料 |
一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
|
会場 |
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
|