深層強化学習の基礎と最適化技術および応用・事例

〜 強化学習の基本、強化学習のMDP問題の解決法、深層強化学習の基本と最重要ポイントおよび応用事例、最先端最適化技術 〜  

・AI手法の中で特に注目されている深層強化学習の基礎から最適な探索手法までをわかりやすく修得できる講座

 

・例題や動画によるデモを通してわかりやすく説明する「強化学習」、「深層強化学習」を先取りし、システム開発や制御技術へ応用しよう!

講師の言葉

世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現。

 

このAlphaGoの歴史的な勝利を支えた手法が、数あるAI手法の中でも今とくに注目されている「深層強化学習」です。

 

AIの研究や今後のビジネスチャンスを踏まえAIの応用を真剣に検討されている方にとって、深層学習の先にある「深層強化学習手法」の基本原理を理解することは将来の布石につながるでしょう。

 

しかしこの深層強化学習は難解と云われ、内容をかみ砕いてわかりやすく説明している資料は今のところなかなか見当たりません。

 

本セミナーはこのような現状を踏まえセミナーの構成を工夫、まずは基本となる強化学習の中核的な内容について、例題と「動画」を通して皆さんになるべくわかりやすく説明します。

 

その上でセミナー中盤では「深層強化学習」をよりわかり易く理解するための手がかりとして「簡易型の線形回帰近似モデル」を応用した強化学習手法を、簡易デモなどを用いてわかりやすく説明します。

 

そして、いよいよ後半では「最前線:深層強化学習」として、ニューラルネットワーク近似モデルを使用する深層強化学習の理解に迫ります。

 

様々な背景を持つ受講者の皆さんが理解しやすいように内容をかみ砕き講義内容の難易度を調整しています。

本セミナーは受付を終了いたしました

セミナー詳細

開催日時
  • 2018年05月30日(水) 10:30 ~ 17:30
開催場所 日本テクノセンター研修室
カテゴリー 化学・環境・異物対策ソフト・データ・画像・デザイン
受講対象者 ・AIの最先端知識と技術に興味をお持ちの方 ・AIの研究と応用を検討されている方 ・AIを含めた最適化技術の応用に携わっている方 ・「最適化とは何か?」を知りたい方 ・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方
予備知識 ・特に予備知識は必要としません、基礎からわかりやすく解説します
修得知識 ・強化学習の基本原理と要素技術の基本知識の習得 ・深層学習の基本原理と要素技術の基本知識の習得 ・深層強化学習の基本原理と応用に関する知見の習得 ・最先端最適化技術の可能性と問題点についての知見を習得
プログラム

1.強化学習の基本概念

 

(1).多腕バンディット問題をわかりやすく説明

 

(2).強化学習における探索と利用のジレンマ

 

(3).多腕バンディット問題の解法をわかりやすく説明

 

a.平均報酬という概念について

 

b.平均報酬を更新するための式の導きかた

 

c.Epsilon –greedy

 

d.最適初期値設定法

 

e.UCB1

 

f.Bayesian/Thompson 法の詳細

 

g.簡易デモ(python):Gridworld(上記4種類解法の実行:直感的に理解する)

 

 

 

2.本概念−マルコフ決定過程(MDP)の基本原理のポイント

 

  (1).確率過程

 

(2).マルコフ性とは

 

(3).マルコフ鎖とは

 

(4).MDPの定義と式の導き方

 

(5).方策πの定義と価値関数の対応関係

 

(6).状態価値関数[]におけるベルマン方程式をわかりやすく説明

 

(7).状態行動価値関数[] におけるベルマン方程式をわかりやすく説明

 

(8).簡易演習デモ(python)1:Gridworld(式を理解するために)

 

(9).最適状態価値関数のポイント

 

(10).最適状態行動価値関数のポイント

 

(11).最適状態価値関数と最適状態行動価値関数の相互関係

 

(12).ベルマン最適性方程式の導きかた

 

(13).簡易デモ(python)2:Gridworld(式を理解する)

 

(14).ディスカッション:最適性と近似性について

 

 

 

3.中核:強化学習におけるMDP問題の解決法

 

  (1).動的計画法の解説と入門

 

      a.反復法による価値関数を求める:ランダム方策 vs 固定方策

 

b.最適な方策の探索手法をわかりやすく説明

 

方策反復法による最適状態価値関数を求める

 

      ・遷移確率を考慮した方策反復法による最適状態価値関数を求める

 

              価値反復法による最適状態価値関数を求める

 

     c.簡易デモ(python):Gridworld(4種類解法の実行と結果比較:概念を理解する)

 

(2).Monte-Carlo(MC)法をわかりやすく解説

 

     a.モデル法とモデルフリー法のちがい

 

b.経験に基づく学習手法のポイント

 

c.MC法と多腕バンディットの内在関連性

 

d.状態価値関数・行動状態価値関数と平均報酬との関係

 

e.MC法による状態価値関数の求め方とポイント

 

f.MC法による最適状態行動価値関数の求め方とポイント

 

g.簡易デモ(python):Gridworld(2種類MC法の実行と比較:概念を理解する)

 

   (3) TD学習手法のポイントと入門

 

     a.TD(0)法の説明と式の導きかた

 

b.SARSA法の説明と式の導きかた

 

c.Q-学習法の説明と式の導きかた

 

d.On-PolicyとOff-Policyを詳しく説明

 

e.簡易デモ(python):Gridworld

 

(3種類TD法の実行と比較:概念を理解する)

 

 

 

4.拡張−強化学習における関数近似手法とは(入門編)

 

(1).Tabular法(表形式手法)と近似解法のちがい

 

(2).回帰モデルと誤差関数をあらためて復習

 

(3).最急降下勾配法とMC法との関連性をわかりやすく説明

 

(4).疑似勾配(Semi-Gradient)とは

 

(5).簡単な線形回帰モデルに基いたMC法による状態価値関数を求める

 

(6).簡単な線形回帰モデルに基いたTD(0)法によるを求める

 

(7).簡単な線形回帰モデルに基いたSARSA法によるを求める

 

(8).簡易デモ(python):Gridworld(回帰近似MDP解法の実行:直感的理解)

 

 

 

5.最前線:深層強化学習の基本概念と最重要ポイント

 

(1).簡易型ニューラルネットワークを応用したQ−学習手法の説明

 

(2).深層Q-学習(DQN)の基本ポイント

 

(3).連続動作空間における強化学習のポイント

 

(4).方策勾配法の基本と式の導き方

 

(5).ガウシアン型行動確率分布の導入

 

(6).方策勾配法による連続動作空間における強化学習の簡易説明

 

(7).深層Actor−Critic法の基本と実行のコツ

 

(8).簡易実演デモ(python): Mountain car、 Cartpole、 Atariなど (概念の理解)

 

 

 

6.強化学習と深層強化学習の応用事例

 

  (1).ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介

 

(2).電気制御素子のパラメーター探索における強化学習の応用事例紹介

 

(3).蓄電池充放電制御における強化学習の応用事例紹介

 

(4).太陽光発電の変動制御における強化学習の応用事例紹介

 

  (5).簡易実演デモ(python):(応用の可能性と効果を議論する)

キーワード 強化学習 Python 適初期値設定法 最適状態行動価値関数 線形回帰モデル ニューラルネットワーク 深層強化学習
タグ シミュレーション・解析
受講料 一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
会場
日本テクノセンター研修室
〒 163-0722 東京都新宿区西新宿2-7-1 新宿第一生命ビルディング(22階)
- JR「新宿駅」西口から徒歩10分
- 東京メトロ丸ノ内線「西新宿駅」から徒歩8分
- 都営大江戸線「都庁前駅」から徒歩5分
電話番号 : 03-5322-5888
FAX : 03-5322-5666
こちらのセミナーは現在募集を締め切っております。
次回開催のお知らせや、類似セミナーに関する情報を希望される方は、以下よりお問合せ下さい。
contact us contact us
各種お問い合わせは、お電話でも受け付けております。
03-5322-5888

営業時間 月~金:9:00~17:00 / 定休日:土日・祝日