深層強化学習の基礎と最適化技術および応用・事例

〜強化学習の基本、強化学習のＭＤＰ問題の解決法、深層強化学習の基本と最重要ポイントおよび応用事例、最先端最適化技術　〜 　

・AI手法の中で特に注目されている深層強化学習の基礎から最適な探索手法までをわかりやすく修得できる講座

・例題や動画によるデモを通してわかりやすく説明する「強化学習」、「深層強化学習」を先取りし、システム開発や制御技術へ応用しよう！

講師の言葉

このAlphaGoの歴史的な勝利を支えた手法が、数あるAI手法の中でも今とくに注目されている「深層強化学習」です。

AIの研究や今後のビジネスチャンスを踏まえAIの応用を真剣に検討されている方にとって、深層学習の先にある「深層強化学習手法」の基本原理を理解することは将来の布石につながるでしょう。

しかしこの深層強化学習は難解と云われ、内容をかみ砕いてわかりやすく説明している資料は今のところなかなか見当たりません。

本セミナーはこのような現状を踏まえセミナーの構成を工夫、まずは基本となる強化学習の中核的な内容について、例題と「動画」を通して皆さんになるべくわかりやすく説明します。

その上でセミナー中盤では「深層強化学習」をよりわかり易く理解するための手がかりとして「簡易型の線形回帰近似モデル」を応用した強化学習手法を、簡易デモなどを用いてわかりやすく説明します。

そして、いよいよ後半では「最前線：深層強化学習」として、ニューラルネットワーク近似モデルを使用する深層強化学習の理解に迫ります。

様々な背景を持つ受講者の皆さんが理解しやすいように内容をかみ砕き講義内容の難易度を調整しています。

本セミナーは受付を終了いたしました

セミナー詳細

開催日時	2018年05月30日(水) 10:30 ～ 17:30
開催場所	日本テクノセンター研修室
カテゴリー	化学・環境・異物対策、ソフト・データ・画像・デザイン
受講対象者	・AIの最先端知識と技術に興味をお持ちの方・AIの研究と応用を検討されている方・AIを含めた最適化技術の応用に携わっている方・「最適化とは何か？」を知りたい方・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方
予備知識	・特に予備知識は必要としません、基礎からわかりやすく解説します
修得知識	・強化学習の基本原理と要素技術の基本知識の習得・深層学習の基本原理と要素技術の基本知識の習得・深層強化学習の基本原理と応用に関する知見の習得・最先端最適化技術の可能性と問題点についての知見を習得
プログラム	１．強化学習の基本概念（１）．多腕バンディット問題をわかりやすく説明（２）．強化学習における探索と利用のジレンマ（３）．多腕バンディット問題の解法をわかりやすく説明ａ．平均報酬という概念についてｂ．平均報酬を更新するための式の導きかたｃ．Epsilon –greedy ｄ．最適初期値設定法ｅ．UCB1 ｆ．Bayesian／Thompson 法の詳細ｇ．簡易デモ(python)：Gridworld（上記４種類解法の実行：直感的に理解する）２．本概念−マルコフ決定過程（MDP）の基本原理のポイント　　（１）．確率過程（２）．マルコフ性とは（３）．マルコフ鎖とは（４）．MDPの定義と式の導き方（５）．方策πの定義と価値関数の対応関係（６）．状態価値関数[]におけるベルマン方程式をわかりやすく説明（７）．状態行動価値関数[] におけるベルマン方程式をわかりやすく説明（８）．簡易演習デモ(python)1：Gridworld（式を理解するために）（９）．最適状態価値関数のポイント（１０）．最適状態行動価値関数のポイント（１１）．最適状態価値関数と最適状態行動価値関数の相互関係（１２）．ベルマン最適性方程式の導きかた（１３）．簡易デモ(python)2：Gridworld（式を理解する）（１４）．ディスカッション：最適性と近似性について３．中核：強化学習におけるMDP問題の解決法　　（１）．動的計画法の解説と入門　　　　ａ．反復法による価値関数を求める：ランダム方策 vs 固定方策ｂ．最適な方策の探索手法をわかりやすく説明・方策反復法による最適状態価値関数を求める　　　　　　・遷移確率を考慮した方策反復法による最適状態価値関数を求める　　・価値反復法による最適状態価値関数を求める　　　　　ｃ．簡易デモ(python)：Gridworld（４種類解法の実行と結果比較：概念を理解する）（２）．Monte-Carlo(MC)法をわかりやすく解説　　　　　ａ．モデル法とモデルフリー法のちがいｂ．経験に基づく学習手法のポイントｃ．MC法と多腕バンディットの内在関連性ｄ．状態価値関数・行動状態価値関数と平均報酬との関係ｅ．MC法による状態価値関数の求め方とポイントｆ．MC法による最適状態行動価値関数の求め方とポイントｇ．簡易デモ(python)：Gridworld（２種類MC法の実行と比較：概念を理解する）　　　（３）． TD学習手法のポイントと入門　　　　　ａ．TD（０）法の説明と式の導きかたｂ．SARSA法の説明と式の導きかたｃ．Q-学習法の説明と式の導きかたｄ．On-PolicyとOff-Policyを詳しく説明ｅ．簡易デモ(python)：Gridworld （３種類TD法の実行と比較：概念を理解する）４．拡張−強化学習における関数近似手法とは（入門編）（１）．Tabular法（表形式手法）と近似解法のちがい（２）．回帰モデルと誤差関数をあらためて復習（３）．最急降下勾配法とMC法との関連性をわかりやすく説明（４）．疑似勾配（Semi-Gradient）とは（５）．簡単な線形回帰モデルに基いたMC法による状態価値関数を求める（６）．簡単な線形回帰モデルに基いたTD(0)法によるを求める（７）．簡単な線形回帰モデルに基いたSARSA法によるを求める（８）．簡易デモ(python)：Gridworld（回帰近似MDP解法の実行：直感的理解）５．最前線：深層強化学習の基本概念と最重要ポイント（１）．簡易型ニューラルネットワークを応用したQ−学習手法の説明（２）．深層Q-学習（DQN）の基本ポイント（３）．連続動作空間における強化学習のポイント（４）．方策勾配法の基本と式の導き方（５）．ガウシアン型行動確率分布の導入（６）．方策勾配法による連続動作空間における強化学習の簡易説明（７）．深層Actor−Critic法の基本と実行のコツ（８）．簡易実演デモ(python)： Mountain car、 Cartpole、 Atariなど (概念の理解) ６．強化学習と深層強化学習の応用事例　　（１）．ヒューマノイドやロボットの制御における深層強化学習の応用事例紹介（２）．電気制御素子のパラメーター探索における強化学習の応用事例紹介（３）．蓄電池充放電制御における強化学習の応用事例紹介（４）．太陽光発電の変動制御における強化学習の応用事例紹介　　（５）．簡易実演デモ(python)：(応用の可能性と効果を議論する)
キーワード	強化学習　Python　適初期値設定法　最適状態行動価値関数　線形回帰モデル　ニューラルネットワーク　深層強化学習
タグ	シミュレーション・解析
受講料	一般 (1名)：49,500円(税込) 同時複数申込の場合(1名)：44,000円(税込)
会場	日本テクノセンター研修室〒 163-0722 東京都新宿区西新宿２－７－１　新宿第一生命ビルディング（２２階） - JR「新宿駅」西口から徒歩10分 - 東京メトロ丸ノ内線「西新宿駅」から徒歩8分 - 都営大江戸線「都庁前駅」から徒歩5分電話番号 : 03-5322-5888 FAX : 03-5322-5666

講師の言葉

セミナー詳細

日本テクノセンター研修室

こちらのセミナーは現在募集を締め切っております。