強化学習の基礎と実問題適用への勘所およびポイント <オンラインセミナー>

~ 強化学習問題のモデル化・定式化、マルコフ決定過程下での強化学習による求解、連続な状態空間および行動空間への対応、実問題へ適用にあたっての勘どころ、および注意点 ~

・工夫が必要な強化学習の実用的な実装方法や活用ノウハウを修得するための講座

・試行錯誤の経験を通じ、状況に応じた適切な行動を獲得していく強化学習の実問題への適用法とアルゴリズムの実装方法を学び、システム開発に応用するための特別セミナー!

オンラインセミナーの詳細はこちら:

https://www.j-techno.co.jp/オンラインセミナーのご案内/

・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。

講師の言葉

 近年、AI分野の様々なブレークスルーと、計算機の処理能力の著しい向上により、高性能なAIを安価に利用できる環境が整ったことから、AIを活用した業務改善の取り組みが注目されている。これらAIの枠組みの1つとして、試行錯誤の経験を通じ、状況に応じた適切な行動を獲得していく強化学習は、ベテラン作業者の業務をAIで代替するなど業務の省力化が期待される。しかし、代表的強化学習法として知られるQ‐learningは、そのままでは実問題への適用には適さず、実問題で扱いが求められる連続な状態-行動空間へ適用するための工夫や、アンサンブル学習など他のAI技術と併用するなどの対応が求められる。また、Q‐learningの学習が保証される環境条件も限られるのだが、これを利用者が理解せずに不適切な問題設定が原因で学習に失敗するケースも存在する。
 本講義では、強化学習の基礎理論から、連続な状態‐行動空間を扱う方法、および実問題への適用にあたって注意すべき点などについて解説する。

セミナー詳細

開催日時
  • 2022年11月17日(木) 10:30 ~ 17:30
開催場所 オンラインセミナー
カテゴリー オンラインセミナーソフト・データ・画像・デザイン
受講対象者 ・作業ロボット等の学習システムに取り組むエンジニアの方
・設計作業の自動化に取り組むエンジニアの方
・実用的な強化学習をプログラムで実装したいエンジニアの方
・システム、ソフト、データ解析部門のエンジニアの方
予備知識 ・多変数関数の偏微分、および勾配法を用いた最適化について知識を有していると理解しやすい
・確率統計学、特に条件付確率、連続値の確率変数の確率密度関数の基礎知識があると理解しやすい
修得知識 ・状態遷移に不確実性を有する意思決定問題をマルコフ決定過程でモデル化・定式化する方法
・マルコフ決定過程の解法
・強化学習アルゴリズムを確率サンプリングによるダイナミックプログラミングの一種とする考え方
・連続な空間における関数近似の考え方
・ごく簡単なアンサンブル学習の原理
・連続な状態-行動空間における強化学習アルゴリズムの実装方法
プログラム

1.概論:強化学習とは?
  (1).強化学習問題の概要
    a.報酬に遅れが存在する意思決定問題の難しさ、試行錯誤による学習
    b.従来の「教師付き学習」との違い・強化学習研究のルーツ
    c.生物の脳は強化学習問題に対してどのように対処しているのか?
    d.「強化学習」への期待:何に使える?
  (2).強化学習問題のモデル化・定式化
    a.なぜ問題を数式で表すのか?
    b.状態遷移に不確実性を伴う現象のモデル:マルコフ過程
    c.マルコフ過程に意思決定の選択肢(decision/行動)を付加:マルコフ決定過程

2.強化学習問題と解法に関する基礎理論
  (1).マルコフ決定過程の最適性とプランニングによる求解
    a.「最適な行動」とは?平均報酬評価/報酬合計評価/割引報酬評価
    b.割引報酬評価における状態価値関数
    c.最適政策における最適状態価値関数とBellmanの最適性原理
    d.マルコフ決定過程におけるBellman方程式とその解法:政策反復法と価値反復法
    e.状態‐行動価値関数(Q関数)とBellman方程式
  (2).マルコフ決定過程下での強化学習による求解
    a.サンプル平均による近似計算を導入した価値反復法:Q‐learning
    b.政策反復法を確率的政策へ拡張した強化学習法:Actor‐Critic法
    c.動作例:迷路問題/サーバアクセス制御問題
    d.Q‐learningにおける行動選択方法について

3.連続な状態空間への対応
  (1).関数近似と補間
    a.空間のメッシュ分割およびテーブル表現(タイルコーディング)による関数近似
    b.より進んだ関数近似の考え方:
        高次元の特徴量ベクトルと重み変数の線形和による関数表現
    c.「ランダムで多様な」特徴量の生成とアンサンブル学習による効果
    d.ニューラルネットによる関数近似を強化学習に適用する場合の注意点
  (2).「ランダムで多様な」特徴量の生成とアンサンブル学習による関数近似への効果
    a.関数近似における過学習とは?過学習を避けるには?
    b.過学習を避けるブレークスルー:アンサンブル学習
    c.マルコフ過程に意思決定の選択肢(decision/行動)を付加:マルコフ決定過程
  (3).多層ニューラルネットによる関数近似を強化学習の価値関数表現に用いる場合の落とし穴

4.連続な行動空間への対応
  (1).連続な状態-行動空間での準Q‐learning:Q値を関数近似するだけでは済まない 
    a.高次元の状態‐行動空間のQ関数における行動選択処理(および最大Q値探索)での計算量爆発問題
    b.行動選択における計算量爆発を回避するためのGibbs‐samplingによる行動選択
  (2).政策=行動選択確率分布関数を連続な行動空間における確率密度関数にする方法
    a.Actor‐Critic法を連続な行動空間へ拡張
    b.実装例:4脚ロボットの歩行動作獲得

5.意思決定の時間間隔が一定ではない場合への対応
  (1).意思決定の時間間隔が指数分布の場合 
    a.セミマルコフ過程
    b.セミマルコフ決定過程

6.強化学習を実問題へ適用するにあたっての勘どころ、および注意点
  (1).「状態」入力信号から有効な「特徴量ベクトル」を生成し、価値関数や行動選択関数を表現すること
    a.ランダムに多数生成するだけの力技が単純な割に意外と強力
    b.より少ないメモリや計算量で効率よく特徴量ベクトルを生成するには、Deep‐LearningニューラルネットのAuto‐Encoderのテクニックが有効
  (2).複数の強化学習エージェントが存在するマルチエージェント環境下での強化学習
    a.環境はマルコフ決定過程ではないのでQ‐learningでは学習が保証されない
    b.ダイナミックプログラミングを基本としない政策勾配法が有効
  (3).状態観測が不完全な環境での強化学習
    a.環境はマルコフ決定過程ではないのでQ‐learningでは学習が保証されない
    b.不完全な状態入力信号をそのまま状態入力とせざるをえない場合にはダイナミックプログラミングを基本としない政策勾配法が有効なケースも
    c.状態入力の信号を増やせる状況である場合の対処方法について                  

キーワード 強化学習 意思決定問題 マルコフ決定過程 最適状態価値関数 Bellman方程式 政策反復法 価値反復法 Q関数 Q‐learning Actor‐Critic法 状態空間 アンサンブル学習 過学習 行動空間 セミマルコフ過程 セミマルコフ決定過程 特徴量ベクトル Auto‐Encoder 政策勾配法
タグ AI・機械学習ソフト管理ソフト教育ITサービス
受講料 一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
会場
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
こちらのセミナーは受付を終了しました。
次回開催のお知らせや、類似セミナーに関する情報を希望される方は、以下よりお問合せ下さい。
contact us contact us
各種お問い合わせは、お電話でも受け付けております。
03-5322-5888

営業時間 月~金:9:00~17:00 / 定休日:土日・祝日