実践的強化学習の基礎と高精度・高機能化ロボット制御への応用 <オンラインセミナー>

~ 深層強化学習におけるアルゴリズム、学習安定化、直接的な方策勾配の計算、モデルベース強化学習と報酬設計対策 ~

・分かりづらいといわれる強化学習の要点を基礎から学び、高精度なシステム開発へ応用するための講座
・人が設計するよりも優れた行動を実現できる強化学習の最新技術を修得し、高精度なロボット制御へ応用しよう!

オンラインセミナーの詳細はこちら:

・WEB会議システムの使い方がご不明の方は弊社でご説明いたしますのでお気軽にご相談ください。

講師の言葉

 強化学習は、未知の環境に置かれたエージェントが試行錯誤的に自身の行動ルール(方策)を学習する機械学習理論であり、時には我々が設計するよりも優れた振る舞いをもたらしてくれます。ロボット制御やゲームAIなど、様々な応用が期待・着手されている一方で,その理論が分かりづらいことでも有名です。
 本セミナーでは、強化学習の基礎について、その難しさや考え方など、要点を整理して解説していきます。また、ロボット制御等に応用していく上で有用とされる、モデルベース強化学習や報酬設計に関わる最新技術についても幾つか紹介します。

セミナー詳細

開催日時
  • 2024年08月19日(月) 10:30 ~ 17:30
開催場所 オンラインセミナー
カテゴリー オンラインセミナーソフト・データ・画像・デザイン
受講対象者 ・強化学習を基礎から学んで新たな研究・製品に活用したい方
・強化学習の応用に取り組んでいるものの学習結果に満足されていない方
・ロボットや機械ほか関連の技術者の方
予備知識 ・大学1~2年度の数学知識(線形代数、微積分・偏微分、確率)
修得知識 ・強化学習の基礎
・強化学習のロボット制御への応用方法
プログラム

1.強化学習の概要
  (1).強化学習の目的・難しさ
  (2).マルコフ決定過程
  (3).方策関数
  (4).価値関数

2.基本的な学習アルゴリズム
  (1).関数近似・深層学習化
  (2).価値関数の学習アルゴリズム
  (3).方策関数の学習アルゴリズム
  (4).深層強化学習における学習安定化

3.近年の方策勾配法
  (1).活用するトリック
  (2).方策更新の制限:PPO
  (3).直接的な方策勾配の計算:DDPG/TD3
  (4).方策エントロピーの最大化:SQL/SAC

4.ロボット制御のためのモデルベース強化学習とその応用
  (1).世界モデルの構成要素・学習法
  (2).世界モデルの活用法:収益の推定
  (3).世界モデルの活用法:仮想的な経験の生成
  (4).世界モデルの活用法:プランニング

5.実応用に向けた報酬設計対策とロボット制御への応用
  (1).報酬設計の難しさ
  (2).疎な報酬への対策例:内発的動機づけ
  (3).多目的性への対策例:セーフ強化学習
  (4).定量化が困難な場合:エキスパートの模倣
  (5).学習難易度の調整:カリキュラム学習

キーワード 強化学習 マルコフ決定過程 方策関数 価値関数 関数近似 深層強化学習 学習安定化 方策勾配法 モデルベース強化学習 報酬設計 カリキュラム学習
タグ AI・機械学習ソフト管理ソフト教育データ解析ロボット制御
受講料 一般 (1名):49,500円(税込)
同時複数申込の場合(1名):44,000円(税込)
会場
オンラインセミナー
本セミナーは、Web会議システムを使用したオンラインセミナーとして開催します。
contact us contact us
各種お問い合わせは、お電話でも受け付けております。
03-5322-5888

営業時間 月~金:9:00~17:00 / 定休日:土日・祝日