電子情報通信学会総合大会講演要旨
D-20-5
Profit Sharingを用いた学習時間の高速化に関する研究
○菅原茉理絵・内田智史(神奈川大)
強化学習問題においてエージェントの目的は最終的に得られる報酬の総量を最大化することである。そのためにエージェントは行動選択の結果、得られる報酬をもとに目的を達成できるよう方策を最適化していく。しかし、強化学習では環境との試行錯誤的な相互作用を通して最終的に目的を達成した際に報酬が与えられることが多く、ある時点でエージェントが選択した行動に対する報酬に時間的な遅れが出でしまう。そこで効果的な方法としてProfit Sharingがあり、これにより学習にかかる時間が短くなる。本研究では、強化学習の学習高速化を目標に最適解以外の方策を用いて学習時間の高速化を行えるような手法を提案したい。