電子情報通信学会総合大会講演要旨
A-10-11
LTL制約の下でのMDPに対するスーパバイザの強化学習
◎広本将基・潮 俊光(阪大)
マルコフ決定過程(MDP)でモデル化される離散事象システムにおける制御器設計に強化学習が応用されている。強化学習では、状態遷移に対してスカラー値で報酬が設定されており、学習を行うエージェントは割引き付き報酬和(収益)の最大化を目的に制御側を学習する。線形時相論理(LTL)はパスの定性的な性質を表現できる論理体系である。本報告では、事象の生起にコストがかかると仮定し、LTL式で与えられた制御仕様を満たしつつ、コスト収益に関する目的関数を最適化する制御則を求めるための学習アルゴリズムを提案する。なお、筆者が以前に提案した手法では、LTL式を満たさない事象を選択する可能性があったが、提案手法ではその可能性はない。