電気学会全国大会講演要旨

3-022

領域価値関数を組み込んだQ-learning手法の提案

◎河原崎俊之祐・瀬古沢照治（神奈川大学）

機械学習の分野において、エージェントが環境との相互作用を通して「賢い」行動を獲得する手法が研究されている。そのなかでも，代表的なものとしてQ‐learningがある。Q-learningの大きな利点として、実用的な問題に対して広範囲で適用可能であることが挙げられる。しかし、Q‐learningは、多くの学習時間を必要とし学習が遅いという問題がある。そこで、本研究では従来のQ‐learningに領域価値関数を活用することによってQ‐learningの高速化を目指す。遷移先の領域価値関数を把握することで危険な領域への行動を避け失敗行動を選択しないようにする。提案手法はオリジナルのQ‐learningよりも少ない時間で有用な方策を得ることが確認でき、学習の高速化に有効である。