Noob Casual
2020-09-23T18:28:20+00:00
最近刚跟老师入RL的坑
自己在做5x5网格机器人捡金币避陷阱的时候,用各种经典方法算q,总感觉sarsa收敛得比Monte Carlo Control without exploring points 还慢
loop到1e6了还在变来变去,MCC都已经收敛不动了
用的是epsilon=0.5的epsilon-greedy-policy
这是可能出现的现象吗,还是说一定是我python敲错了
理论上说 TP(0)应该一定比MCC收敛得快啊
自己在做5x5网格机器人捡金币避陷阱的时候,用各种经典方法算q,总感觉sarsa收敛得比Monte Carlo Control without exploring points 还慢
loop到1e6了还在变来变去,MCC都已经收敛不动了
用的是epsilon=0.5的epsilon-greedy-policy
这是可能出现的现象吗,还是说一定是我python敲错了
理论上说 TP(0)应该一定比MCC收敛得快啊