有无老哥RL做得比较多的指教一下

Noob Casual-avatar

Noob Casual

2020-09-23T18:28:20+00:00

最近刚跟老师入RL的坑

自己在做5x5网格机器人捡金币避陷阱的时候,用各种经典方法算q,总感觉sarsa收敛得比Monte Carlo Control without exploring points 还慢

loop到1e6了还在变来变去,MCC都已经收敛不动了

用的是epsilon=0.5的epsilon-greedy-policy

这是可能出现的现象吗,还是说一定是我python敲错了

理论上说 TP(0)应该一定比MCC收敛得快啊