有无老哥RL做得比较多的指教一下

Noob Casual

2020-09-23T18:28:20+00:00

最近刚跟老师入RL的坑

自己在做5x5网格机器人捡金币避陷阱的时候，用各种经典方法算q，总感觉sarsa收敛得比Monte Carlo Control without exploring points 还慢

loop到1e6了还在变来变去，MCC都已经收敛不动了

用的是epsilon=0.5的epsilon-greedy-policy

这是可能出现的现象吗，还是说一定是我python敲错了

理论上说 TP(0)应该一定比MCC收敛得快啊

[求书氵] 有无老哥有<阴魂>未删节文档,有偿50r 有无老哥知道，娱乐圈和sm圈相比，谁更恶心有无老哥说说海湾战争到底牛逼吗？有无老哥聊一聊增加老弟硬度/频率的方法啊(想听听感想) 有无老哥说下修真聊天群的结局啊有无老哥能讲讲唐家三少近年来都写了什么内容吗有无老哥记得房事男孩子吃的药有无老哥聊聊自己戒糖后的生活有啥变化有无老哥说说自己戒色后的生活？

返回主页