michellee
2022-07-27T23:44:49+00:00
电脑太bug拉,辣鸡cpu,级别调业余都杀的我目瞪口呆,一步都赢不到阿一步都赢不到阿
实在想知道它到底如何“思考”出该走啥的呢?
额 都是下棋 但是围棋和象棋的原理差远了
你说的哪种
保留好结果,删除坏结果,越删剩的越好,最后就是接近最优解。
Reply to [pid=630209675,32957044,1]Reply[/pid] Post by [uid=63923722]波波斯格达[/uid] (2022-08-06 07:47)阴阳怪气第一人,合格的2楼
[quote][pid=630209850,32957044,1]Reply[/pid] Post by [uid=37974226]TerranChengZi[/uid] (2022-08-06 07:49):
阴阳怪气第一人,合格的2楼[/quote]讲道理,你想说的和你回复的都是一楼,二楼很无辜[s:ac:咦]
穷举法,用超强算力算出下在每个地方的胜率,然后下在胜率最高的地方。当然这是我猜的[s:a2:有何贵干]
没记错 象棋是枚举
围棋是自我学习。
所以象棋可以从结果逆推逻辑,围棋只能死背棋谱。
所以围棋最打击人的发现就是,人类这么长时间的发展,所谓的棋风其实是“小道”,是不利于胜利的,是走歪的路。AI完全破除了各种开局的不成文下法。但是你还不知道为什么[s:ac:哭笑]
就是背棋谱[s:pg:吃瓜]
推演了大量棋局知道当前情况怎么算最优,然后就按照定势下了。穷举到终局是不可能的,目前的算力不够。但是推导出前三百手的定势还是能下的。
先要从非ai去理解这个,就是建模,简单说就是有一堆判断条件,来判断哪里落子最优
人也是建模,观察棋形,和自己的经验匹配,来选择下法
但是心里这个模型,计算机的模型,和实际棋盘的棋形并不是完全一样,只能说差不多一样,如果能记住更多的棋形去应对,棋力就会上升
到这里,人和算法设计就都是有限的了,但是ai能突破这个上限,创造更复杂的模型,分析更多的棋形,获得更好的下法
给程序制定一套围棋规则
给程序定义一套奖惩积分规则
比如吃掉一个子加1分 两个子加3分
然后让程序自己跟自己按照规则自己跟自己下
增加积分高的下棋策略权重(有可能当前的降低积分的走法会让后续的的走法积分更高,所以只是降低权重,不是彻底舍弃)
下个几百万局
当然实际比我说的要复杂很多 但目前深度学习都是这个思路
现在围棋圈里最顶流的棋路……就是ai棋路……
ai也逐渐找到自己的风格了……
有人不是曾经赢过一局么……
当天晚上阿尔法模拟那个人的棋路和自己下了100万盘
之后就就再也赢不了了……
最流行的alphago采用策略价值网络和蒙特卡洛探索
你可以这么简单理解
策略网络和价值网络都是两个魔法般的预测器
策略网络输入当前盘面的局势时,可以预测的下一步该怎么走(的几率分布)
价值网络在输入当前局面的局势时,可以预测当前的双方胜率
每一步棋,ai先是通过策略网络选择一个走法
然后按照游戏规则推演,把推演后的局势输入价值网络判断双方的胜率变化
预测总是不准的,就好像人下棋的时候会落入对手设下的n步之后的陷阱
所以ai会反复扩大他的推演范围来增大总体预测的正确性
过程中会考虑同一局面的多种可能走法
过程中会假设对手每次都用它能想到的最优解下棋
[quote][pid=630210684,32957044,1]Reply[/pid] Post by [uid=39440010]yukungood1[/uid] (2022-08-06 07:57):
给程序制定一套围棋规则
给程序定义一套奖惩积分规则
比如吃掉一个子加1分 两个子加3分
然后让程序自己跟自己按照规则自己跟自己下
增加积分高的下棋策略权重(有可能当前的降低积分的走法会让后续的的走法积分更高,所以只是降低权重,不是彻底舍弃)
下个几百万局
当然实际比我说的要复杂很多 但目前深度学习都是这个思路[/quote]介不是强化学习嘛