关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

AI程序攻克围棋的算法秘密(五)

2020.10.05

在本节中,大家应该对MCTS算法的工作原理拥有更为深入的理解。请别担心,迄今为止提到的全部内容应该足以支持您顺利掌握相关内容。惟一需要注意的是我们如何使用策略概率与估值方法。我们在铺展过程中将二者结合在一起,从而缩小每次落子时需要探索的具体范围。Q(s,a)表示估值函数,u(s,a)则代表该位置的已保存概率。下面我将具体作出解释。

另外需要注意的是,策略网络是使用监督学习来预测专业棋手落子判断的。其不仅能够提供概率最高的落子选项,同时也会提供各个选项的具体概率。这一概率可被存储在各个落子判断当中。在这里,DeepMind方面将其称为“先验概率”,并利用其选择有必要进行探索的落子选项。基本上,要决定是否需要对某一特定落子选项进行探索,我们需要考虑以下两点:首先,通过这步棋,我们有多大概率获胜?是的,我们已经拥有了能够回答这个问题的“估值网络”。第二个问题是,专业棋手有多大概率会考虑这一棋步?(如果专业棋手不太可能考虑这步棋,那么我们为什么要浪费时间进行探索?这部分结论由策略网络负责提供。)

接下来,让我们聊聊“混合参数”。如前文所述,为了评估各个盘面位置,我们有两种选择:其一,直接利用一直用于评估盘面状态的估值网络。第二,我们也可以使用现有策略网络快速推导对弈情况(假定对方选手也采取符合预测的下法),从而判断我们是输还是赢。一般来讲,估值函数的效果要比常规铺展更好。在这里,将二者结合将能够提供每项预测的权重估值,例如五五开、四六开等等。如果大家以百分比形式对估值X进行处理,则另一项就是(100-X)%。这就是混合参数的意义所在。后文中将对其实际效果进行说明。

在每一次铺展之后,大家都可以利用在模拟当中获得的任何信息对搜索树进行更新,从而进一步提升未来模拟的明智度。在所有模拟结束之后,您从中选择最佳落子选项即可。

下面来看有趣的结论!

大家应该还记得,RL微调策略神经网络拥有比SL人力训练策略神经网络更好的判断效果。但在将其添加至AlphaGo的MCTS算法中时,使用人工训练的神经网络反过来超越了微调神经网络。与此同时,在估值函数(可以理解成以无限趋近方式提供完美判断)方面,利用RL策略进行Foma训练能够带来超越使用SL策略的实际效果。

“执行上述评估需要耗费大量计算资源,我们必须拿出压箱底的硬货才能搞定这些该死的程序。”

但DeepMind的言下之意其实是……

“吼吼,跟我们的程序相比,以前的那些围棋程序简直就是唐氏儿童级别。”

这里再说回“混合参数(mixing parameter)”。在评估位置时,对估值函数及铺展二者的重视程度要高于其中任意一者。其余部分是DeepMind方面的深入解释,可以看到其中昭示了一项有趣的结论!

请再读一次标有红色下划线的句子。相信大家已经能够理解,这句话基本就是对整个研究项目的全面总结。


推荐
热点排行
一周推荐
关闭