分析测试百科网 > 行业资讯 > 技术原理

AI程序攻克围棋的算法秘密（五）

2020.10.05

在本节中，大家应该对MCTS算法的工作原理拥有更为深入的理解。请别担心，迄今为止提到的全部内容应该足以支持您顺利掌握相关内容。惟一需要注意的是我们如何使用策略概率与估值方法。我们在铺展过程中将二者结合在一起，从而缩小每次落子时需要探索的具体范围。Q（s，a）表示估值函数，u（s，a）则代表该位置的已保存概率。下面我将具体作出解释。

另外需要注意的是，策略网络是使用监督学习来预测专业棋手落子判断的。其不仅能够提供概率最高的落子选项，同时也会提供各个选项的具体概率。这一概率可被存储在各个落子判断当中。在这里，DeepMind方面将其称为“先验概率”，并利用其选择有必要进行探索的落子选项。基本上，要决定是否需要对某一特定落子选项进行探索，我们需要考虑以下两点：首先，通过这步棋，我们有多大概率获胜？是的，我们已经拥有了能够回答这个问题的“估值网络”。第二个问题是，专业棋手有多大概率会考虑这一棋步？（如果专业棋手不太可能考虑这步棋，那么我们为什么要浪费时间进行探索？这部分结论由策略网络负责提供。）

接下来，让我们聊聊“混合参数”。如前文所述，为了评估各个盘面位置，我们有两种选择：其一，直接利用一直用于评估盘面状态的估值网络。第二，我们也可以使用现有策略网络快速推导对弈情况（假定对方选手也采取符合预测的下法），从而判断我们是输还是赢。一般来讲，估值函数的效果要比常规铺展更好。在这里，将二者结合将能够提供每项预测的权重估值，例如五五开、四六开等等。如果大家以百分比形式对估值X进行处理，则另一项就是（100－X）％。这就是混合参数的意义所在。后文中将对其实际效果进行说明。

在每一次铺展之后，大家都可以利用在模拟当中获得的任何信息对搜索树进行更新，从而进一步提升未来模拟的明智度。在所有模拟结束之后，您从中选择最佳落子选项即可。

下面来看有趣的结论！

大家应该还记得，RL微调策略神经网络拥有比SL人力训练策略神经网络更好的判断效果。但在将其添加至AlphaGo的MCTS算法中时，使用人工训练的神经网络反过来超越了微调神经网络。与此同时，在估值函数（可以理解成以无限趋近方式提供完美判断）方面，利用RL策略进行Foma训练能够带来超越使用SL策略的实际效果。

“执行上述评估需要耗费大量计算资源，我们必须拿出压箱底的硬货才能搞定这些该死的程序。”

但DeepMind的言下之意其实是……

“吼吼，跟我们的程序相比，以前的那些围棋程序简直就是唐氏儿童级别。”

这里再说回“混合参数（mixing parameter）”。在评估位置时，对估值函数及铺展二者的重视程度要高于其中任意一者。其余部分是DeepMind方面的深入解释，可以看到其中昭示了一项有趣的结论！

请再读一次标有红色下划线的句子。相信大家已经能够理解，这句话基本就是对整个研究项目的全面总结。

互联网

喜欢作者我要约稿

喜欢作者

打赏方式

AI程序攻克围棋的算法秘密（五）

周锦帆