模仿并超越,KL 正则化搜索让 AI 下围棋更像人类,Met

本篇文章给各位网友带来的资讯是:模仿并超越,KL 正则化搜索让 AI 下围棋更像人类,Meta&CMU 出品 详情请欣赏下文

如果非要问 AlphaGo 有什么缺点,那就是下棋不像人类。和 AlphaGo 对弈过的顶级棋手都有这种感受,他们觉得 AI 落子经常让人捉摸不透。

模仿并超越,KL 正则化搜索让 AI 下围棋更像人类,Met

这不仅是 AlphaGo 的问题,许多 AI 系统无法解释,且难以学习。如果想让 AI 与人类协作,就不得不解决这个问题。现在,来自 Meta AI 等机构的研究者们打造出一个能战胜人类顶级棋手、且更容易复盘棋谱的 AI。

模仿并超越,KL 正则化搜索让 AI 下围棋更像人类,Met

他们用人类棋谱训练 AI 模仿,并让后者超越了人类。

模仿并超越,KL 正则化搜索让 AI 下围棋更像人类,Met

上图分别展示了该方法在国际象棋(左)、围棋(右)的表现。

纵轴为 AI 与原始模型对弈的胜率,横轴为 AI 预测人类落子位置的 Top-1 准确度。可以看出新的算法(绿色)在两方面都已经超过了 SOTA 结果(蓝色)。

像人类,还能打败人类

正所谓“鱼与熊掌难以兼得”。AlphaGo 使用的自我博弈与蒙特卡洛树搜索(MCTS),虽然练就了无比强大的 AI,但它的下棋更像凭直觉,而非策略。如果要让 AI 更像人类,更应当使用模仿学习(Imitative learning),但是这却很难让 AI 达到人类顶级棋手水准。

Meta AI 和 CMU 的研究者发现,加入了 KL 正则化搜索后,一切都不一样了。AI 的落子策略变得与人类棋手更加相似,这就是他们提出的新方法。

在国际象棋、围棋和无合作的博弈游戏中,这种方法在预测人类的准确性上达到了 SOTA 水平,同时也大大强于模仿学习策略。作者选择了遗憾最小化算法(regret minimization algorithms)作为模仿学习的算法,但是非正则化遗憾最小化算法在预测人类专家行为方面的准确性较低。

因此作者引入了新的方法,引入了与搜索策略和人类模仿学习的锚策略之间的 KL 散度成正比的成本项。此算法被称为策略正则化对冲,简称 piKL-hedge。

piKL-hedge 的执行步骤如下:

模仿并超越,KL 正则化搜索让 AI 下围棋更像人类,Met

在下图中,piKL-Hedge(绿色)可以生成预测人类博弈的策略,其准确度与模仿学习(蓝色)相同,同时性能强 1.4 倍。另一方面,在实现更高预测准确性的同时,piKL-Hedge 优于非正则化搜索(黄色)的策略。

模仿并超越,KL 正则化搜索让 AI 下围棋更像人类,Met

作者团队简介

本文共有三位共同一作,分别是来自 Meta AI 的 Athul Paul Jacob、David Wu,以及 CMU 的 Gabriele Farina。

模仿并超越,KL 正则化搜索让 AI 下围棋更像人类,Met

Athul Paul Jacob 同时也是 MIT CSAIL 的二年级博士生,从 2016 年到 2018 年,他还在 Mila 担任访问学生研究员,在 Yoshua Bengio 手下工作,与 Bengio 共同发表了多篇论文。

David Wu 是 Meta AI 的国际象棋和围棋首席研究员。

Gabriele Farina 是 CMU 一名六年级博士生,曾是 2019-2020 年 Facebook 经济学和计算奖学金的获得者,他的研究方向是人工智能、计算机科学、运筹学和经济学。

另外,Gabriele Farina 还参与过著名的 CMU 德州扑克 AI 程序 Libratus 的开发。

模仿并超越,KL 正则化搜索让 AI 下围棋更像人类,Met

论文地址:

https://arxiv.org/abs/2112.07544

© 版权声明
好牛新坐标
版权声明:
1、IT大王遵守相关法律法规,由于本站资源全部来源于网络程序/投稿,故资源量太大无法一一准确核实资源侵权的真实性;
2、出于传递信息之目的,故IT大王可能会误刊发损害或影响您的合法权益,请您积极与我们联系处理(所有内容不代表本站观点与立场);
3、因时间、精力有限,我们无法一一核实每一条消息的真实性,但我们会在发布之前尽最大努力来核实这些信息;
4、无论出于何种目的要求本站删除内容,您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》:https://itdw.cn/ziliao/sfgs.pdf,
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明: http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理;请按照此通知格式填写发至本站的邮箱 wl6@163.com

相关文章