中科院训练猕猴玩《吃豆人》游戏

本篇文章给各位网友带来的资讯是：中科院训练猕猴玩《吃豆人》游戏详情请欣赏下文

IT大王 5 月 27 日消息，中科院发布消息，近日，eLife 在线发表了题为《猕猴在吃豆人游戏中的分层组合策略》的研究论文。该研究由中国科学院脑科学与智能技术卓越创新中心（神经科学研究所）、灵长类神经生物学国家重点实验室杨天明研究组完成。

该研究设计了一种新颖有趣的实验范式 —— 吃豆人游戏，并训练猕猴学会使用摇杆完成该游戏范式的主要任务。该研究将复杂的行为范式和人工智能建模结合，定量探究了猕猴解决复杂问题的启发式行为策略特点，为阐释大脑实现高级认知功能的计算机制提供了全新方法和重要启发。

中科院训练猕猴玩《吃豆人》游戏

据介绍，日常生活中，人们大部分的重要目标通常超出简单决策的实现范畴，而这些目标可以通过设计一系列缜密的基础策略组合来实现。个体可以根据当前的情况优先考虑每一种策略的收益和风险，并在较容易完成的子任务中具体问题具体分析。

高度动态变化的环境会时刻伴随着出乎意料的意外和干扰，因此保持相机而变的灵活性在决策过程中至关重要。尽管研究动物的复杂行为和潜在的神经机制在神经科学和认知科学领域是持续受到关注的科学问题，但大部分的动物行为范式复杂程度，均不足以支持研究动物如何简化动态多样的策略以完成复杂的高级认知任务。

中科院训练猕猴玩《吃豆人》游戏

为解决这些问题，该研究改编经典街机游戏吃豆人（图 A），并训练猕猴学会使用操纵杆来控制吃豆人在一个封闭的迷宫中运动收集食物，猕猴避开敌人追击将获得实时果汁作为奖励。在经过一段时间的训练后，猕猴能够理解游戏中各个元素和奖励惩罚之前的关联，并依次相应地做出连续的运动抉择，来躲避敌人的追击，获取更多的奖励，甚至在特定规则下对敌人实现反杀。虽然该游戏高度动态且元素复杂，但本质上它比较类似动物野外觅食任务，这或是该研究成功训练动物的关键要素。

为定量地描述猕猴行为策略的特点，科研人员利用机器学习和统计方法，动态拟合匹配游戏玩法与多个智能策略模型。这种多智能体协作决策模型也是人工智能领域实现吃豆人游戏最高分数的设计关键。该计算模型设计了一组策略基组，策略基组中每个策略均只解决游戏中一个子任务，例如觅食最近的食物、躲避敌人追击或通过能量豆食物改变敌人的状态。

该模型将不同的策略基组对比拟合到到猕猴的游戏行为数据中，推断策略的动态权重。该计算模型对猕猴手柄运动的预测准确率达 90% 以上。更重要的是，策略动态权重分析发现，猕猴通过使用分而治之的启发式方法，在每个时间只关注游戏的一个子任务，分布式地解决这些问题，从而实现游戏总体目标的优化。研究发现猕猴能够在时序上组合这些策略基组，构建更复杂的复合策略，来处理特定的更有挑战性的任务。研究表明，猕猴能够优化掌握一套策略基组，并采用分层决策的方式来解决复杂的任务（图 B）。

本研究着眼于系统认知神经科学和人工智能广泛关注的交叉领域，将复杂的行为范式和严谨的计算建模进行结合，为未来探索灵长类动物的高级认知提供了重要的实验证据和新颖的分析方法。IT大王了解到，研究工作得到科技部、中科院、上海市科学技术委员会和国家自然科学基金委员会的支持。

IT资讯 # 中科院 # 吃豆人

文章版权归作者所有，未经允许请勿转载。

版权声明：
1、IT大王遵守相关法律法规，由于本站资源全部来源于网络程序/投稿，故资源量太大无法一一准确核实资源侵权的真实性；
2、出于传递信息之目的，故IT大王可能会误刊发损害或影响您的合法权益，请您积极与我们联系处理(所有内容不代表本站观点与立场)；
3、因时间、精力有限，我们无法一一核实每一条消息的真实性，但我们会在发布之前尽最大努力来核实这些信息；
4、无论出于何种目的要求本站删除内容，您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》：https://itdw.cn/ziliao/sfgs.pdf，
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明： http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理；请按照此通知格式填写发至本站的邮箱 wl6@163.com

中科院训练猕猴玩《吃豆人》游戏

GTA:罪恶都市主角汤米的配音演员雷利奥塔去世,终年 67

小米 CEO 雷军又换机了,同时使用四部智能手机,网友称“应

相关文章

中科院物理所在高功率密度锂 / 氟化石墨一次电池科学研究中获得进度

中科院在智能电网大数据方面研究取得进展,对大规模电力数据进行

知网回应被中科院停用:2022 年度协议签署前,将继续向后者

中科院研制出相对论激光驱动的超快 X 射线衍射系统