442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

本篇文章给各位网友带来的资讯是：442 个作者，100 页论文一半都是参考文献，谷歌耗时 2 年发布开源大模型新基准 BIG-Bench 详情请欣赏下文

一篇 AI 论文，442 个作者，其中还专门留了一章节写作者贡献，100 页里超过一半都是参考文献……

谷歌最新发布的论文 ——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models 作者那一栏就变成了这样……

来自 132 个机构的研究学者，耗时两年提出了一个大语言模型新基准 BIG-bench。并在此基础上评估了 OpenAI 的 GPT 模型，Google-internal dense transformer 架构等，模型规模横 6 个数量级。

最终结果显示，模型性能虽然随着规模的扩大而提高，但跟人类的表现相差还很远。

对于这项工作，Jeff Dean 转发点赞：Great Work。

442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

大语言模型新基准

来康康这篇论文究竟说了什么。

随着规模的扩大，模型的性能和质量都有一定的改进，这当中可能还存在一些变革性影响，但这些性能此前都没有很好的描述。

现存的一些基准都有一定的局限性，评估范围比较狭窄，性能分数迅速达到饱和。

比如 SuperGLUE，在该基准推出后的 18 个月内，模型就实现了“超过人类水平”的性能。

442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

基于这样的背景，BIG-bench 就诞生了。

目前它由 204 个任务组成，内容涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题。

442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

此外还有个人类专家评审团，也执行了所有任务，以提供基线水平。

为了方便更多机构使用，研究人员还给出了 BIG-bench Lite，一个小型但有代表性的任务子集，方便更快地评估。

442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

以及开源了实现基准 API 的代码，支持在公开可用的模型上进行任务评估，以及新任务的轻量级创建。

最终评估结果可以看到，规模横跨六个数量级，BIG-bench 上的总体性能随着模型规模的扩大、训练样本数量的增加而提高。

但跟人类基线水平相比，还是表现得比较差。

442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

具体在一些任务上，模型性能会随着规模的增加而平稳地提高。但有时候，会在特定规模上突然出现突破性表现。

442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

此外，它还可以评估模型存在的社会偏见。

442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

此外，他们还意外发现模型还可以 get 一些隐藏技能。比如，如何在国际象棋中合乎规则的移动。

442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

作者贡献写了 14 页

值得一提的是，可能因为作者过多，论文最后还专门留了一章写作者贡献。洋洋洒洒的写了 14 页，其中包括核心贡献者、Review 的、提供任务的……

442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

剩下的，还有 50 页的参考文献。

好了，感兴趣的旁友可戳下方链接康康论文。

论文链接：

https://arxiv.org/abs/2206.04615

GitHub 链接：

https://github.com/google/BIG-bench

IT资讯 # 基准 # 开源 # 模型 # 论文 # 谷歌

文章版权归作者所有，未经允许请勿转载。

版权声明：
1、IT大王遵守相关法律法规，由于本站资源全部来源于网络程序/投稿，故资源量太大无法一一准确核实资源侵权的真实性；
2、出于传递信息之目的，故IT大王可能会误刊发损害或影响您的合法权益，请您积极与我们联系处理(所有内容不代表本站观点与立场)；
3、因时间、精力有限，我们无法一一核实每一条消息的真实性，但我们会在发布之前尽最大努力来核实这些信息；
4、无论出于何种目的要求本站删除内容，您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》：https://itdw.cn/ziliao/sfgs.pdf，
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明： http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理；请按照此通知格式填写发至本站的邮箱 wl6@163.com

442个作者,100页论文一半都是参考文献,谷歌耗时 2 年

大语言模型新基准

作者贡献写了 14 页

苹果iOS16 Beta Safari 浏览器支持 WebX

苹果公布 Metal 3 支持设备列表:iPhone SE

相关文章

Android 13 新特性:可在兼容设备上实现支持头部跟踪

直戳 ARM 优点：第一个 RISC-V 版安卓 10 系统畅顺运行

Google 官方否认谷歌地图开放俄罗斯军事设施高分辨率图像

谷歌开发机密 AR 机器设备新项目 “金刚狼”：让人类得到超人听觉