字节跳动火山翻译上新 38 个稀有语种,自研训练模型效率提升

IT资讯3年前 (2021)发布 IT资讯
0

本篇文章给各位网友带来的资讯是:字节跳动火山翻译上新 38 个稀有语种,自研训练模型效率提升超 500% 详情请欣赏下文

IT大王 12 月 31 日消息,2021 年 12 月,字节跳动旗下的火山翻译官网,上新了包括世界语、塔希提语、鞑靼语等在内的 38 个稀有语种的翻译。目前,包括汉语、英语、阿拉伯语、俄语、法语、西班牙语六个通用语种在内,火山翻译已具备 94 个语种、8742 个语向的翻译能力,整体 bleu(机器翻译质量自动评估指标)达 33.45,处于行业领先水平。

字节跳动火山翻译上新 38 个稀有语种,自研训练模型效率提升

▲ 蓝色部分为火山翻译上新的 38 个语种

据了解,通过采用自研的 mRASP 多语言模型,火山翻译仅使用一个模型就完成了上述 38 个语种与英文的双向互译,突破了传统双语言翻译模型对每个语向单独训练、单独上线服务的方式,大幅降低机器学习的训练和服务成本。

“通常情况下,训练 76 个语向的双语言模型需要 150-200 天。而相同硬件条件下,训练一个多语言模型只需要 30 天。”火山翻译团队介绍,“对于请求量小的语种,使用 mRASP 模型集中服务可以大大节省计算资源,仅需半张用于深度学习训练的 Tesla T4 显卡就可以满足 38 个语言的全部翻译请求,和双语翻译所需的资源一样。”

IT大王了解到,火山翻译通过  mRASP  中的对比学习和词对齐信息,可以很好地借助单语语料和其他拥有丰富语料的语种来帮助训练,弥补训练数据的不足。数据显示,火山翻译此次上新的稀有语种平均 bleu 值达 33.36,其中,海地语翻译表现最为突出,bleu 值达 50.76。

目前,火山翻译拥有:火山同传、机器翻译与视频翻译三大产品,支持飞书、今日头条、西瓜视频等业务的翻译需求,并通过字节跳动旗下的企业级技术服务平台火山引擎对外提供翻译服务。

© 版权声明
好牛新坐标 广告
版权声明:
1、IT大王遵守相关法律法规,由于本站资源全部来源于网络程序/投稿,故资源量太大无法一一准确核实资源侵权的真实性;
2、出于传递信息之目的,故IT大王可能会误刊发损害或影响您的合法权益,请您积极与我们联系处理(所有内容不代表本站观点与立场);
3、因时间、精力有限,我们无法一一核实每一条消息的真实性,但我们会在发布之前尽最大努力来核实这些信息;
4、无论出于何种目的要求本站删除内容,您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》:https://itdw.cn/ziliao/sfgs.pdf,
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明: http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理;请按照此通知格式填写发至本站的邮箱 wl6@163.com

相关文章