“跑分” 这件事情,坚信诸位阅读者对于此事并不生疏。“不服气跑个分” 早已变成了一些新品发布时的保留节目。针对单用户而言,最常见的跑分程序流程大约便是鲁大师和安兔兔评测了。安裝一个程序流程,随后点一下好多个按键,数分钟之后跑分結果就出来,全部全过程简易轻轻松松。
假如要跑分的服务平台并不是运作 Windows 系统软件的 X86 服务平台,也不是运作安卓手机系统的 ARM 服务平台,只是运作国内电脑操作系统的国内处理器服务平台,用什么方法来考量这种服务平台上的处理器性能呢?这时候,我们可以应用一个超重量级的跑分程序流程 SPEC CPU 2006。
SPEC CPU 2006 包括 12 项整数金额测试,17 项浮点测试,总共 29 个测试新项目。测试之后会各自依据每一项的测试考试成绩,用几何平均算出最后的整数金额测试考试成绩和浮点测试考试成绩。依据编译程序选择项设定的不一样,能够获得处理器的基本(base)性能和最高值(peak)性能。针对 SPEC CPU 2006 的主要内容,在网上早已有很多原材料了,在这里我不会做过多阐释。在IT老大IT号这儿,我主要详细介绍单核心 peak 性能的测试。
一、三款国内处理器性能比照
应用 SPEC CPU 2006,我们可以对各种各样国内处理器的性能做一个点评。这儿,大家最先比照三款国内处理器的 SPEC CPU 2006 性能。
湘源 FT2000-4 处理器沒有官方网的 SPEC CPU 2006 性能。网民 yygg100 应用湘源的內部测试环境变量,获得了 FT2000-4 处理器的整数金额最高值性能为 23.2 分;缺憾的是,在这个测试中并沒有开展浮点性能的测试,该网民都没有出示环境变量的关键点。这一考试成绩早已基本完成了湘源在 2016 年的整体规划,即到 2018 年 SPEC CPU 2006 性能做到 20~30 分。
兆芯则立即在官在网上公布了处理器的性能,现阶段 KX-6000 的性能为 3GHz 下单核心整数金额性能 29.2 分,浮点性能则达到 38 分。因为兆芯处理器选用 X86 指令系统,在开展性能测试的情况下兆芯能够应用 Intel c语言编译器来得到最大性能,这也是兆芯的绿色生态优点之一。
神州龙芯 2A4000,选用 28nm 加工工艺,cpu主频 2.0 GHz 下,单核心 peak 整数金额性能 21.1 分,浮点性能 21.2 分;单核心 base 整数金额 19.1 分,浮点 18.7 分。我还在上年尝试重现这一考试成绩,沒有取得成功,即便CPU超频到 2.15GHz 的状况下,最后的考试成绩都没有超出 20 分,倍感缺憾。如今我觉得再试一下,以正视听。
图 1 三款国内处理器的单核心性能比照
二、危害处理器性能的要素
在性能测评中,危害性能的要素有很多,简易的讲能够归纳为下列好多个个一部分:
-
处理器核的设计方案水准。处理器核的性能是决策处理器性能的最首要条件。在同样的cpu主频下,应用高效率处理器核的处理器性能更强。
-
处理器cpu主频。选用一样的处理器核,高些的处理器cpu主频可以有更强的性能。出色的生产制造加工工艺可以明显提升 处理器的cpu主频。例如,一样选用 FT663 核心,选用 40nm 加工工艺的湘源 FT2000-2 处理器cpu主频仅有 1.0 GHz,而选用 16/14 nm 加工工艺的 FT2000-4 处理器cpu主频达到 2.6 GHz。选用出色的物理学设计方案,也可以明显提升 处理器的cpu主频,例如神州龙芯 2A3000 处理器和神州龙芯 2A4000 处理器都选用 28 nm 加工工艺流片,前面一种cpu主频仅有 1.5 GHz,而后面一种的cpu主频提升 到 2.0 GHz。
-
处理器的缓存文件尺寸。大家都知道,Intel 的处理器阄割缓存文件之后就变成了奔流。更高的处理器缓存文件,有利于提升 处理器的性能。例如,神州龙芯 2A2000 处理器共享资源 3 级缓存文件为 4M,神州龙芯 2A3000 处理器的共享资源三级缓存提升 到 8M,促使 2A3000 处理器的性能拥有大量提高。
-
运行内存的访存速率。有一部分运用是访存密集式的,对这种运用而言,提升 运行内存的访存性能可以合理提升 处理器性能。危害运行内存性能的要素有运行内存的頻率、运行内存安全通道的数量。假如电脑主板上面有好几个处理器,还必须考虑到每一个处理器和运行内存的间距。
-
c语言编译器和编译程序选择项。出色的c语言编译器,再加上与运用特点配对的编译程序选择项,可以明显提升 测算的性能。在 Intel 服务平台上,要全方位充分发挥处理器的性能,最好的选择是应用 Intel c语言编译器;假如应用开源系统的 GCC c语言编译器,通常不可以充分运用处理器的工作能力。例如,兆芯 KX6000 处理器 SPEC CPU 2006 最高值性能整数金额 29.2 分,浮点 38 分,便是应用 Intel c语言编译器测出去的。除此之外,也有很多的编译程序选择项提升 二进制文件性能,挑选适合的编译程序选择项是提升 性能的关键方式。例如,针对适用 avx 命令的处理器,在应用 GCC 开展编译程序的情况下打开 – mavx 选择项,很有可能会明显提升 程序流程的性能。
-
电脑操作系统核心。过度历史悠久的电脑操作系统核心很有可能没法非常好的适用新处理器的特点。假如电脑操作系统核心编译程序的情况下沒有设置恰当的选择项,也很有可能没法适用新的处理器特点。以神州龙芯处理器为例子,神州龙芯 2A4000 处理器提升了 MSA 命令,适用 128 位空间向量实际操作,假如电脑操作系统核心不兼容 MSA,那麼全部开启了 MSA 命令的二进制文件都没法一切正常运作,也就没法充分发挥处理器的性能。
-
程序执行依靠的最底层库函数。程序执行依靠的 libc 库和 libm 库,对处理器性能的充分发挥也是有危害。高性能的数学课库可以加速最底层数学函数的测算,提升 测算性能。如果是开展矩阵计算、信号分析,那麼高性能的 BLAS、LAPACK 库、FFT 库也可以提升 程序流程的计算速率。
三、神州龙芯 2A4000 处理器的 SPEC CPU 2006 性能调优
在对神州龙芯 2A4000 开展性能测试的情况下,我测试了电脑操作系统核心、运行内存性能、cpu主频、编译程序选择项等对电脑操作系统性能的危害。
1. c语言编译器提升选择项
最先,我调查了c语言编译器的各种各样提升选择项对性能的危害。这时,我的测试自然环境是神州龙芯 2A4000 处理器,cpu主频 1.8GHz, 配单条 8GB 2400MT/s 电脑内存条。电脑操作系统为龙梦 Fedora 28,内核版本为 5.4.60,c语言编译器版本号为 GCC 8.4。我简易试着了 O2、O3、Ofast 三个提升选择项,获得的 SPEC CPU 2006 性能如图所示 2 所显示。
图 2 选用 O2、O3、Ofast 选择项时的处理器性能比照
这一性能看上去确实是很差。从 O2 到 O3 再到 Ofast,程序流程的性能有一丝的提高,但间距神州龙芯官方网转化成的 20 分还差的太远。下面,我们可以根据进一步c语言编译器主要参数来对处理器的性能开展提升。我选用的关键c语言编译器主要参数和功效以下表所显示。
c语言编译器主要参数 |
功效 |
-march=loongson3a |
打开对于神州龙芯 2A 处理器的提升 |
-mabi=n32 |
应用 N32 的 ABI |
-funroll-all-loops |
循环展开 |
-mmsa |
应用 MIPS SIMD 命令 |
-flto |
打开连接时提升 |
-ftree-parallelize-loops |
打开全自动并行处理 |
-fprofile-generate, -fprofile-use |
应用 profile guided optimization |
对每一个测试新项目的编译程序主要参数,都开展了调节,最后获得的 peak 性能成绩提升 到整数金额 18.09 分,浮点 17.64 分,相对性于仅应用 Ofast 主要参数的性能各自提升 了 34% 和 24%。图 3~ 4 比照了只应用 Ofast 主要参数的性能和 peak 性能的比照。
图 4 peak 特性和仅选用 Ofast 选择项的特性比照
从检测的結果看,只是借助编译程序选择项的调节,就可以大幅度提高运用程序执行的速率。针对一部分检测的特性,乃至有多倍的特性提高。例如,456.hmmer 测试报告的成绩从 11.7 分提升 到 27.4 分,特性是以前的 2.3 倍,这关键是由于开启了 MIPS 的 SIMD 命令;436.cactusADM 测试报告的成绩从 2.5 分提升 到 7.3 分,特性是以前的 2.9 倍。
2. 电脑操作系统核心的挑选
除开编译程序选择项的调节,电脑操作系统核心也对应用软件的特性拥有十分大的危害。选用一样的编译程序选择项,我各自应用 Fedora 28 的 5.4.60 核心及其神州龙芯出示的 4.19.161 核心开展了功能测试。应用 4.19.161 核心,进一步提高了程序流程的特性,整数金额 / 浮点特性各自从 18.09 分 /17.64 分,提升 到 18.8 分 / 19.92 分,特性的提高各自为 4% 和 13%。
如图所示 5 所显示,429.mcf 特性从 20.56 分提升 到 24.9 分,特性提升 了 21%。而特性提高更为显著的新项目是 436.cactusADM,成绩从 7.3 分提升 到 44.9 分,特性疯涨到原先的 6.15 倍,真是像开外挂了一样。这也说明神州龙芯企业在电脑操作系统核心的提升上,也干了许多工作中。
图 5 电脑操作系统核心对特性的危害
3. 运行内存特性
进一步,我比照了运行内存特性系统对特性的危害。当系统软件提升一根电脑内存条,构成双通道内存之后,总体的特性再度提高,整数金额 / 浮点特性各自提高到 19.60 分和 20.99 分,对比以前的检测各自又提升 了 4.3% 和 5.5%。在其中,特性提高很大的新项目如图所示 6 所显示。很显著,这种新项目也是访存密集式的。在对运行内存特性开展调优之后,1.8 GHz cpu主频的神州龙芯 2A4000 CPU的浮点特性早已超出了 20 分。
从检测的結果还可以看得出,462.libquantum 检测对访存特性十分比较敏感,将运行内存从多通道升級到双通道内存,特性提高了 66%。
图 6 运行内存对特性的危害
4. 处理器主频
之上的检测全是在 1.8 GHz cpu主频下进行的。事实上,神州龙芯 2A4000 CPU超频頻率能够到 2.0 GHz。而应用神州龙芯核心开发人员 flygoat 出示的龙梦 A1901 电脑主板核心CPU超频补丁下载,还能够进一步提高神州龙芯 2A4000 CPU的cpu主频到 2.2 GHz。
提升 cpu主频得话,神州龙芯 2A4000 CPU的特性到底能够提高到哪些水平?从下面的图 7 能够看得出,在 2.0GHz cpu主频下,整数金额特性和浮点特性各自为 21.3 分和 22.9 分,这早已超出了神州龙芯官方网出示的整数金额 21.1 分、浮点 21.2 分的 peak 特性。我所检测的 A1901 电脑主板,2A4000 CPU能够平稳在 2.1GHz cpu主频下,在这里cpu主频下整数金额特性和浮点特性各自为 22.2 分和 23.8 分。
图 7 不一样cpu主频下神州龙芯 2A4000 CPU的特性
殊不知,这并不是是神州龙芯 2A400 CPU的特性極限。我还在检测中应用的是 GCC 8.4 c语言编译器,在其中对神州龙芯 2A4000 中命令的适用并不健全。例如,神州龙芯 2A4000 中完成了 256 位空间向量实际操作命令 LASX,但我还在显卡跑分的情况下仅用到 128 位的空间向量实际操作命令 MSA。假如c语言编译器中的编译程序选择项对龙芯处理器开展了深层的调优,全部系统软件的特性也有进一步提高的室内空间。
历经所述的检测,我系统对的硬件配置、手机软件等层面开展了多种多样调优,根据提升c语言编译器选择项、电脑操作系统核心、运行内存特性,及其对CPU的CPU超频,将 SPEC CPU 2006 的特性从最开始的整数金额 13.1 分、浮点 12.2 分,提升 到最后的整数金额 22.2 分、浮点 23.8 分(2.1 GHz)。这种提升的工作经验,针对相近的系统软件一样可用。
四、针尖对麦芒:湘源 FT2000/4 vs 神州龙芯 2A4000 CPU
大家了解了神州龙芯 2A4000 CPU的特性,那麼和同行的湘源 FT2000-4 CPU对比,神州龙芯 2A4000 的差别有多大呢?
新项目 |
神州龙芯 2A4000 |
湘源 2000-4 |
CPU核 |
GS464V |
FTC663 |
指令系统 |
LoongISA |
ARM V8 |
CPU核数 |
4 |
4 |
处理器主频 |
2.0 |
2.6 |
加工工艺 |
28nm |
14nm |
功能损耗 |
30~50W |
10~15W |
内存控制器 |
DDR4 最大 2400MT/s |
DDR4 最大 3200MT/s |
能够看得出,选用先进工艺的 FT2000-4 CPU在cpu主频和功能损耗上大幅度领跑神州龙芯 2A4000 CPU。那麼CPU的真实有效能有多大的差别呢?近期,百度贴吧网民 yygg100 对 FT2000 CPU的 SPEC CPU 2006 的 peak 特性开展了检测,获得了在 2.8GHz cpu主频下单核心 peak 整数金额特性 23.2 分的考试成绩。尽管他的检测并不健全,仅有整数金额功能测试,沒有浮点功能测试的数据信息,但这依然是现阶段已经知道的 FT2000 CPU单核心特性的最大值。
大家将这一数据信息与神州龙芯 2A4000 在 2.0GHz 下的特性开展了比照,神州龙芯 2A4000 特性为 21.3 分。因为龙芯处理器加工工艺落伍,cpu主频较低,cpu主频仅有湘源CPU的 77%,而整数金额特性做到了湘源CPU的 92%。
图 8 神州龙芯 2A4000 和湘源 FT2000-4 CPU整数金额特性比照。
从图上能够看得出,在 12 项检测中,湘源CPU在 8 个新项目上特性强过神州龙芯 2A4000,在其中 libquantum 这一项的特性差别较大 ,龙芯处理器特性仅有 FT2000 的 58%,由于湘源CPU不但cpu主频较高,并且内存条频率为 2665MT/s,对比神州龙芯 2A4000 的 2400MT/s 有显著的优点。
而在 429.mcf,445.gobmk,456.hmmer, 458.sjeng 这 4 个新项目上,2.6 GHz 的湘源 2000 CPU特性弱于 2.0 GHz 的 2A4000 CPU。伴随着神州龙芯 2A5000 CPU的发售,湘源 2000 CPU的单核心特性领跑优点可能慢慢消退。
五、对神州龙芯 2A5000 的未来展望
神州龙芯 2A5000 CPU早已流片,迅速就需要公布了。神州龙芯 2A5000 CPU将选用tsmc 12nm 加工工艺流片,处理器主频有希望提升 到 2.5 GHz 之上,和同行CPU的cpu主频差别进一步变小。据悉,神州龙芯 2A5000 的 SPEC CPU 2006 特性将做到 25~30 分。
依据我对神州龙芯 2A4000 CPU的功能测试,假如把神州龙芯 2A5000 CPU视作 2A4000 的简易全新升级,只是提升 cpu主频,内存条频率和缓存文件都不会改变,选用图 7 中的数据信息,开展一个简易的数据拟合,我预测分析神州龙芯 2A4000 CPU在 2.5 GHz cpu主频时 peak 特性约为整数金额 25.9 分、浮点 26.7 分。龙芯 2A5000 会将三级缓存尺寸翻倍,提升 运行内存的頻率 (有希望做到 3200MT/s),还会继续进一步提高CPU的性能,我们可以假定有这种调节能够产生 5% 的性能提高;龙芯 2A5000 CPU选用了 Loongarch 指令系统,解决了 MIPS 指令系统的历史时间负担,依据胡伟武研究者的汇报,只是是指令系统的升级,就可以让性能提高 16.6% 和 9.4%,我们可以保守估计有 9% 的性能提高。龙芯 2A5000 也有希望应用真实的 256 位向量指令,并非 MSA 中的 128 位空间向量,程序执行速率能够进一步提高,能够保守估计这能产生 2% 的性能提高。
依据上边的测算,我觉得龙芯 2A5000 CPU的 SPEC CPU 2006 单核心 peak 性能能够做到整数金额 30 分、浮点 30 分。到时候,龙芯CPU将在单核心性能上场均三双或迎头赶上别的国内CPU。2021 年第三季度,16 核龙芯 3C5000 及其 64 核龙芯 3E5000 的流片,也将提升 龙芯CPU的多核性能,有利于龙芯拓展网络服务器销售市场。
论文致谢
此次检测使用了网民 gueenet 的龙芯 2A4000 服务器,对他的无私和信赖我深表谢谢!在对核心的性能检测中获得了陈华才、flygoat 的具体指导。对 SPEC CPU 2006 性能的探寻,遭受了网民 yygg100 所上传视频的启迪,对他的分享视频一并表示感激。封面照片由龙芯吧 Windows1089 出示。
参考文献:
IT老大对 SPEC CPU 很感兴趣的盆友,能够参照 https://github.com/zevanzhao/loongson-notes 中的文本文档,开展龙芯服务平台下 SPEC CPU 2006 的显卡跑分。
1、IT大王遵守相关法律法规,由于本站资源全部来源于网络程序/投稿,故资源量太大无法一一准确核实资源侵权的真实性;
2、出于传递信息之目的,故IT大王可能会误刊发损害或影响您的合法权益,请您积极与我们联系处理(所有内容不代表本站观点与立场);
3、因时间、精力有限,我们无法一一核实每一条消息的真实性,但我们会在发布之前尽最大努力来核实这些信息;
4、无论出于何种目的要求本站删除内容,您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》:https://itdw.cn/ziliao/sfgs.pdf,
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明: http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理;请按照此通知格式填写发至本站的邮箱 wl6@163.com