作为2020年TechDay的一部分,ARM发布了三项重要公告。头条主要公告是Cortex-X自定义程序(CXC),其中包含新的Cortex-X1CPU内核。Cortex-X1带来了比任何Cortex-A系列CPU更高的峰值性能,同时打破了Cortex-A系列PPA的范围。ARM发出的其他两个公告更加常规化。Cortex-A78CPU和Mali-G78CPU现已正式上市,它们分别充当Cortex-A77CPU和Mali-G77CPU的后继产品。让我们一一介绍这些公告:
ARMCortex-A78
借助Cortex-A78,ARM的重点集中在效率要求上,例如对更长的电池寿命,新的移动设备尺寸以及不断缩小的SoC面积的要求。持续性能是Cortex-A78的关键词,而Cortex-X1则以实现最大的短期峰值性能为目标,向恒星射击。
ARM说,Cortex-78代表了其驱动器的“非常出色”,以一流的效率实现了高端性能。这些也不只是空话。在过去的几年中,Cortex-A76和Cortex-A77表现出一流的能效和一流的PPA(性能,功率和面积)。它们没有与苹果的A系列芯片竞争所需的设计,但是由于产生的功率较低,它们的能效在最差的情况下与苹果相同,最好甚至高于苹果。
A78的性能改进涵盖了生产力,通信,安全性和基于相机的任务,高级游戏,XR和基于ML的体验的用例。
在持续的性能方面,Cortex-A78带来了两位数的改进。与之前的Cortex-A77相比,在相同的移动热功率范围内,它的持续性能提高了20%。AnandTech仔细分析了这些数字,并解释说20%的数字是IPC比A77高7%的组合,而其余13%的性能提升归功于5nm工艺,下一代SoC都将在其上制造。ARM通过指出移动设备耗散功率的能力有限来指出持续性能的重要性,并且持续性能避免了对需要大量功率的应用程序的功率节流。反过来,这可以通过避免延迟或丢帧来改善UX。
功率效率的提高转化为更高的能源效率,因为两者是相关的,但概念不同。据ARM称,在高性能点(例如当前移动设备的最高点)上,Cortex-A78与2019年的设备相比,可提供与Cortex-A77相同的性能,可节能50%。这令人印象深刻,这使A78成为ARM设计的最节能的Cortex-ACPU。
ARM对持续性能的关注将使下一波移动创新受益,例如新的外形尺寸(可折叠手机)以及通过5G改进的“数字沉浸式”。现实情况是,对于当前的一代而言并非如此,即使在下一代中也没有太大关系。
与ARM自己的新型Mali-G78GPU结合使用时,AAA移动游戏将是一种可通过Cortex-A78改进的用例。两者的结合旨在为手机带来高保真游戏体验。结合5G的快速速度和高带宽,它们的更高性能将使移动游戏成为可能。A78的效率在这里有好处,因为它将为延长的游戏时间提供更长的电池寿命。ARM表示,它还在与生态系统合作,以进一步提高性能并建立更丰富的游戏体验,并举例说明了与Unity一起将BurstCompiler引入Android的示例。
机器学习(ML)性能是ARM的另一优先级。尽管高端的SoC带有独立的神经处理单元(NPU),但CPU是用于移动设备上的ML计算的首选处理器。ARM的CPU支持最流行的现实世界ML应用程序和智能手机上的用例,例如社交媒体过滤器,命令,安全性和安全性。与A77相比,Cortex-A78在基于ML的任务上平均节省了8%的功率,从而使官方效率提高了10%。
ARMCortex-A78–架构
ARMCortex-A78具有与上一代相同的体系结构(它仍然是ARMv8.2内核)。但是,ARM确实添加了微体系结构功能,旨在以区域和省电的方式提高性能。ARM在节省面积和功耗的同时保持了所需的性能水平。同样,ARM对Cortex-A系列的关注仍然集中在面积和功率效率上,而不是峰值性能上,这是Cortex-X程序现在要做的工作。
Cortex-A78的性能改进是通过优化宽度和深度的附加微体系结构功能实现的。指令解码宽度保持与A77和A76相同的4宽。(另一方面,Cortex-X1的解码宽度为5宽,而A13的解码宽度为7宽。)ARM为带宽和准确性以及指令融合情况增加了更大的分支预测。这些体系结构上的改进使单线程性能比A77提高了7%。
通过减少具有较低性能和面积的结构(例如L1-I和L1-D高速缓存),可以使效率最大化。ARM已经优化了现有结构以降低功耗,例如品牌预测结构。ARM表示,与A77相比,这使每mW性能的功率降低4%,每mm2性能的面积减少5%。
A78始终专注于在群集级别保持最佳性能的持续性能。可以将4个Cortex-A77和4个Cortex-A55CPU的DynamIQ集群升级为4个A78内核和4个A55内核。这可以在15%的面积内提供20%的持续性能改进。由于持续的性能提升,需要并行使用多个高性能线程的应用程序(例如高保真游戏)将受益。
ARM指出,A78DynamIQ群集提高了区域效率,使其非常适合可折叠电话以及多个更大的显示器。另一个重点是通过性能和能源改进使智能手机支持5G。5G据说可以为高带宽应用的移动设备提供“更快的速度”,“更低的延迟”和“更快,更普遍的连接”。几年后可能就是这种情况,但是目前,这些好处中的大多数对于最终用户而言并不明显。
总体而言,Cortex-A78是一款坚固的产品。下一代旗舰SoC将整合多个A78内核,以补充具有更高功率和面积要求的单个Cortex-X1内核,并且一些价值导向的SoC甚至会选择完全跳过Cortex-X1。对于中端SoC市场,A78将成为2021SoC的首选CPU内核,并且其对持续性能的关注也受到欢迎。
ARMMali-G78
稍微说一下,ARM的Mali系列GPU并没有像Cortex系列CPU那样成功。苹果的自定义GPU和高通的自定义AdrenoGPU每年都使MaliGPU在性能和能效方面始终保持领先。令人遗憾的是,去年新的Valhall架构和Mali-G77GPU的发布并没有改变它。具有Mali-G77的SoC包括Exynos990和联发科技Dimensity1000L分别。不幸的是,它们两者的执行力均很弱,这意味着它们的GPU性能无法与高通公司的Adreno650GPU竞争,更不用说苹果在A12和A13中处于领先地位的GPU了。马里已经落后了很多年,其改进还不足以改变移动GPU领域的现状。
尽管如此,ARM也不是什么都不乐观。它指出,其合作伙伴每年出货超过10亿个MaliGPU,使Mali成为全球出货量排名第一的GPU。据推测,这个数字只会增加,因为更多不同类型的设备支持图形密集型用例,例如高级移动游戏和XR(VR和AR)。据ARM称,这使Mali成为整个生态系统中用于移动开发的最广泛使用的GPU。
ARM指出,在2019年,它宣布了首款基于Valhall架构的GPU-Mali-G77。到2020年,G77将以同样基于Valhall架构的Mali-G78继任。尽管ARM表示,迄今为止,这是高端移动设备性能最高的GPU,但尽管ARM讽刺地说,这是数字所支持的事实,但数字并未得到支持。至少可以说,G78比G77的性能提高了25%。G77和AppleA13的GPU之间的峰值GPU性能差距很大,这意味着G78将无法赶上A13,更不用说即将推出的AppleA14的GPU。高通公司将继续提高自身性能,从而继续保持领先地位。
在其他GPU上已经可以在移动设备上进行改变游戏规则的图形和全天游戏,因此ARM在这里的营销有些空洞。
据ARM称,Mali-G78的开发考虑了开发人员和最终用户的需求。它现在可以在移动设备上使用控制台游戏来实现高质量的移动游戏体验。G78为高级移动设备带来更长的电池寿命。它还为移动设备上更复杂的游戏,视频,相机,安全ML功能带来了ML性能的进一步提升。
ARM看好手机游戏的前景。2019年,移动游戏占全球游戏市场的46%以上,收入达到682亿美元。它还将在未来几年继续增长,因为它将超过PC和主机游戏。越来越多的高级游戏将出现在移动设备上,与控制台相比,用户希望在移动设备上获得类似的体验。
为了使这些体验成为可能,Mali-G78配备了必要的性能提升。与G77相比,游戏内容的性能密度提高了15%。与上一代产品相同的面积,G78将提供更高的性能。四个关键功能可实现这一提升:
支持多达24个内核
异步顶级
Tiler的改进
改进的片段依赖性跟踪