十年创“芯”，亚马逊云科技为数字化转型提供云端硬件“加速器”

2023-03-20

性能亚马逊科技

延续长达半个世纪的“摩尔定律”，让不少人难免产生这样的错觉：同样的成本，总能不断获得更强的计算资源。事实上，摩尔定律仅仅来自戈登·摩尔在上世纪60年代得出的经验之谈，并非自然定律。随着企业数字化转型的提速，企业对算力性能需求的高涨致使芯片制程不断逼近物理极限，通用型芯片日益高涨的成本让摩尔定律举步维

因此，那些提前预见到“后摩尔时代”的企业纷纷探索可行的技术路线，在确保高质量发展的前提下，维系能促进数字化转型的性能与成本关系。早在十多年前，亚马逊云科技就开始意识到通用芯片在云基础设施中的无效性能和能源损耗等问题，并将注意力转向专为云计算定制的芯片和硬件。基于对云环境复杂性的深刻理解以及底层技术对上层应用影响的深刻洞见，亚马逊云科技走上了自研芯片的创“芯”之路。

“足够好，还远远不够好”

关于开发云计算自研芯片的意义，亚马逊云科技首席技术官Werner Vogels在2022 re:Invent全球大会上表示：“足够好，还远远不够好。”比如，当开发者使用参数强大的GPU来执行机器学习模型从构建到训练、推理的全过程时，由于GPU并未进行过针对不同任务的优化，因此性能损耗往往超出想象，并且开发者还要负担高昂的硬件和能耗成本。

云计算用户必然不断追求更强的算力，但没有用户愿意看到“量价齐升”。为此，亚马逊云科技在本世纪初就开始进行云计算定制硬件的开发，并在2006年推出第一个Amazon Elastic Compute Cloud（Amazon EC2）实例。此后，随着云端业务多样性与复杂性加剧，以及用户对降本增效的需求提升，亚马逊云科技意识到底层技术的定制化创新必然成为云计算高速发展不可或缺的一块拼图。

2013年，亚马逊云科技推出云服务器虚拟化引擎Amazon Nitro系统，由此开始了在云计算底层技术赛道上领跑行业的十年。2015年在收购Annapurna Labs之后，亚马逊云科技自研芯片驶入快车道，到2017年就已开发了多个自研芯片，包括虚拟化系统、云原生处理器和机器学习训练及推理芯片。亚马逊云科技自研芯片助推了Amazon EC2实例数量的快速增长，现在Amazon EC2实例已多达600余种，几乎覆盖了全部操作系统和应用，让数百万客户都能在亚马逊云科技上找到最合适的方案，应对极端的业务需求。

抹平虚拟化的性能损耗

Nitro系列虚拟化定制芯片是亚马逊云科技自主创“芯”的起点。虚拟化作为云计算的“基石”，所占用的计算资源曾一度高达30%，即是说用户所购买算力中有近三分之一成了“门票”而并未获得实质性算力回报。

Nitro诞生的重要目标之一，就是从底层技术上解决虚拟化性能损耗难题。通过定制芯片和独立的模块化设计，让Nitro专门承担云计算系统的所有虚拟化功能，将虚拟化带来的性能损耗控制在1%以下，几乎可以忽略不计，让用户所购买的实例算力能够近乎100%地服务于业务。同时，Nitro的安全芯片为用户提供了硬件级别的安全机制，不但实现了网络、存储隔离的独立安全通道，还在数据传输的所有环节都可以实现硬件级别加密，用户可获得更强的数据安全性。

从2013年到2020年，亚马逊云科技已陆续将Nitro更新至第四代，而且Nitro的升级仍在持续。在去年2022 re:Invent全球大会上，亚马逊云科技又推出了全新的第五代Nitro，进一步提升了数据处理能力并降低延迟。如果将性能上的提升换算成能耗比，第五代 Nitro将每瓦性能提高了40%，从另一个维度给用户带去更高的性价比。

相应地，由第五代 Nitro 支持的新实例Amazon EC2 C7gn也一同发布。在最新一代Nitro的加持下，C7gn与当前一代C6gn相比，具有更强的网络处理能力，这也让C7gn成为所有Amazon EC2网络优化型实例中，能提供最高网络带宽和数据包转发性能的实例。C7gn实例还提高了多达25%的计算性能及多达2倍的加密性能，为用户优化在Amazon EC2上要求最严苛的网络密集型工作负载的成本，并提供更强大的扩展性能。

Amazon EC2 C7gn实例

自研芯片持续升级及规模化应用为用户带来更高性价比

Nitro帮助用户告别了算力损耗，那么用户已到手的这部分算力，又该如何跑赢摩尔定律？

亚马逊云科技首席执行官 Adam Selipsky 曾表示：“如果希望针对所有可能的工作负载彻底变革计算的性价比，还需要彻底重新思考实例。为了实现这个目标，我们需要深入底层技术直达芯片。”最终亚马逊云科技交出的答卷，是基于ARM架构的通用型云原生处理器Graviton。

相比X86架构，Graviton低成本和高核心密度的特性在高计算密度领域更具优势，能耗表现也更佳，但在当时ARM架构并未在基于云计算的企业级应用领域取得突破。采用ARM架构，意味着亚马逊云科技要开拓一个几乎没有用户基础的赛道。

亚马逊云科技在2018年推出首代Graviton处理器，随后在2020年推出Graviton 2并实现规模化应用，开创了ARM处理器企业级应用的标杆。同时，每一代Graviton都保持着大幅度的性能提升，其中2021年宣布推出的Graviton 3相比上一代单核性能提升25％，浮点性能提升2倍，并且由于采用ARM架构，还实现相比x86实例多达60%的能耗下降。

近年来，随着人工智能和自动驾驶等新兴应用对高性能计算优化实例的负载与性价比需求出现倍数级提升，亚马逊云科技在2022 re:Invent全球大会上发布了专门对浮点和向量指令运算进行了优化的Graviton 3E，以及由其提供支持的高性能计算优化实例Hpc7g。Hpc7g相比当前一代Hpc6a实例性能提升达20%，让用户能够在多达数万个内核的高性能计算集群中进行复杂计算，为计算流体动力学、天气模拟、基因组学和分子动力学等高性能计算工作负载提供超高的性价比，进一步解决难度系数持续增加的问题并降低高性能计算工作负载的成本。

为了让用户获得更高性价比，方便用户采用Graviton实例，亚马逊云科技已将20多种托管服务运行在Graviton之上，并且这一数字还在持续增加。这些服务包括用户经常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。托管服务大幅降低了客户将应用迁移到 Graviton的复杂度，时间可以从几天降低到几分钟，而且转移到Graviton实例上即可实现高达40%的性价比提升。

专“芯”应对机器学习各环节

随着机器学习逐渐步入超大模型时代，十亿级参数模型比比皆是，已然成为压榨算力的黑洞。其所消耗的算力与成本也让企业不堪重负。

虽然被广泛应用于机器学习的通用芯片差不多每两年就能实现性能翻倍，但仍然难以跟上训练模型复杂度的提升速度。亚马逊云科技认为，未专门针对机器学习优化的GPU将难以长期胜任云上机器学习任务，唯一的解决方法是通过分布式多处理器，将一个模型通过网络协同计算处理。为此，亚马逊云科技针对机器学习的两个环节，分别推出了用于训练的Amazon Trainium芯片和用于推理的Amazon Inferentia芯片。

2022年10月，亚马逊云科技推出基于Trainium的Amazon EC2 Trn1实例，专为云中高性能模型搭建，最多可搭载16颗Trainium芯片，拥有512GB高带宽内存和800Gbps网络带宽。亚马逊云科技在2022 re:Invent全球大会上，发布了增强的Trn1n实例，网络带宽跃升至1.6Tbps，可将万余个Trainium芯片构建在一个超大规模集群上，实现对超大模型进行并行训练。

亚马逊云科技针对推理的Inferentia芯片则在2018年发布，并在次年推出对应的Amazon EC2 Inf1实例，能够帮助用户实现低延时低成本的推理。亚马逊云科技在2022 re:Invent全球大会上，又发布了新一代推理芯片Inferentia 2及基于此芯片的Amazon EC2 Inf2实例，以应对深度学习模型规模和复杂度的指数级增长。Inf2实例是唯一一个专为大型Transformer模型的分布式推理所构建的实例。与Inf1实例相比，Inf2实例吞吐量提升4倍，延时只有1/10，每瓦性能提升45%。Inf2实例可以运行高达1,750亿参数的大模型，足以胜任诸如GPT-3、Mask R-CNN、ViT等超大型复杂模型。

十年领跑，硬件创新进入加速期

美国计算机科学家、图灵奖获得者Alan Kay曾经说过：“真正认真对待软件的人应该制造自己的硬件。”亚马逊云科技十年创“芯”与这一论断不谋而合，通过长年深耕自研芯片和硬件，在底层技术层面建立起显著的差异化优势。

近年来，定制硬件创新对于云计算的重要性已得到越来越多企业的关注和认可。亚马逊云科技首席技术官Werner Vogels预测“2023年，专用芯片的使用将迅速增加，工作负载利用硬件优化带来最大化性能，同时降低能耗和成本。”这也意味着定制硬件将成为云端算力最可靠的增长引擎之一，帮助用户以更优的成本和性能回报，获得支持企业高质量发展的数字化能力。