深圳幻海软件技术有限公司 欢迎您!

应对“算力井喷+全球布局”挑战,亚马逊云科技创新不止

2023-09-05

展望今天的世界,我们看到的是前所未有的挑战,只有专注创新才能发现更多的增长机会。云服务是支持创新的关键生产力,亚马逊云科技也从未停止过创新。在近日举办的2023亚马逊云科技中国峰会上,亚马逊云科技大中华区产品部总经理陈晓建表示,现今创新至关重要,而云技术能更快、更高效地帮助企业创新,亚马逊云科技广泛

展望今天的世界,我们看到是前所未有的挑战,只有专注创新才能发现更多的增长机会。云服务是支持创新的关键生产力,亚马逊云科技也从未停止过创新。

在近日举办的 2023 亚马逊云科技中国峰会上,亚马逊云科技大中华区产品部总经理陈晓建表示,现今创新至关重要,而云技术能更快、更高效地帮助企业创新,亚马逊云科技广泛和深入的服务可以帮助客户专注于创新,摆脱基础架构的束缚。“我想,这应该是亚马逊云科技能为您、为您的企业所提供的最大价值所在。”

算力资源井喷下的创新

生成式 AI 的热潮,也让亚马逊云科技看到越来越多的新机会。陈晓建表示,生成式 AI 是目前最为关注的创新技术,AI 技术的爆发也直接推动了对算力需求的增长。

为此,亚马逊云科技多方面布局,帮助企业应对各种算力需求。首先,亚马逊云科技通过自研芯片,提供更高的性价比,同时,亚马逊云科技也支持不同芯片品牌,包括 Intel、AMD和英伟达,让用户可以自由选择适合自己业务的芯片产品;第二,亚马逊提供各种丰富的计算实例、网络、存储等不同产品的组合,提供高度灵活的组合式方案,通过弹性的资源帮助企业应对突发算力的需求;第三,亚马逊云科技通过提供 Serverless 相关技术和产品,有效降低运维的复杂性和成本,帮助企业更快更敏捷地应对业务创新需求。

图片

丰富的自研芯片产品
加速创新的基座:第一款自研芯片 Amazon Nitro

2006 年,亚马逊云科技发布了第一款 Amazon EC2 计算实例,如今亚马逊云科技已经有600 多种实例,可以支撑不同硬件、操作系统、计算平台,满足用户的算力需求。2017 年,亚马逊云科技推出的计算实例的速度逐渐加快,这也是得益于亚马逊自研的 Amazon Nitro 系统。

陈晓建介绍说,Amazon Nitro 实现了三大改变,第一,作为高度轻量化的虚拟化,彻底改变了对虚拟化基础设施的设想;第二,实现网络层面的数据通信和存储的隔离;第三,实现了硬件级别的加密。有了 Amazon Nitro 之后,Amazon EC2 整个实例应用的安全性极大增强,每个单元可以独立发展,同时也确保了 Amazon EC2 所有实例运行的稳定Amazon Nitro 让亚马逊云科技能够加快创新速度、进一步降低客户成本并提供更多优势。

如今,最新一代 Amazon Nitro V5 芯片相比之前的芯片性能有大幅的提升,拥有更快的转发率,更低的延迟,并且每瓦功耗上节省 40%。

云原生处理器:基于 ARM 架构的通用处理芯片 Amazon Graviton

亚马逊云科技自研了基于 ARM 架构的通用处理器芯片 Amazon Graviton。基于 ARM 架构的通用处理器 Graviton3,相比之前的 Graviton2,计算性能提高多达 25%,浮点性能提高多达 2 倍,加密工作负载性能最多加快 2 倍;而去年新推出的 Graviton 3E 特别关注的是向量计算的性能,与上一代相比提升了 35%,这项性能提升对于高性能计算 HPC 的应用尤为重要。

Gravtion3 相比,Gravtion3E HPL(线性代数的测量工具)上 Graviton 性能提升 35%,在 GROMACS(分子运动)上性能提升 12%,在金融期权定价的工作负载上性能提升 30%,和类似 X86的 EC2 实例相比,整个功耗可以降低 60%。

F1 一级方程式赛车,通过使用 Graviton 运行空气动力学模拟,开发新一代赛车的速度较过去提升了 70%,赛车压力损失从50% 降低到 15%,为赛车手提供了更高的超车机会。此外,F1 还在探索机器学习在模拟过程中的应用,通过 5000 多次单车和多车模拟收集了超过 5.5 亿个数据点,为组织提供了全新洞察。

超大集群超能算力:机器学习训练芯片 Amazon Trainium

在训练过程当中最重要的指标往往就是训练效率和性价比,亚马逊云科技以 HuggingFace BERT 模型作为案例,基于 Amazon Trainium Trn1 实例和通用的GPU实例相比,在训练的吞吐率方面,单节点的吞吐率可以提升 1.2 倍,而多节点集群的吞吐率可以提升 1.5 倍,从成本考虑,单节点成本可以降低 1.8 倍,集群的成本更是降低了 2.3 倍。

随着模型越来越复杂,很多时候靠一个单点的计算训练是无法满足用户需求,因此,用户需要一个分布式训练,特别是需要一个非常大规模的集群。基于 Amazon Trainium,亚马逊云科技构建一个 EC2 UltraCluster 超大集群,由 3 万张的 Amazon Trainium 芯片构成一个超大集群,使用户可以获得云上 6 ExaFlops 的训练超算能力。

陈晓建介绍道,这个背后涉及多方面的创新,一方面是 EFA 创新型网络,以及 PB 级别的无阻塞网络互联。另一方面是由于 Amazon Trainium 本身是低功耗的芯片,使得构建 3 万张芯片的超大集群也成为可能。

吞吐率与延迟的权衡:机器学习推理芯片 Amazon Inferentia

2019 年,亚马逊云科技推出了第一代用于机器学习的推理芯片 Amazon Inferentia所对应的实例Inf1 和同样基于通用 GPU EC2 实例相比,带来了 70% 成本的降低并且获得了广泛的应用,包括像 Airbnb,Snap,OPPO 小布语音助手等诸多客户的青睐。

推理往往需要考虑吞吐率和延迟,用户肯定希望有更高的吞吐率,从而获得更优的性价比。但是如果要达到一个更高的吞吐率,可能就会带来延迟的提升,从而造成用户体验的下降,因此,开发者往往要在吞吐率和延迟之间的权衡,Amazon Inferentia 在设计之初就考虑到吞吐率和延迟的优化,使得用户两者可以兼得。

2022 年,亚马逊云科技推出了第二代推理芯片 Amazon Inferentia2,进一步提升了 4 倍吞吐量,延迟只是之前的 1/10。通过优化,第二代 Amazon Inferentia 可以大规模部署复杂的模型,例如大型语言模型(LLM)和 Diffusion 类模型。亚马逊云科技以自然语言常见的 BERT 模型举例,Amazon Inferentia2 的吞吐可以提升三倍,延迟降低了 8.1 倍,而成本只是通用 GPU 实例的 1/4。

Amazon Trainium 和 Amazon Inferentia 芯片为训练模型和运行推理提供了最低的成本。因此,许多领先的生成式 AI 初创公司,例如 AI21 Labs、Hugging Face、Runway 和 Stability AI 都采用了 Amazon Trainium Amazon Inferentia 来作为他们研发和应用的平台。

积木式弹性计算存储组合,满足多种算力需求

生成式 AI 需求非常多样,用户需要高性价比的硬件方案,同时也需要高度弹性化的伸缩。亚马逊云科技提供 600 多种不同的计算实例,从处理器、网络、存储各种周边的服务能够与计算很好结合,以积木的方式形成丰富灵活的计算实例资源,满足多种不同算力的要求。

陈晓建指出,当数据规模达到 PB 级别时,数据存储方式就变得非常重要。用户的数据存储是多种多样的,通常可以把它分为热、温、冷、冻四种类型,不同类型的数据存储成本有很大差别,数据存储的性能也有很大差别,因此数据的成本和性能之间的平衡非常重要。

图片

为此,亚马逊云科技提供了 8 种存储级别的对象存储 Amazon S3 方案,无论是高性能计算还是机器学习,抑或是通用计算,用户都可以根据自己的需求找到最适合自己的存储级别。此外,亚马逊云科技也提供了智能分层,如果用户不清楚应该属于哪个层级,亚马逊科技也会通过应用访问模式自动帮助用户选择一个最适合的存储层级。

亚马逊云科技为综合性视觉效果公司维塔数码提供了从基础架构算力资源到云上制作堆栈、机器学习堆栈的一系列服务。维塔数码使用了包括 GPU 在内的大量计算实例,Spot 实例还为其提供了非常强的伸缩性以及很好的性价比。维塔数码表示:“《阿凡达 1》花了 14个月看到了第一帧,《阿凡达 2》在八个月内我们在云中拥有了 33 亿个线程小时。”

利用Serverless 降低云的使用门槛

有多种多样的芯片和高伸缩性的资源供给是不是就够了呢?用户还希望能降低云运维的复杂性,亚马逊云科技为用户提供了第三种武器 Serverless。

据了解,自从 2014 年发布 Lambda 以来,亚马逊云科技已经相继发布了 105 Serverless 新技术,包括解决 Java 应用冷启动的问题的 Amazon Lambda SnapStart,可视化编辑器 Amazon Application Composer 等,用户可以根据自己的应用类型来灵活选择不同颗粒度的产品。此外,亚马逊云科技已经实现了全栈数据服务的 Serverless 化,开启了Serverless 新时代,让客户无需预置或管理基础设施,就可以运行几乎任何类型的应用程序,帮助客户最大限度减轻运维工作,并增加业务敏捷性。

图片

《MARVEL SNAP》是一款基于漫威 IP 的数字卡牌游戏,由 Second Dinner 来开发。该游戏在去年 10 月推出以来广受用户好评,拥有全球超过数百万的客户,并且获得了年度手机游戏大奖。据了解,Second Dinner 全面采用了亚马逊云科技的 Serverless 架构来开发、构建和运行该游戏。整个游戏没有使用任何一台 EC2 计算实例或容器,完全由事件驱动架构实现,这不仅帮助用户节省了成本,加快了应用开发速度,也减少了安全方面隐患。亚马逊云科技将整个 Serverless 后台的架构实现了从功能、安全和资源供给等方面的完整管理,最终 Marvel Snap 在启动的时候没有一个后台错误,这在游戏行业是闻所未闻的。

全球业务布局的创新

如今,很多中国企业业务的发展逐渐从国内走到海外,有越来越多的中国企业在全球大展拳脚。陈晓建认为,2023 年是中国企业出海的一个分水岭,如果说在过去十年很多中国企业的出海是专注于投资和发展,未来十年会有更多的企业专注于打造全球化的跨国公司。打造全球化的企业对于整个 IT 架构提出了更高的要求,企业不光需要覆盖全球遍地可及的云服务,也需要能够快速进行部署高可用的服务,当然还需要符合全球各国和各地区合法合规的前提下开展业务。

为此,亚马逊云科技提供全球无处不在的云服务、快速部署的高效能力,以及符合各国和各地区合法合规的要求帮助企业加速全球布局,加速业务创新。

提供全球算力,让创新快速抵达需要的地方

如今,亚马逊云科技在全球拥有 31 个区域,99 个可用区,已经覆盖了 245 个国家和地区,但是亚马逊云科技没有停止,还在持续拓展全球的基础设施,在这些可用区背后是亚马逊云科技所构建的骨干网,这个全球骨干网是有史以来最大规模的专门构建的骨干网之一。

图片

如果企业有低延迟、本地数据处理的需求,或者由于合法合规要求需要数据保存在自己的数据中心,亚马逊云科技可以提供多样的产品,包括 Local Zones、Wavelength、Outposts、IoT、Snow Family ,来解决用户多元化网络需求。陈晓建指出,“这些产品可以将亚马逊云科技的基础架构扩展到几乎任何数据中心或本地设施,更重要的是他们提供了完全一致的混合体验。”

OPPO 手机业务遍布全球,有上百个云上的 VPC 和多个本地资源需要相互连接,每个国家又有不同的合法合规的要求,这增加了全网的组网难度,OPPO 希望全球业务独立运作、区域合规自治,同时又有统一的管理。在使用亚马逊云科技的 Cloud WAN 广域网服务后,OPPO 可通过本地网络提供商连接到亚马逊云科技,通过中央控制面板和网络策略在分钟就可以建立起一个覆盖全球的自己的专用网。借助完整的网络视图,OPPO 可以直观地了解整个网络的运行状况、安全和性能。

资本交易市场对于网络的可靠性和网络的延迟要求是非常高的,因此对于基础架构有着非常严苛的要求。Nasdaq 选用了亚马逊云科技的 Outposts,在位于新泽西州 Carteret 数据中心部署了业界第一个 Private Amazon Local Zone,通过 Private Amazon Local Zone 就近的部署,Nasdaq 可以最大限度保证整个网络超低的延迟,为资本市场的扩张提供了有力的保障。

此外,亚马逊云科技的技术已经可以在太空这样极端环境下收集和处理数据,并且可以做出实时的决策。随着近地轨道的发射和成本不断下降,亚马逊云科技有更多的机会突破环境限制,在太空进行实验。Amazon Snowcone 是专门支持边缘计算工作所设计的边缘设备,所有的工作负载都会经过多层加密的保护,数据在搜集之后可以本地处理之后上传到云端进行进一步的处理。Axiom 通过使用亚马逊云科技 SnowCone 支持太空的实验,环绕了地球进行了 240 次旅行。

快速部署稳定系统的能力,让创新更放心

亚马逊云科技 CTO Werner Vogels 曾说过,“Everything fails, all the time”。所有的功能模块都有可能出现故障,亚马逊云科技也不能完全避免故障的发生,但是通过努力,亚马逊云科技可以将风险降到最低。

首先,亚马逊云科技的每个区域都会有多个可用区,任何单一可用区的故障不会影响到其他可用区的业务,最大限度防止服务中断的发生

第二,解耦控制面与数据面的做法,更多地依靠数据面来保持服务运行、降低对控制面的依赖,能够提高整体稳定性。

第三,蜂窝架构则是一种从船舶设计中借鉴的技术。它把系统分割成多个微小的、单一的、相互之间隔离的蜂窝状单元,能够在问题出现时降低爆炸半径,通过爆炸半径能够把故障控制在一个单元以内。亚马逊云科技的大部分服务也都采用同样的设计,从而能够降低故障发生时对系统整体的影响。

第四,随机分片就是对蜂窝架构的进一步优化。它把客户的访问随机分配到不同的单元中,在任何一个单元出问题的时候,由于采用蜂窝的设计方式,单元爆炸半径是有限的,不会对系统造成大的影响此外,客户的请求是通过随机的方式分配到不同单元,因此单个单元的故障并不会对整个系统造成影响,可以通过其他的单元可以完成目前,随机分配的思路在越来越多亚马逊云科技服务中被证明具有强大的适用性,比如 Amazon Route 53典型采用随机分片的产品。

第五,亚马逊云科技设置了服务责任模型,通过明确定义亚马逊云科技与客户责任区间的方式,保障客户在应用的任何阶段都能享有对所写代码和程序的控制权。

第六,运营就绪审查通过对亚马逊云科技大量运营案例进行分析,对过往的问题进行复盘,从而在整个部署时能够避免重现用户之前所发生的问题。

第七,亚马逊云科技致力于发展安全的持续部署,可以最大限度减少因错误部署而对生产造成的影响。

第八,亚马逊云科技还有一个 COE 纠错流程,可以了解问题发生时系统状态避免类似的错误再次发生。

支持全球业务合规,保障业务出海

亚马逊云科技几乎满足全球所有国家和地区的合规性要求,最大程度确保企业的创新业务在全球范围内安全、合规的。

亚马逊云科技拥有 50 多项服务符合 CISPE 准则,还有云原生敏感数据保护解决方案,可以帮助用户更好发现和管理在亚马逊云科技上面的敏感数据,从而满足个人数据保护法的要求。

安全是实现合规的一种方式,亚马逊云科技也一直在高度致力于建设各种高度安全的云计算环境,亚马逊云科技拥有超过 300 种安全合规和治理服务,帮助各行各业的客户能够更方便搭建满足全球各地安全和合规要求的架构。

对于全球布局,亚马逊云科技提供从中心到边缘的多种产品的解决方案,包括覆盖全球的基础架构,以及快速部署稳定系统的能力,还有全面支持全球各个国家和地区业务合规能力,这些能力都将成为用户创造坚实底层架构的基石。

亚马逊云科技一直在创新的路上不断前行通过不断优化和升级其产品和服务,帮助企业更好地实现数字化转型,推动业务创新。相信在未来,亚马逊云科技还将继续发挥自身优势和技术实力,为全球企业带来更多惊喜和价值!