在云厂商自研芯片的浪潮中,亚马逊云科技无疑是最早践行这一趋势的先驱。自其迈出自研芯片的第一步起,便如同一颗石子投入平静的湖面,激起了层层涟漪,引领着云服务和云上算力向着更高性能、更低成本的方向演进。
早在2012年,自研Amazon Nitro系统的计划已经开启。目前亚马逊云科技已推出四大自研芯片产品家族:六代Amazon Nitro系统、四代通用处理器芯片Amazon Graviton、两代机器学习训练芯片Amazon Trainium和两代机器学习推理芯片Amazon Inferentia。
自2018 re:Invent 上推出第一代芯片以来,Amazon Graviton家族已经历了四代迭代。在企业降本增效的大趋势下,基于Amazon Graviton的Amazon EC2实例以及托管服务正成为越来越多客户的选择。
目前,亚马逊云科技基于Amazon Graviton的Amazon EC2实例种类达150多个,在全球已经部署的的Amazon Graviton处理器数量超过200万个,并拥有超过50,000客户,其中也涵盖了Amazon EC2前100客户90%以上。
今天我们就来看看Amazon Graviton在性能、商业落地方面的最新进展。
很多人可能好奇,作为云计算开创者的亚马逊云科技为什么要自己做芯片?我们可以从一个侧面探寻其动因。
在2022年的亚马逊云科技芯片创新日(Silicon Innovation Day)活动上,亚马逊高级副总裁兼杰出工程师James Hamilton回顾了亚马逊云科技自2012年开始的自研芯片历程。
Hamilton 表示,“最终,单台服务器的核心功能将集成为一个芯片系统。如果服务器上所有的创新将全部集中在芯片上。而我们不制造芯片,那么我们就没有创新。”
Hamilton强调了亚马逊云科技将继续加大在硬件研发方面的投入,推动下一代处理器的创新,以满足全球客户日益增长的需求。他坚信,随着技术的不断发展,亚马逊云科技将继续保持在云计算和硬件设计的前沿,引领行业走向更加高效、智能的未来。
回到Amazon Graviton,经过5年多的迭代,这一系列通用处理器芯片已经在技术、场景、商业各方面展现出日趋成熟的表现。
技术成熟:性能提升功耗下降无止尽
很多人不知道的是,在云计算厂商的身份外,亚马逊云科技自主完成所有自研芯片的开发工作,所有芯片均由Annapurna Labs团队设计和制造。
Annapurna Labs是亚马逊云科技于2015年收购的半导体微电子公司。早在收购之前,双方就在Nitro系统的开发方面紧密合作。对Annapurna Labs的收购加速了Nitro系统的开发,并加强了亚马逊云科技在硬件领域的创新实力。
目前,Annapurna Labs团队成员分布在全球多个地点,包括以色列的特拉维夫、加拿大的多伦多,以及德克萨斯州奥斯汀的实验室。
“我们的宗旨是为客户提供更多选择、更低成本和更高性能。” Annapurna Labs芯片工程总监Rami Sinno表示。“通过自主完成所有芯片的开发,避免依赖第三方,我们能够加速产品的交付进程。”
亚马逊云科技首席工程师Ali Saidi负责Amazon Graviton系列处理器的技术开发
负责Amazon Graviton技术开发的亚马逊云科技首席工程师Ali Saidi及其团队在Graviton系列的设计、制造和包装方面不断创新。譬如,在Graviton3中,研发团队将七个小型定制晶片和约550亿个晶体管整合到一个中央处理器(CPU)中。
围绕更佳性价比这一目标,每一代的Amazon Graviton都会比上一代有两位数的性能提升,且实现单位算力功耗的持续下降。譬如:
2021年推出的Amazon Graviton3,单核性能比Amazon Graviton2提升25%,浮点性能提升2倍,与同类型其他Amazon EC2实例相比,可节省60%的能源消耗。同时还首次在云计算芯片中采用性能更强、功耗更低的DDR5内存。
2023年推出的Amazon Graviton4较上一代产品性能提升高达30%,独立核心增加50%以上,内存带宽提升75%以上。
此外,通过Amazon Graviton4,亚马逊云科技实现首次面向实际应用设计CPU架构,即从传统的MicroBenchmark基准测试评价体系,转向以实际工作负载进行评价标准。通过真实工作负载雷达图,可以更好地衡量实际工作负载的优化效果。
场景成熟:支撑广泛的应用场景
历经四代产品迭代,目前Amazon Graviton支持广泛的应用场景,包括高性能计算、机器学习、人工智能、容器化应用构建、数据分析等等。比如:
在机器学习领域,Amazon Graviton在运行TensorFlow、PyTorch等深度学习框架时有出色表现,适合模型训练和推理任务,尤其在需要大量数据处理和矩阵计算的场景下。
在容器化应用构建领域,Amazon Graviton对多种容器编排工具(如ECS、EKS、Kubernetes等)和镜像仓库(如ECR、Docker Hub等)的支持,方便用户在Amazon Graviton上部署和管理容器化应用,适合微服务架构和DevOps环境。
在数据分析领域,Amazon Graviton可以在EMR、Spark等大数据分析框架上运行,支持批处理和流式数据分析等场景,适合实时数据分析和处理大规模数据集。流行的Spark框架在Graviton3上可以获得16.7%的成本节约。
亚马逊自身也是Amazon Graviton芯片的典型用户之一。2021年Prime Day期间,亚马逊首次使用Amazon Graviton2支持的Amazon EC2实例。2024年Prime-Day期间,亚马逊使用了超过25万个Graviton芯片为超过5800种不同的亚马逊电商服务提供支持。
商业成熟:新实例中“三分天下有其一”
第三方数据显示,在2023年推出的M7g系列实例中,采用Amazon Graviton的实例已经与英特尔、AMD三分天下,这进一步验证了Graviton芯片在通用实例中的受欢迎程度。
根据云成本管理和优化平台Vantage的一项调查,2024第一季度,在Amazon EC2 M7系列通用实例的成本支出方面,采用Graviton的M7g系列已经超过三分之一(34.5%)。
2024年第二季度,在Amazon RDS、Amazon ElastiCache和Amazon OpenSearch托管服务中,客户选择使用基于Amazon Graviton已超越了英特尔,越来越多客户选择基于Graviton的托管服务。
由于Amazon Graviton系列芯片对性价比的不断提升和广泛的应用场景,其也深受中国企业的青睐。
比如,全球领先IoT云平台涂鸦智能已经将整个公司40%以上的工作负载迁移到Amazon EC2 M6g和C6g新一代实例。跟上一代同配置的X86实例相比,CPU性能提升了100%,服务器单价降低20%,整体性价比提升2.5倍。
加速出海的互联网科技公司大宇无限通过使用 Amazon EMR on EKS,以及亚马逊云科技基于 ARM 架构的 Graviton2 实例,将运行大数据作业的整体性能提升了 30%,成本降低了 20%。
如今,亚马逊云科技的自研芯片之路已经走过十余年。透过已经全面成熟的Amazon Graviton系列芯片,亚马逊云科技实现深度整合硬件与软件,不仅大幅提升了云服务的体验与效率,更为全球用户带来了前所未有的云端算力性价比,开启了云计算领域的新篇章。
本文为「智能进化论」原创作品。