继CPU之后,阿里云再次发布了自己的处理器。
作者|赵建
今天,阿里云在线举办了2022阿里云峰会。
不久前,阿里巴巴发布最新财报,阿里云成立13年后首次实现年度盈利,这意味着阿里云将从高增长进入高质量发展阶段。
接下来怎么去阿里云?在本次阿里云峰会上,阿里云智能总裁张建锋给出了答案:今年,阿里云最重要的战略是“B2B”——回归基础,回归云计算本质,坚持技术长征。张建锋认为,云计算已经进入了关键的突破期。“如果定义下一代云,中国的云计算将有机会弯道超车。”
本次阿里云峰会最大的亮点是CIPU(Cloud infra structure Processing Units),这是阿里云为构建“下一代云”而推出的云数据中心专用处理器。云时代,CIPU将取代CPU成为IDC的处理核心。
阿里云的战略概括为“做深基础,做厚平台,做强生态,做好服务”。CIPU的发布可以视为阿里云“深耕基础”战略的延续,也是阿里云自研技术体系的集中展示。
CIPU而不是CPU?
阿里云为什么要推出CIPU?张建锋表示,过去十年,云计算技术的发展经历了两个阶段:
第一阶段,分布式和虚拟化技术取代了大型机和小型机,满足了当时业务扩大带来的计算灵活性需求。第二阶段,出现了资源池技术。通过将计算和存储分离,然后进行大规模的排列和调度,形成了超大规模的计算和存储资源池。
两个阶段都是以CPU为中心的计算架构。然而,随着数据密集型计算的不断增加,传统的以CPU为中心的计算架构逐渐不能满足客户的需求,具体表现如下:
第一,以CPU为中心的架构导致计算和网络传输的延迟时间长;
二是大数据应用增加导致数据中心数据迁移增加,以CPU为中心的架构无法提供高带宽;
第三,管理基础设施的规模越来越大。阿里云在全球27个国家和地区的84个可用区域管理超过百万台服务器,以CPU为中心的架构无法解决超大型的复杂管理问题。
为了解决上述问题,有必要对数据中心的云计算架构进行改革和创新。因此,阿里云已经从以CPU为中心的架构转向以“天妃操作系统CIPU”为中心的架构。
在阿里云的介绍中,将替代CPU成为云时代IDC的处理核心。.是阿里云为新的云数据中心设计的专用处理器,用于加速和控制计算资源
值得一提的是,CIPU更换CPU并不是完全更换。CPU主要承担两个角色,一个是计算逻辑,一个是控制逻辑。CIPU承担大部分控制和少量计算能力,而CPU仍然承担大部分计算能力。
另外,CPU只是计算能力的一个单位,还有GPU、异构芯片等相关计算能力,需要额外的调动和协调,这就需要CIPU的能力。
一般来说,CIPU向下接入物理计算、存储、网络资源,快速云化,加速硬件;向上接入天妃云操作系统,掌控阿里云全球数百万台服务器。
在存储方面,通过全硬件虚拟化和转发加速,存储延迟可低至30us(PLX),IOPS可高达300万,存储带宽可达200 Gbps,完全超越市面上所有云产品。云端可以提供比本地更安全、可靠、高性能的存储能力;
网络方面,基础带宽从100G升级到200G,VPC的PPS转发性能从2000万提升到4000万,网络时延从22us降低到16us,在RDMA协议下甚至可以低至5.5us。云应用后,集群吞吐量比自建物理机提升30%,高峰业务时延下降90%;
在计算方面,单个容器虚拟化的消耗降低50%,虚拟化容器的启动速度快350%。在主流计算场景下,Nginx性能提升89%,Redis性能提升68%,MySQL性能提升60%。在大数据和AI场景下,AI深度学习场景的训练性能提升30%,Spark的计算性能提升30%。同时,DPCA计算平台可以提前预测80%的硬件故障,避免非热迁移,从而实现业界领先的高可用性SLA。
CIPU是阿里云自主研发的技术。
术体系的一环。过去13年,阿里云自主研发了飞天云操作系统,并构建出自研芯片、服务器、计算、存储、网络等软硬一体的新型计算体系架构。会后,阿里云技术产品负责人蒋江伟(小邪)、阿里云基础产品首席架构师黄瑞瑞、阿里云虚拟化技术负责人蒋林泉(雁杨)三人与媒体进行了对话,「甲子光年」整理了部分关于CIPU的问题略作编辑如下:
媒体:阿里云去年推出自研的CPU倚天710,现在又推出了CIPU,阿里云自研的芯片之间是什么关系?
蒋江伟:它不是一个替代关系。对于单个计算节点里面,本身还是CPU在工作。
倚天其实是一个ARM架构,英特尔、AMD是X86架构,不同的客户可能会因为workload(工作量)不一样,而选择不同的架构。比如有一些手机应用厂商,他为了更好适应大部分手机里面基于ARM架构的芯片,在研发过程中会选择ARM架构的芯片,倚天也是为此而生。
但是CIPU是一个大数据中心、大云计算的控制器的概念,是一个算力加速的概念,这是完全两个不同的概念。
媒体:亚马逊、英特尔这些厂商都在对定制管理数据中心的软硬件。亚马逊有Nitro、英特尔IPU,阿里云的CIPU和这些厂商的产品有哪些相同点和差异点?
蒋林泉:我们先谈两个面:一是行业在做的东西,二是供应商做的事情。
英特尔、英伟达是供应商,阿里云是云服务商,我们之间不是对手关系。阿里云CIPU是用顶层的云飞天操作系统,根据垂直业务驱动向下定义芯片。所以CIPU能精准解决掉云操作系统关于管理、控制、调度的问题,以及部分核心业务加速的问题。它是为云而生,这是最大的一个区别。
至于说AWS,阿里云跟AWS其实都迈入到了类似的一个新阶段,区别只是我们在不同的市场里面,看到的风景不太一样。国内云计算的企业客户和海外用了30年的成熟企业客户还是有差异的,比如说在国内阿里云要更普惠地服务中小客户,就需要在高性能的情况下,保证非常大规模、高可用的稳定性。这驱动我们的技术路径有所不一样。
媒体:目前有哪些企业客户使用了通过CIPU管理的数据中心?客户选择这个解决方案的原因是什么?取得了什么样的效益?是否需要更高的成本?
黄瑞瑞:其实CIPU+飞天已经融入到整体的云平台,客户看到的其实就是云上的一个池化的统一管控的算力资源。当客户取用它的时候,就会发现:第一有更好的性价比;第二,应用不需要做任何的调整,本身性能就会更高。所以从这个视角来讲,并不会因为我们有了CIPU这个品列或者说这个硬件,而造成成本的增加。
媒体:CIPU是有一个流片的芯片,比如说我们最直观看到它是多少核、采用什么指令级、它是什么制程,还是它更偏向架构领域的协同、虚拟算法的存在?
蒋林泉:其实分两方面的技术:一是飞天纯芯片部分,也就是流片出来的芯片,有可能是ASIC的芯片,或者FPGA的技术,背后其实是芯片化的。二是和专用芯片协作,还有一块小的CPU,这个时候小的CPU已经变成纯控制器,会跟我们刚才说的专用芯片协同起来,组成一个体系,这两个构建出了CIPU的内核。
在物理形态上,CIPU最初其实是放在一个服务器上,以一张卡的形式存在,为了解决智能网卡所不能解决的问题。但是这一代及后面,除了专用芯片+控制器为主核的内核,它的外围硬件可能有各式各样的变化,无论是卡还是box。但是它的位置是不会变的,就是基于飞天操作系统和云IDC、云数据中心各种硬件的中心的位置。
媒体:它的散热的功能能耗能介绍一下吗?还有它是多少纳米的制程?
蒋江伟:整个制程相关的,我们都是保密的。但是对于功耗来讲,其实也是看规格,就是说我们如果对于卸载非常大的一些场景,它功耗会高;但如果是纯控制的场景,其实它功耗会非常低。