加入收藏 | 设为首页 | 会员中心 | 我要投稿 南平站长网 (https://www.0599zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 服务器 > 系统 > 正文

从阿里云 CIPU 看新一代云计算架构体系

发布时间:2022-10-17 04:01:19 所属栏目:系统 来源:互联网
导读: CSDN 特约撰稿人 | 文钊
6 月 13 日,阿里云发布新一代云数据中心处理器 CIPU(Cloud infrastructure Processing Units ),这是为新型云数据中心设计的专用处理器,未来将替代 CPU 成为云

CSDN 特约撰稿人 | 文钊

6 月 13 日,阿里云发布新一代云数据中心处理器 CIPU(Cloud infrastructure Processing Units ),这是为新型云数据中心设计的专用处理器,未来将替代 CPU 成为云计算的管控和加速中心,它被业内人士认为是一款定义下一代云计算标准的开创性产品。

传统架构与云架构区别_云系统架构_720云系统架构

近 20 年随着互联网,大数据、云计算、物联网的发展,数据中心计算架构经历了快速的演变过程,新兴的互联网、云计算公司逐渐成长为行业巨头,代替了传统的 OEM 厂商,成为数据中心领域话语权的主导者,引领着行业的产品和技术不断进步。其中,以 AWS、Azure、阿里云这 3A 为代表的云计算公司又是其中最重要的推手,几乎每一项技术变革背后都有这几家公司的影子。在笔者看来云系统架构,数据中心的计算架构至少经历了三个大的阶段。

阶段一:数据中心传统模式到云计算

2006 年 AWS 发布了 EC2 和 S3 两款产品,是目前业界公认的云计算大幕拉开的标志性事件。随后的 2009 年,阿里云、Azure 也在看到了云计算的潜力后相继入局。在那个年代,Intel CPU 通过 VT-x 技术实现了 CPU 和内存的硬件虚拟化,通过 VT-d 以及 PCIe SR-IOV 等技术实现了 IO 接口的虚拟化。彼时,AWS 的底层虚拟化技术还是用的开源的 Xen,一台主流的 2 路服务器还只有 16 个 HT core。而这一发展就是近十年的时间。

随着 4G 网络的发展,互联网公司遍地开花,云计算公司的业务扶摇直上。而随着服务器上的客户越来越多,跑的 workload 越来越丰富,也让云计算公司从其客户的使用中不断吸取经验,打磨自己的产品,最终的目标都是让计算的产品朝着物理机的性能、安全方向演进,为用户上云创造良好环境。

在计算能力上,AWS、Azure、阿里云等公司结合云上用户的负载和需求,从 2015 年开始陆续针对数据中心的 CPU 做一系列定制,如为了满足高性能客户更大规格实例能力的要求,AWS C4 定制了 10 核心的 "haswell-ep"XeonE5-2666 v3 处理器,对比标准的高主频 CPU 型号高了 25% 的能力。

在网络能力上,2013 年 AWS 的 C3 实例通过虚拟网络直通 VM ( SR-IOV ) 支持 Enhanced Network 使得带宽提升 20%,时延降低 50%。

由于此时的虚拟化还跑在主机上,因此需要一部分的 CPU 和内存资源去运行传统的 "Dom0", 因此我们会发现 AWS 的 C4、R4 等 haswell、broadwell 实例都存在 4c/12G、8c/24G 不等的资源无法被售卖,这个就是我们所谓的数据中心税,在那个 CPU 核心数还较少的年代,动辄 10%-30% 的资源无法被售卖,是一个巨大的成本浪费。

阶段二:解决数据中心税的问题,性能军备竞赛

随着客户对性能要求的提升以及网络(10G->25G)、存储能力的发展,网络 vswitch 和存储越发成为云计算场景 CPU 资源消耗的两类后台工作任务。在传统模式下,网络和存储的性能非常依赖于主机侧 CPU 的性能,而在 2014-2020 年期间,实际上摩尔定律的发展受到了非常大的挑战,CPU 核心数增长缓慢,IPC 提升也有限,想要推动网络和存储性能的提升仅仅依靠主机侧 CPU 更多的核数、更高的频率,代价过于巨大——可售卖 CPU 资源减少,由于频率带来的发热和功耗增长带来的额外 Opex(运营支出)成本都难以让人接受。在此过程中 Intel 甚至想到了一些从 CPU 层面的解决方案,如允许部分 CPU 跑在更高的 P1 频率和 Turbo 频率的技术,但终究不是令人满意的解决方案。

于是各家都在寻求一些更好的解决方案:

2017 年 10 月的云栖大会上,阿里云发布了 " 神龙 " 架构,基于 CPU+FPGA 方案,从支持裸金属的虚拟化,做到性能超越物理机的裸金属服务器;再到第二代神龙做到了 " 一套软硬件,三种服务(裸金属服务器 + 虚拟机服务 + 容器)",解决了虚拟机和裸金属分池的问题,性能层面也实现了 " 虚拟机性能接近裸金属 ";之后的第三代、第四代做到了 24M、50M 的 PPS 能力,在解决了数据中心税的同时,实现了性能的大幅飞跃。

传统架构与云架构区别_720云系统架构_云系统架构

一个月后,AWS 推出了 Nitro 系统。基于 AWS 收购的 Annapurna 公司研发的 Arm 架构的 AL72400 芯片,做成将网络和存储 offload 的 Nitro VPC 卡和 Nitro EBS 卡,以及本地存储的 InstanceStorage 卡。正是 Nitro 架构改变了服务器硬件的主从关系,当所有的 Dom0 全部 Offload 到网卡之后,主处理逻辑全部在智能网卡,主从的关系也需要发生逆转。因此,智能网卡变成了主管理节点,而服务器上的其他部件变成了从服务节点。

AWS 的 C5 实例就提到 " 新的 EC2 虚拟化引擎将提供更加平稳的性能和更强的计算能力和内存能力,因为它移除了主机的系统软件组件(host system software components)。如此,我们的 C5 实例可以提供一些超大的版本(如 c5.x18xlarge),这基本上整台主机的资源用户都可以用上了。之前的 C3 和 C4 实例已经做了一些软件组件的移除,把 VPC 和 EBS 功能转移到了 AWS 自己设计的硬件上。现在,这个硬件可以让虚拟化引擎以最小化的体积运行,因为它不需要去处理网络和存储的数据处理任务。" 至此,AWS 的数据中心税问题解决了,但性能只有 3M PPS,之后推出的基于 16c Arm A72 架构的 100G Nitro 网卡进一步支持 EFA 实现更低时延、更高可靠性以及 3 倍 PPS 性能提升,性能的问题也基本上得到了解决。

微软的 Azure 也看到类似的问题,考虑到可编程性、性能和效率的权衡,他们使用了基于 FPGA 的自定义 Azure SmartNIC 将主机网络卸载到硬件的解决方案。但也仅仅是网络的卸载和加速,存储和管控面看上去还是跑在主机侧,最新的基于 Intel Icelake 的实例 EDv5 系列 E104id v5 104c/672G 内存,数字上来看还有至少 24c 的额外资源占用。

随着阿里云神龙架构、AWS Nitro 的引领,京东、腾讯、字节等公司也采用了类似的架构构建自己的公共云计算服务,数据中心计算架构的中心开始向智能网卡倾斜。

有趣的是,在笔者所在的服务器架构领域也深刻地受到此趋势的影响——由于网卡的能力越来越强(以及各种 PCIe IO 设备的广泛应用),传统的服务器后出线的架构难以高效地对位于服务器后端的网卡设备散热,阿里巴巴的自研服务器首先推动了业界大量从后出线到前出线的架构演变,实现了更高的散热效率,铺平了演进到 100G 以及未来更高带宽网络的路。国内其他互联网公司的服务器架构也陆续转向了前出线架构。

阶段三:用户需求的多样化,

驱动了 CIPU 为中心的新一代计算体系诞生

随着技术的演进,用户需求日趋多样化。AMD 的数据中心芯片、Arm 架构的数据中心芯片等都给用户带来了更多的选择;异构加速芯片也百花齐放,FPGA 产品,推理芯片,训练芯片,视频编解码芯片等等;存储上,local SSD 用于 cache,用于高性能数据库应用、系统的可信和安全、加解密能力等等。

将所有的需求都通过云的方式对外呈现,呼唤新一代计算体系的诞生。

刚刚召开的云峰会上,阿里云发布了云基础设施处理器 CIPU,有望替代 CPU 成为下一代云计算架构体系的管控和加速中心。

云系统架构_720云系统架构_传统架构与云架构区别

CIPU 是一种新形态的处理结构,将传统通用计算单元、满足特定工作负载的加速计算单元、以及满足网络和存储功能卸载的加速单元进行高速互联协调,组合成一个完整的分布式异构算力模块,高效满足复杂多变的云上数据中心算力场景。CIPU 的体系优势体现在网络层面的网络设备硬件虚拟化、网络转发硬件加速、链路硬件加解密、eRDMA 技术的普惠化;存储层面的硬件虚拟化、硬件加速以及链路的硬件加解密能力;同时具备硬件层面的安全和隔离能力等。

据阿里云透露,CIPU 与计算结合,可以快速接入不同类型资源的服务器,带来算力的 "0" 损耗,以及硬件级安全的加固隔离;CIPU 与存储结合,对存算分离架构的块存储接入进行硬件加速,云盘存储 IOPS 最高可达 300 万,长尾时延降低 50%;CIPU 与网络结合,可对高带宽物理网络进行硬件加速,构建大规模弹性 RDMA 高性能网络,时延最低可达 5us。

在未来三十年里,用户需求驱动的 CIPU 必将会持续在高性能、低延迟、高稳定性和安全能力方面持续加强;CIPU 架构也会持续迭代降低自身的成本,例如在性能诉求不高的场景通过 Multihost 架构实现 CIPU 的池化,大幅降低其成本分摊;通过部分相对固化功能的芯片实现设计的高可用性及稳定性等。

CIPU 的核心优势是去中心化架构,不再以传统的 CPU 为核心,既保留了 CPU 的灵活性,且兼具架构的可扩展性,在当前各种高级封装技术的加持下,其未来具备更多的想象空间。

云计算的发展一直是以用户为中心,通过不断的技术迭代解决用云过程中遇到的各种问题。我们有理由期待,在 CIPU 为代表的新一代数据中心计算架构下,用户和互联网的创新会以更快的速度和云计算结合,不断推动技术的变革。未来已来!

(编辑:南平站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!