加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 云技术进入深水区,软件定义存储的时代正在到来
    • 平头哥为什么选择自研SSD主控芯片?
    • “扩展+定制”,镇岳510有几把刷子
    • 写在最后
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

平头哥发布SSD主控芯片镇岳510,以 “芯”重塑云存储

2023/11/02
3341
阅读需 12 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

海量数据驱动数据中心爆发式增长,巨大流量挑战的背后,是算力、网力、存力共同支撑起的云计算基础。与此同时,数据中心正式跨入新的发展阶段——云数据中心阶段。

云技术进入深水区,软件定义存储的时代正在到来

“目前,全国80%的科技企业和超过一半的AI大模型公司跑在阿里云上”,阿里集团董事长蔡崇信在今年的云栖大会上如是说,“日后云计算将成为像水和电一样的公共服务,成就更多开发者和企业。”

换言之,在全球数字经济蓬勃发展下,深度用云将成为必然趋势。

因此,为了满足云上业务的迅猛发展,以CPU为代表的通用算力,以GPU、NPU为代表的的AI算力,都在以指数级迅速增加;网络也从25GE、100GE、200GE快速演进,并将进入400GE、800GE时代;而以SSD为代表的存力,同样面临着新的挑战和诉求软件定义存储的时代正在到来。

  • 极致的性能

SSD是计算数据的来源与结果数据的目的地,其读写吞吐速率的高低,将制约整个计算系统的性能。

  • 复杂负载下的稳定时延

时延是SSD从收到命令到返回命令响应的耗时。云上为了提高并发能力,业务请求通常会被拆分为多笔子请求分散到众多SSD并发执行。任何一块SSD的时延发生抖动,都会造成整个业务请求的延迟。

  • 更优的TCO

绿色、减碳是云数据中心的一贯追求。如何提升能效,以更低的功耗,提供更高的性能,是SSD的重要挑战。

  • 更高的存储密度

提高数据中心资源利用率是云的核心诉求。提高SSD的存储密度,在单块SSD内提供更大的存储容量,可以有效减少所需部署的服务器数量、交换机/路由器数量。

平头哥为什么选择自研SSD主控芯片?

在将平头哥为何选择自研SSD主控芯片之前,我们先来了解一下什么是SSD主控芯片。

一款SSD最核心的元件就是闪存颗粒(数据的最终存储地)、内存颗粒(用于暂存SSD内的众多管理表项、数据缓存)和SSD主控芯片。其中,SSD主控芯片作为SSD的大脑,通常占整体成本的15%左右(以M.2接口产品为例),主要任务是负责主机交互、协议解析与执行、数据读写、数据纠错、数据管理、后台任务、带外管理。

一般来讲,SSD主控芯片的主要参数包括支持的闪存颗粒类型、数量,支持的存取通道数、通道带宽,支持的SSD存取标准、接口等。但到了云存储时代,就需要更懂云的SSD出现

目前,市场上比较主流的SSD主控品牌主要包括两类,一类是三星、Intel、西数这样的存储多位一体大厂,还有一类是Marvell、慧荣、群联、东芝、瑞昱、英韧等存储主控领域的佼佼者。

但大家有没有发现,这些企业都不是主要的云提供商,而阿里云作为全球排名第三的云厂商,拥有得天独厚的应用端资源,也最懂面向云计算的SSD主控芯片的需求是怎样的。同时阿里旗下平头哥又具备为数据中心等应用场景提供强有力的算力底层支撑的实力,就这样一拍即合。

当然,对于具体的产品定义,为了实现紧密的软硬件耦合,从而提高数据中心的整体效能,平头哥的架构团队和兄弟需求部门花了超过半年的时间反复审度,最终确定了镇岳510的设计目标,在灵活性和高效之间实现了最佳的平衡。

“扩展+定制”,镇岳510有几把刷子

大家是不是很好奇,这颗来自于需求端,又经历了和软件侧、系统侧多伦推敲打磨的SSD主控芯片到底有何特点?

根据阿里云存储产品线总经理吴结生的介绍,镇岳510支持先进的PCIe 5.0接口,支持DDR5.0技术,内置玄铁910 RISC-V多核CPU,采用平头哥自研紧耦合芯片架构,对SSD任务进行高度抽象,可固化任务硬化为加速算子以提升性能,FTL关键任务则运行于玄铁910CPU以保持灵活性。

镇岳510每秒可处理高达340万笔IO,一颗镇岳510的性能,相当于1万块高性能HDD的性能总和。此外镇岳510拥有极高的能效比,每瓦功耗可提供42万笔IO访问。以一个部署了10万块SSD的数据中心为例,相比目前主流的PCIe 4.0SSD,镇岳510在相同的性能下,仅主控芯片即每年节省260万度电,按照一度电排放0.785千克二氧化碳计算,每年可减少二氧化碳排放2千吨。

镇岳510内置创新的IO自动化处理机制,前端IO解析与处理,由专用硬件模块自动完成,实现了业界领先的超低的时延(4μs),可以带给应用极佳的体验,比业界SSD降低30%以上。不仅如此,镇岳510芯片内实现了IO/SYS/GC的全链路隔离,极大的降低这些任务之间的相互干扰,提供了既低又稳定的时延表现。

镇岳510内置了平头哥自研的高性能LDPC纠错算法,编码效率逼近香农极限,同时ErrorFlow相比业内SSD更优一个数量级;同时借助平头哥自研闪存电压预测算法,可以在各种闪存的不同工况、寿命、温度等条件下,准确预测闪存电压漂移,进一步降低LDPC解码器的输入误码率。其实现了低至10^-18的UBER,相当于每读取百亿亿笔数据,才可能有一笔数据纠错失败。

此外,镇岳510通过云和底层芯片的全方位融合联合设计,还可以提供更好的用户体验。

第一:消除SSD接口税。通过存储软件与NAND特性完美契合,达到数据排布的最优化,后台操作的最小化。

第二:全链路QoS优化。延迟敏感型与带宽敏感型IO实现了精细化区分处理,提升延迟敏感型IO的SLA。

第三:智能卸载。可靠性计算卸载至SSD,实现全路径存储语义校验,同时也减轻了服务器主机算力开销。

当然,除了以上这些功能和性能的扩展以外,镇岳510还为云做了不少定制,带来了更优秀的存储体验。

在传统的系统方案中,SSD与存储系统分离设计。SSD负责底层闪存数据排布,但无存储语义而无法达到最佳排布;SSD负责后台任务,但无法判断最佳启停时机;而存储系统有存储语义却无法排布闪存数据,有最佳时机却无法启停SSD后台任务。上下的割裂给整个存储系统的性能与寿命带来了额外消耗,这被称为“SSD接口税”。

因此ZNS协议被发展出来,通过将盘内FTL层上移至存储系统,达到了存储系统与闪存特性的完美匹配,消减了“SSD接口税”。2021年5月,ZNS协议被收入NVMe规范2.0版本中,并得到了SPDK、Linux以及各设备商的支持。

镇岳510完美实现了ZNS协议,通过灵活的硬件表项加速保持了高IO性能,而Zone分区状态则交由玄铁910CPU维护,保留了对新协议的灵活性。此外,镇岳510定制了Last Sector 随机写功能,实现了小报文的多次反复下盘,简化了ZNS的应用难度。

数据请求可以分为带宽敏感型与时延敏感型,不同的请求应予以不同的处理策略,才能达到业务最佳SLA。NVMe规范中制定了以队列为粒度的标准SQ调度机制,但其灵活性较差,对于业务种类复杂、追求灵活可配的云存储系统来说,它并不是最佳选择。镇岳510在支持NVMe标准的SQ调度机制的同时,额外定制了基于IO粒度的优先级调度机制,允许系统按IO打标,优先级种类多达8级,结合云存储系统,能够更好的保障延迟敏感型业务的服务质量。

云存储系统的完整数据链路 ,从计算端开始,通过网络到存储服务器,再通过内部互联到达SSD。为了保障数据的高可靠,全链路应采用语义一致的完整性校验。但NVMe规范只规定了以Sector为单位按照T10 DIF/DIX的校验机制,与存储系统的语义并不相同,因此SSD的校验与存储系统的校验产生了差异。

镇岳510以IO为粒度,遵循上层存储语义进行校验,补齐了整个存储系统的数据链路校验的最后一环。不仅如此,镇岳510还支持以存储语义对内部数据进行后台巡检,而无需再读出至服务器,节省了宝贵的PCIe带宽、服务器内存带宽与CPU算力。

写在最后

众所周知,飞天盘古是阿里云统一的存储平台,当前镇岳510已成功落地飞天盘古,并通过深度协同设计,提升了数据可靠性、SLA以及存储效能,构建了从芯片到系统的全栈自研分布式存储,同时镇岳510提供的ZNS能力与飞天盘古存储引擎协同,增强了云存储的灵活性,推进了数据中心往软件定义闪存方向的发展。

此外,随着SSD向ESSD的技术演进,端到端的数据交叉校验、多层次的数据静默风险扫描、灵活的新硬件故障防御机制、高性能和高弹力能力、均一的性能表现、多样的性能弹性和隔离诉求,以及面向征集的性能容量成本考量都变得非常重要,而随着镇岳510 SSD在ESSD产品中的逐步落地,其正在成为ESSD最坚固的基石。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
MC9S08PA16AVTJ 1 NXP Semiconductors MICROCONTROLLER
$2.56 查看
STM32F207ZGT6TR 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet

ECAD模型

下载ECAD模型
$13.88 查看
STM32F207ZGT6 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet

ECAD模型

下载ECAD模型
$13.88 查看
平头哥

平头哥

平头哥半导体有限公司于2018年9月宣布成立,是阿里巴巴集团的全资半导体芯片业务主体。平头哥拥有端云一体全栈产品系列,涵盖数据中心人工智能芯片、处理器IP授权等,实现芯片端到端设计链路全覆盖。

平头哥半导体有限公司于2018年9月宣布成立,是阿里巴巴集团的全资半导体芯片业务主体。平头哥拥有端云一体全栈产品系列,涵盖数据中心人工智能芯片、处理器IP授权等,实现芯片端到端设计链路全覆盖。收起

查看更多

相关推荐

电子产业图谱