首页>>基础知识>>2026值得关注的存储技术

2026值得关注的存储技术

阅读量:95

分享:
2026-01-05 10:52:27

在这轮AI快速发展浪潮中,算力体系的软硬件协同能力被不断“打磨”:从底层芯片架构优化,到大模型形态逐步收敛,再到算力调度与编排机制持续升级,整个链条的技术演进,已经在很大程度上缓解了算力供给和应用需求之间的错配问题。

当“算力不足”不再是AI落地的首要瓶颈后,“存力”的地位迅速提升,成为决定算力价值能否高效释放的关键一环。

存力的核心在于:数据能存多少、读写有多快、是否足够安全可靠。无论是大模型训练,还是端侧与云端的实时推理,对存储的性能指标、架构形态以及成本控制都提出了新要求。2025年以来,AI从云向端侧延展,AI推理的市场空间甚至超过训练,围绕“AI存储”的新一轮技术和产品创新正在加速落地。

一、HBM4E与定制化高带宽存储

1. 台积电 C-HBM4E:基础裸片“逻辑化”

台积电提出,HBM将在HBM4E时代进入“定制化”阶段,即 C-HBM4E。其核心思路,是在HBM的基础裸片中直接集成内存控制器(MC),帮助主芯片节省大量逻辑面积,并提升系统能效。

台积电将提供基于 N3P 先进制程的基础裸片解决方案

相比HBM3E时代的基础裸片,能效可提升约 2 倍

C-HBM4E 的工作电压 Vdd 仅约 0.75V,比HBM4进一步降低,继续压缩功耗

此前,SK 海力士已与台积电签署HBM4合作谅解备忘录,由台积电为其生产HBM4基础裸片,这也意味着HBM4开始普遍引入外部先进逻辑工艺,而不再全部依赖存储厂自身制程。

SK 海力士公开展示的HBM4样品采用 12 层堆叠结构,借助台积电 N3 工艺的基底裸片,实现了:

单颗容量 36GB

带宽 2TB/s

相比HBM3E,传输速度提升超 60%

美光在下一代 HBM4E 产品规划中,同样选择与台积电合作制造基底逻辑芯片,覆盖标准产品和定制化版本。美光预计 HBM4E 将在 2027 年正式推出;三星则计划最早在明年上半年完成 HBM4E 的研发。

二、HBF:面向推理的大带宽闪存

SanDisk 闪迪在今年2月展示了面向AI的新型高带宽闪存(HBF,High Bandwidth Flash),本质上是“把HBM的堆叠思路搬到NAND上”。

采用类似HBM的堆叠结构,通过 TSV 将多颗高性能 3D NAND 核心芯片垂直堆叠

结合自家 BiCS 3D NAND 与 CBA(CMOS Bonded to Array)技术,将存储阵列键合在I/O逻辑芯片之上

单堆栈采用 16 颗核心芯片,容量最高可达 512GB

8 颗HBF堆叠可实现 4TB 容量

HBF在带宽上可以接近HBM,但由于底层仍是NAND,延迟明显高于DRAM。因此它更适合读取密集型的AI推理任务,而不是极度敏感的实时场景。

根据介绍,单颗HBF有望容纳一个完整的 64B 级别大模型,具备在手机端本地运行大模型、以及在自动驾驶、AI玩具、IoT等端侧或边缘设备场景中提供低功耗、高容量AI存储的潜力。

来自韩国科学技术高等研究院(KAIST)的 Joungho Kim 教授(业内称“HBM之父”)提出了“HBM+HBF”的分层思路:

以前端 100GB HBM 作为缓存层

后端挂接约 1TB 的 HBF

这样在不牺牲整体性能的前提下,放大成本和容量优势。

时间表方面:

SanDisk 预计在 2026 年下半年交付第一批HBF样品

基于HBF的AI推理设备样机预计在 2027 年初问世

SK 海力士推出“AIN系列”新品线,其中已包含HBF产品

三星也启动自有HBF方案的概念设计

Kioxia(铠侠)在今年8月展示了一款 5TB 级别的超高速HBF原型

三、HBS:DRAM+NAND 立体叠堆的新形态

SK 海力士还在研发另一条高带宽存储技术路线——HBS(High Bandwidth Storage),核心是将DRAM和NAND以更紧凑的三维方式整合。

关键技术是 VFO(Vertical Feed-Out,垂直导线扇出)封装工艺:

采用铜线而非常规铜柱,通过阶梯式堆叠DRAM,并灌注环氧树脂固定

再通过垂直柱状导线和重新分布层(RDL)将多层芯片连接至基板

最多可实现 16 层 DRAM 与 NAND 芯片的垂直堆叠

VFO 将 FOWLP(晶圆级扇出封装)与多层DRAM堆叠结合,显著缩短层间连线:

信号线路长度缩短至传统方案的 1/4 以下

整体能效提升约 4.9%

封装厚度减少约 27%,散热略有增加(约 1.4%)

与HBM依赖的TSV工艺不同,HBS可在不使用TSV的前提下实现高带宽堆叠,有利于控制成本、提升良率。未来HBS预计将与手机主控SoC协同封装,再整体安装到主板,实现“小型化+高带宽+低功耗”的平衡。

目前SK 海力士尚未公布HBS量产时间表,但业界普遍预期,该技术有望在未来 2–3 年内进入商业化阶段,成为新一代移动端AI存储的重要形态之一。

四、端侧堆叠DRAM:SoC合封方案加速

1. 华邦 CUBE:为边缘SoC量身打造

华邦电子推出的 CUBE(Customized Ultra-Bandwidth Elements)面向的是SoC与DRAM合封场景下的成本、面积和散热难题。

将 SoC 裸片直接置于 DRAM 裸片上方

通过先进封装实现高带宽、紧凑尺寸的组合

无需在SoC侧采用TSV工艺,降低制造复杂度与成本

更适用于低功耗、高带宽、中低容量的边缘计算和端侧AI应用

2. 兆易创新:定制化堆叠内存方案

兆易创新依托堆叠内存技术,为AIPC、手机、端侧智能设备、汽车等场景提供定制化存储解决方案:

已与部分逻辑芯片客户实现先导项目落地,样品发布并进入验证

已向产业伙伴展示在带宽、功耗、能效等维度的优势

预计明年起,将有更多定制化存储方案在多类端侧设备中量产

摩根士丹利研报提到,WoW(Wafer-on-Wafer,晶圆堆叠)技术通过3D封装实现芯片垂直叠加,可将内存带宽提升约 10 倍、功耗降低约 90%,被视作破解边缘AI带宽与能耗瓶颈的关键路径之一。

报告指出,兆易创新已与长鑫存储合作:

4 层堆叠技术已成熟

8 层堆叠方案已纳入路线图

五、存算一体:把计算“搬到存储旁边”

为了跳出传统冯·诺依曼架构下“数据搬运开销过大”的困境,越来越多厂商开始在“近存计算”和“存内计算”上发力。

1. NVIDIA × Groq:LPU 近存架构

NVIDIA近期与AI芯片公司 Groq 达成技术许可合作,将采用 Groq 的推理技术。Groq研发的 LPU(Language Processing Unit)是典型的近存计算架构:

采用 14nm 工艺

片上集成约 230MB SRAM

片上内存带宽可达 80TB/s

SRAM 访问延迟远低于DRAM,适合高并发、计算密集型推理任务

2. Axelera、EnCharge AI:多路径存内计算

Axelera AIPU:利用内存计算,将数据直接常驻主内存(RAM),减少磁盘I/O开销,显著提升推理吞吐。

EnCharge AI:采用基于电荷存储器的模拟存内计算架构,不再逐比特处理,而是通过测量存储平面上的电流来进行矩阵运算,核心是更高精度电容器阵列,实现高能效模拟CIM。

3. d-Matrix:数字存算一体引擎

d-Matrix 推出的 DIMC(Digital In-Memory Compute)引擎,将算力单元迁移到RAM附近,通过将MAC(乘加)单元与存储阵列深度融合:

提升计算带宽与并行性

显著降低数据搬运延迟

降低整体功耗,特别适用于大规模推理任务

4. 国内新势力:昕原半导体与微纳核芯

昕原半导体 ATOM 系列:基于ReRAM(阻变存储器)的存算一体方案,利用其与先进工艺的兼容性,将数据存储与计算单元深度集成,可在带宽、性能与能效比上实现数十倍提升。

微纳核芯 3D-CIM 架构:提出“三维存算一体”,将3D近存计算与存内计算结合,在不依赖最先进工艺节点的情况下:

将算力密度提升 4 倍以上(同成本下)

功耗降低超过 10 倍

兼顾高性能、低功耗与低成本,有望成为可规模量产的3D端侧AI芯片路线之一。

六、3D NAND:垂直“长高”与平面“变瘦”

在NAND领域,核心竞争点仍是单位芯片可存储的比特数。主要有两条路径:

垂直扩展:增加3D NAND的层数

横向缩小:减小单元尺寸与die面积

铠侠 BiCS FLASH 与新型存储

面向大容量、高性能场景(如企业与数据中心SSD),铠侠计划在 BiCS FLASH 第10代及之后产品中,继续在“更高层数+横向收缩”上发力,提高位密度与容量。

面向性能优先应用,将推进 BiCS FLASH 第9代,并引入 CBA 技术,让现有一代存储阵列与更高速的CMOS逻辑更紧密结合。

研发 OCTRAM(氧化物半导体通道晶体管 DRAM):采用氧化物半导体通道,定位未来需要低功耗主存的市场。

推进 XL-FLASH:一种低延迟、高性能闪存,用来填补DRAM与传统NAND之间的性能鸿沟。第二代支持MLC的XL-FLASH已进入量产阶段。

三星第十代 V-NAND

三星最新一代V-NAND已实现:

堆叠层数约 420–430 层

采用 CoP(Cell on Periphery)混合键合外围单元架构

接口速度最高可达 5600 MT/s

单 die 密度约 28 Gb/mm²,单 die 容量可达 1Tb

七、超大容量HDD:AI“冷数据”的压舱石

AI工作流是一个从“搜集数据—训练—生成内容—存储与留存—再利用”的闭环,不只是高性能计算和高速内存,海量数据存储同样关键:

在数据搜集阶段:

网络SSD提供热数据的快速访问

网络HDD承担大规模数据的冷存储和长期留存

在模型训练阶段:

HDD以更低TCO的方式承载训练所需的大量样本

在生成内容与归档阶段:

HDD用于存储、保护多份内容副本和过程数据

为支撑这种“海量但成本敏感”的需求,HDD正向 30TB+ 容量演进,其中关键技术是 HAMR(热辅助磁记录):

单碟面密度已达 3TB+,整机容量 30TB 起步,已对超大规模客户批量出货

Seagate 正在测试 Mozaic 平台,目标单碟 4TB+、5TB+

相比当前PMR硬盘,Mozaic 3+ 产品:

运行功耗约为 PMR 的 1/4

每TB隐含碳排放降至约 1/10

西部数据则通过 ePMR(能量辅助垂直磁记录)与 UltraSMR(超叠瓦磁记录)来进一步提升容量、性能与能效,以更好适配云存储和AI等数据密集型场景。

八、UFS 5.0:端侧主存储继续提速

JEDEC即将完成 UFS 5.0 存储标准,目标是在保持低功耗的前提下,为移动和轻量计算设备提供更高的存储性能,同时兼容现有 UFS 4.x 硬件生态。

UFS适合作为嵌入式主存储,特别适用于:

智能手机、可穿戴设备

汽车边缘计算系统

游戏主机与各类高性能嵌入式设备

UFS 5.0 的主要特性包括:

顺序性能提升至约 10.8GB/s,以更好匹配AI本地推理需求

引入链路均衡机制,增强长距离高速信号传输的可靠性

PHY与内存子系统采用独立供电轨设计,降低噪声耦合,简化系统集成

内置哈希机制,加强数据安全防护

九、PCIe 8.0:系统互联的下一站

PCI-SIG 已宣布 PCIe 8.0 规范的 Version 0.3 通过工作组审查,向会员开放,整体仍按计划在 2028 年前后定稿发布。

预计 2025 年 8 月公布正式开发计划

将继续采用 PAM4 信号调制,在 PCIe 7.0 基础上传输速率再翻倍:

单通道速率提升至 256 GT/s

x16 配置下,双向总带宽可达 1TB/s 量级

这一代PCIe标准,主要面向未来高性能计算、AI训练/推理集群对超高带宽、低延迟互联的需求,特别是GPU与存储加速卡之间的高速数据交换。

十、LPDDR6:移动与AI端侧的低功耗高带宽内存

JEDEC最新发布的 LPDDR6 标准(JESD209-6),是面向移动终端和各类AI终端的下一代低功耗内存规格。

关键特性包括:

引入双子通道架构,在保持 32 字节访问粒度的同时提供更大的操作灵活性

支持更高的工作频率与带宽,以满足AI推理和图形处理等高负载场景

相比LPDDR5,引入更低电压的 VDD2 电源,并要求双路 VDD2 供电,以进一步降低整体功耗

在安全性与可靠性方面增加新特性,强化端侧AI应用中对数据安全与长期稳定性的要求

整体来看,从HBM4E、HBF、HBS这些“高带宽高容量”新形态,到3D NAND与超大容量HDD,再到UFS 5.0、LPDDR6以及PCIe 8.0等接口与协议升级,“存力”正沿着容量、带宽、能效和架构创新多线并进。

在算力和算法不断演进的背景下,这些存储技术的迭代,将决定AI能在多大程度上真正“跑得起来、跑得久、跑得开得广”。


搜   索

为你推荐

  • H34C-315MHZ超大功率发射模块

    品牌:LCX(凌承芯)

    H34C-315MHZ

    封装/规格:模块我要选购

  • E50-TTL-500

    品牌:EBYTE(亿佰特)

    E50-TTL-500

    封装/规格:DIP-24*43mm我要选购

  • E23-433MS20

    品牌:EBYTE(亿佰特)

    E23-433MS20

    封装/规格:SMD我要选购

  • AS01-ML01IPX

    品牌:Ashining泽耀科技

    AS01-ML01IPX

    封装/规格:模块我要选购

  • BC95-B8

    品牌:移远 Quectel

    BC95-B8

    封装/规格:NB-IOT模块我要选购