华为即将发布AI固态硬盘,配合统一缓存管理软件,将键值缓存数据从GPU高带宽内存中转移到SSD存储,避免重复计算以提升AI处理速度。该方案采用分层缓存架构,整合GPU内存、CPU内存和SSD存储。华为还将运用XtremeLink技术和SpeedFlex印刷电路板技术。此举旨在解决GPU服务器内存墙问题,帮助中国构建新的AI生态系统。
英伟达通过Dynamo引擎实现分层KV缓存,将大语言模型的键值对存储从GPU高带宽内存扩展至CPU内存、直连SSD和网络存储。该技术解决了GPU内存不足时向量数据被驱逐需重新计算的问题,通过多层存储架构提升推理效率。Dynamo支持vLLM等推理引擎,具备分离服务、智能路由等四大功能。目前已有Cloudian、DDN、戴尔、HPE、NetApp、Pure Storage等多家存储厂商宣布支持该技术。