新存储架构解决AI推理瓶颈问题
创始人
2026-03-13 02:49:17
0

Lightbits Labs公司今日推出了一种新架构,旨在解决大规模人工智能推理中最顽固的瓶颈之一:大语言模型的内存需求不断增长与图形处理器有限内存容量之间日益扩大的不匹配问题。

该公司宣布与ScaleFlux公司和FarmGPU公司合作设计的解决方案,该方案结合了高性能非易失性内存快速存储、托管GPU推理基础设施以及Lightbits的LightInferra软件,让AI系统更容易持久化和重用推理过程中产生的键值缓存数据。这种方法旨在减少因重复计算上下文而导致的GPU停顿,从而提高长上下文AI工作负载的效率。

此次发布正值云运营商(如专注AI的新兴云服务商)在推理工作负载的经济性方面面临挑战之际,GPU基础设施的成本往往占据运营支出的主导地位。

Lightbits Labs首席技术官Abel Gordon表示:"GPU是相当昂贵的资源,它们是运行大语言模型的必需品,而大语言模型是任何推理解决方案的核心。"改善这些昂贵GPU的利用率是新平台的核心设计目标。

Abel说,提高推理效率最终归结为增加每个GPU能够服务的请求数量。

Gordon说:"每GPU运行更多请求的能力直接影响每Token的成本。通过将我们的托管服务与运行在ScaleFlux NVMe上的Lightbit高性能存储配对,我们能够降低首Token时间并增加GPU利用率,从而大幅降低推理的总拥有成本。"

Lightbit表示,其测试显示在相同GPU上推理请求数量最多可增加三倍,同时功耗和基础设施成本降低65%。

键值缓存挑战

问题的核心是键值缓存,它存储推理过程中生成的中间注意力向量。这些缓存值允许模型重用先前的计算,而不是重复重新计算结果。

Gordon说:"KV缓存保存所谓的注意力向量,基本上记住了之前的计算。当你处理推理请求时,你可以获得已经处理过的数据,而不是重新计算该数据。"

然而,随着模型扩展和上下文窗口增加,该缓存的大小一直在快速增长。Lightbit表示,KV缓存所需的内存量每年都在翻倍以上。

Lightbits Labs AI架构总监Arthur Rasmusson说,随着组织推向更长的上下文窗口以支持大型知识库、企业文档搜索和持久数字助手等应用,问题变得特别严重。"大语言模型的速度要求远远超过了这些芯片上能容纳的内存量,"他说。

预测性数据移动

LightInferra的方法是管理数据如何在多层内存中移动,从网络存储到系统内存再到GPU缓存。系统预测接下来需要什么信息,并将其预先定位到更接近处理器的位置。它借鉴了几十年来用于防止处理器在等待数据时停顿的CPU架构概念。

在传统架构中,"GPU必须暂停并复制到内存,"Rasmusson说。"这就是我们看到机会的地方。我们希望保持这些GPU饱和运行。"

LightInferra对内存堆栈中的访问模式和延迟进行建模,以确定何时何地放置数据。目标是即使在工作集超出GPU内存容量时也保持推理管道平稳运行。

"我们调整数据局部性以确保GPU不会等待那些数据副本,"Rasmusson说。提高Token生成速度最终允许运营商在不增加更多硬件的情况下增加吞吐量。

云和新兴云提供商"可以减少他们的GPU占用空间,或在现有占用空间内提供增加的总体集群吞吐量,"他说。

该架构目前正在进入设计合作伙伴阶段,主要与新兴云服务商合作,生产部署计划在7月份进行。

Q&A

Q1:LightInferra是什么?它能解决什么问题?

A:LightInferra是Lightbits公司开发的软件系统,旨在解决大语言模型推理中的内存瓶颈问题。它通过管理数据在多层内存中的移动,预测并预先定位所需信息,减少GPU等待数据的停顿时间。

Q2:键值缓存为什么会成为AI推理的瓶颈?

A:键值缓存存储推理过程中生成的中间注意力向量,允许模型重用先前的计算。但随着模型扩展和上下文窗口增加,缓存大小快速增长,每年都在翻倍以上,远超GPU内存容量的增长速度。

Q3:这个新架构能带来多大的性能提升?

A:根据Lightbit的测试,新架构在相同GPU上的推理请求数量最多可增加三倍,同时功耗和基础设施成本降低65%,显著提高了GPU利用率和降低了每Token的成本。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...