北大与DeepSeek联合开源DSpark框架提升大模型推理效率[看点]

发布日期：2026-06-27 23:19:13 来源：互联网作者：亿席商务网浏览次数：73

核心提示：今日，DeepSeek 联合北京大学发布了DSpark推理加速框架，旨在解决大语言模型在高并发生产环境中的推理效率问题

今日，DeepSeek 联合北京大学发布了DSpark推理加速框架，旨在解决大语言模型在高并发生产环境中的推理效率问题。该框架已应用于DeepSeek-V4-Flash和DeepSeek-V4-Pro的预览版服务引擎中，在同等吞吐量水平下，单用户生成速度提升了60%至85%。相关论文、训练代码等已在GitHub上开源。

北大与DeepSeek联合开源DSpark框架

大语言模型生成文本时采用自回归方式，每生成一个新token都需要一次完整的前向传播，这导致推理延迟随输出长度线性增长。推测解码技术通过一个小模型快速生成候选token，再由大模型批量验证，从而提升生成速度。然而，推测解码的实际加速效果受制于候选生成质量和验证阶段对目标模型计算资源的占用。

北大与DeepSeek联合开源DSpark框架提升大模型推理效率

目前主流方案分为两派：自回归式草稿模型逐token串行生成候选序列，依赖关系建模能力强但生成延迟随候选长度线性增长；并行式草稿模型则在一个前向传播内一次性产出全部候选token，生成延迟几乎与候选长度无关。但并行生成每个位置时无法依赖先前已采样的token，导致接受率迅速衰减，浪费目标模型计算资源。

北大与DeepSeek联合开源DSpark框架提升大模型推理效率

为解决上述瓶颈，DSpark提出了两项互补机制。在候选生成阶段，DSpark采用半自回归架构，主干网络一次性产出所有候选位置的隐藏状态和基础logits，随后轻量级顺序模块逐token注入前缀依赖信息。实验表明，少量自回归依赖的引入在参数效率上优于单纯堆叠并行层。

　　以上是“北大与DeepSeek联合开源DSpark框架提升大模型推理效率[看点]”的全部内容，希望对大家有所帮助。

免责声明：以上所展示的信息由网友自行发布，内容的真实性、准确性和合法性由发布者负责。亿席商务网对此不承担任何直接责任及连带责任。任何单位或个人如对以上内容有权利主张（包括但不限于侵犯著作权、商业信誉等），请与我们联系并出示相关证据，我们将按国家相关法规即时移除。

分享到：QQ空间新浪微博腾讯微博人人网微信

[ 资讯搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 违规举报 ] [ 关闭窗口 ]

北大与DeepSeek联合开源DSpark框架 提升大模型推理效率[看点]

北大与DeepSeek联合开源DSpark框架提升大模型推理效率[看点]