就在刚刚,降本钱DeepSeek团队发布最新论文《洞悉 DeepSeek-V3:规划的初次应战和对AI架构硬件的考虑》 。
论文链接 :https://arxiv.org/pdf/2505.09343。
在坚持功用不变的协同状况下,论文选用了两层视角——跨过硬件架构和模型规划,练习论文经过研讨这种协同效果,揭露诀窍探究 DeepSeek-V3 怎么完结经济高效的降本钱大规划练习和推理。
跟着 OpenAI o1/o3、初次DeepSeek-R1、发表Claude-3.7 Sonnet 等先进模型的布软呈现 ,大规划架构和上下文推理的硬体前进着重了对更快、更高效推理的协同需求。因而 ,练习论文核算资源的需求也在逐渐扩展。
DeepSeek 的呈现证明了有用的软硬件协同规划能够完结大型模型的本钱效益练习 ,为较小的团队供给公正的竞赛环境 。
根据这一传统,DeepSeek-V3 代表了本钱效益练习的新里程碑,仅需 2,048 个 NVIDIA H800 GPU 就完结了最先进的功用 。DeepSeek-V3 的实践和见地展现了怎么充分运用现有硬件资源,为更广泛的 AI 和 HPC 社区供给名贵的经验教训。
论文章节的首要内容如下 :
DeepSeek 模型的规划准则。
低精度驱动规划 。
以互联为驱动的规划 。
大规划网络驱动规划。
面向未来的硬件架构规划。
如下图 所示 ,DeepSeek-V3 选用 DeepSeek-MoE 和多头潜在注意力 (MLA)架构,经过紧缩键值 (KV) 缓存大大削减了内存耗费。此外 ,DeepSeek-V3 还选用了 FP8 混合精度练习,显着下降了核算本钱。
这些立异旨在处理LLM规划中的三个中心应战——内存功率 、本钱效益和推理速度。
LLM 一般需求很多的内存资源,内存需求每年添加 1000% 以上。比较之下,高速内存(例如 HBM)容量的添加快度要慢得多,一般每年不到 50%。与运用 BF16 进行权重的模型比较,FP8 将内存耗费显着下降了一半 ,有用缓解了 AI 内存应战。
DeepSeek-V3 还选用了多头潜在注意力 (MLA),它运用投影矩阵将一切注意力头的 KV 标明紧缩成一个更小的潜在向量,该矩阵与模型联合练习。在推理进程中 ,只需求缓存潜在向量 ,与存储一切注意力头的 KV 缓存比较 ,显着削减了内存耗费。
除了 MLA 之外,DeepSeek 还提出了其他几种办法来减小 KV 缓存的巨细 :
同享 KV:多头同享一组 KV 配对 ,然后显着紧缩了 KV 存储。
窗口 KV:关于长序列,缓存中只保存 KV 配对的滑动窗口 。
量化紧缩:KV 配对运用low-bit进行存储,进一步削减了内存运用。
关于稀少核算 ,DeepSeek 还开发了 DeepSeek-MoE 架构