开云体育
二十问拆解 DeepSeek:一场针对制裁的算力游击战开云体育
消息一出,Nvidia(英伟达)市值单日蒸发 1200 亿美元,美股 AI 概念股全线暴跌,整个硅谷为之震动。这不仅仅是技术上的颠覆,更是 AI 竞争格局的彻底改写。DeepSeek 证明了
低成本、高效率:DeepSeek 训练 V3 的总算力仅 278.8 万 GPU 小时,相比 OpenAI 和 Google 的动辄数十亿美元投入,展现出 AI 训练成本大幅下降的可能性。芯片禁令:DeepSeek 的诸多创新,正是为了克服 H800 相较于 H100 的内存带宽劣势。如果 DeepSeek 能够使用 H100,他们会选择更大的训练集群,而不是针对 H800 进行如此极致的优化。AI 自主进化
:DeepSeek 的 R1-Zero 依靠纯强化学习(RL),无需人工标注,就能自己学会推理和优化答案。
:与 OpenAI 越来越封闭的策略相反,DeepSeek 选择开放权重,这一决定或将引发 AI 研究范式的重大转变。这场 AI 格局重塑的背后,究竟意味着什么?DeepSeek 的策略如何改变全球科技版图?在这场行业剧变中,科技分析顶流博客 Stratechery 的创始人Ben Thompson再次站在了前沿。
作为《》《经济学人》的特约撰稿人,Thompson 的深度推演长期被硅谷高管视为战略决策的参考。早在 2023 年,他就预测 “AI 模型商品化将摧毁封闭生态
本篇文章编译自 Stratechery 最新专栏,全文都以问答形式(FAQ)呈现,带你深入解析 DeepSeek 如何打破 AI 竞争格局,以及这对全球科技产业意味着什么。01 DeepSeek 发布了什么公告?
的推理模型。然而,导致此次轰动的诸多信息——包括 DeepSeek 的训练成本——实际上是在
取得突破的许多技术,实际上是在去年一月份发布的 V2 模型时就已经公开了。
02 带火了这种模型命名方式,是 OpenAI 犯下的最大“罪行”吗?这是第二大的,我们很快会谈到 OpenAI 最大的罪行。
DeepSeekMoE 中的 “MoE” 代表 “Mixture of Experts”(专家混合)。 像 GPT-3.5 这样的模型,在训练和推理过程中会激活整个模型; 然而,实际上,并不是所有部分都对特定任务必要。 MoE 技术将模型划分为多个“专家”,并且只激活必要的部分。 例如,GPT-4 就是一个 MoE 模型,据信包含 16 个专家,每个专家大约有1100 亿个参数。
中实现了对这一概念的重要改进,包括区分更精细的专业专家,以及具有更广泛能力的共享专家。更重要的是,DeepSeekMoE 引入了全新的负载均衡和训练路由方法。传统的 MoE 训练过程中,通信开销较大,但推理效率更高;DeepSeek 的方法优化了训练过程,使其更加高效。
是一个更大的突破。推理过程中最大的限制之一是巨大的内存需求:不仅需要将整个模型加载到内存中,还需要加载整个上下文窗口。上下文窗口的存储成本特别高,因为每个 token 都需要存储对应的key-value。所谓的
这些突破的关键影响——以及你需要理解的部分——直到V3才线 进一步优化了负载均衡
多 token 预测(使每个训练步骤更加密集,进一步减少开销)。最终结果是:V3 的训练成本惊人地低廉
V3 论文() :最后,我们再次强调,DeepSeek-V3 经济高效的训练成本是通过我们对算法、框架和硬件的优化协同设计
需要注意的是,上述成本仅包括 DeepSeek-V3 的正式训练,不包括架构、算法或数据的前期研究和消融实验成本
所以,训练数据集包含 14.8 万亿 token,如果进行计算,你会发现 278.8 万 H800 GPU 小时确实足够训练 V3
关键点在于:DeepSeek 的诸多创新,正是为了克服 H800 相较于 H100 的内存带宽劣势。如果你认线 训练过程,你会发现 DeepSeek 实际上拥有过剩的计算能力,这是因为 DeepSeek 专门在 H800 的 132 个处理单元中划分了 20 个用于管理芯片间通信。
这在CUDA中是无法做到的,因为 DeepSeek 的工程师必须使用 PTX(Nvidia GPU 的低级指令集,类似于汇编语言)进行优化。
如果 DeepSeek 能够使用 H100,他们可能会选择更大的训练集群,而不是针对 H800 进行如此极致的优化。
很多人认为,训练领先的 AI 模型需要更高的芯片间带宽,但 DeepSeek 正是围绕 H800 的带宽限制,优化了模型架构和训练基础设施。
再次强调,DeepSeek 的所有决策,只有在被限制使用 H800 的情况下才有意义。如果他们能用 H100, 他们很可能会采用更大的集群,而不会费力优化带宽问题 。07 V3 是一款领先的 AI 模型吗?
一个很有可能的情况是,DeepSeek 通过蒸馏(distillation)技术,从 GPT-4o 等模型中提取了高质量的训练数据。
“学生”模型。例如,GPT-4 Turbo 可能是从 GPT-4 通过蒸馏得到的。对于 AI 公司来说,自己对自己的模型进行蒸馏比较容易,因为他们可以完全访问这些模型。但即使没有完整的访问权限,通过 API 甚至聊天客户端也能进行蒸馏。
蒸馏显然违反了 OpenAI 等公司的使用条款,但唯一能阻止它的办法就是直接封禁访问,比如 IP 封锁、速率限制等。
行业内普遍认为,蒸馏在 AI 训练过程中非常普遍,这也是为什么越来越多的模型接近 GPT-4o 的质量。
尽管我们无法确切知道 DeepSeek 是否蒸馏了 GPT-4o 或 Claude,但如果他们没有这样做,反而会令人惊讶
*(欢迎回顾《万有引力》栏目对 DeepSeek 优化策略的相关讨论:《“纯”大模型公司不复存在、产品经理将比程序员更重要?林咏华、黄东旭、李建忠激辩大模型 万有引力》)
:OpenAI、Anthropic、Google 可能都在用蒸馏来优化自己的推理模型,从而
的核心经济因素。微软主要关心推理服务(提供 AI 计算能力),但不太愿意资助 OpenAI 建设 1000 亿美元的数据中心来训练模型。
因为在微软看来, 这些模型很可能在建成之前就已经被行业普遍模仿和复制了。
可以更低成本地向客户提供 AI 服务,要么减少数据中心投资,要么因 AI 变便宜导致使用量激增。
自己没能训练出最好的 AI 模型,但如果有高质量的开源模型,他们可以直接提供推理服务,从而大幅降低成本。
苹果也是赢家。推理所需的内存大幅降低,使得“边缘推理”(edge inference)更加可行,而苹果芯片(Apple Silicon)正是这方面的佼佼者。
可能是最大赢家。他们的 AI 业务本来就很强,而推理成本降低将使 AI 在 Meta 的产品中更容易扩展。
如果推理变得“零成本”,那么可能会出现更多的 AI 应用来取代搜索引擎。
一个完全基于强化学习(RL)的推理模型。它没有使用任何人工标注数据,而是通过自我进化
DeepSeek 采用了一种全新的强化学习方法 来训练 R1-Zero。他们
没有依赖人类反馈(RLHF),而是完全依靠 AI 自己的进化(self-evolution)。
经典强化学习的例子是 lphaGo,DeepMind 仅告诉 AI 围棋的规则,并设置了“获胜”作为奖励函数,然后 AI 自己摸索出最佳策略。但 LLM(大语言模型)通常需要 RLHF(人类反馈强化学习),因为人类需要引导它们做出更自然、连贯的回答。
然而,DeepSeek 完全放弃了人类反馈,直接让 AI 通过自我学习进化:1. 他们给 R1-Zero 一组数学、代码、逻辑问题。2. 设置两个奖励函数:
3. AI 自己尝试不同的解法,并优化自己的推理能力。DeepSeek 发现:
R1-Zero 在训练过程中自然学会了推理能力,并且出现了“顿悟时刻”(Aha Moments)!
在训练 R1-Zero 的过程中,研究人员观察到 AI 自己学会了分配更多的时间思考复杂问题。
“顿悟时刻”发生在模型的中间训练阶段。在这一阶段,DeepSeek-R1-Zero 逐渐学会为某些问题分配更多的思考时间,通过重新评估初始解法来寻找更好的答案。
这种现象不仅证明了模型推理能力的成长,也展现了强化学习如何带来意想不到的复杂智能行为。
这与 DeepMind 训练 AlphaGo Zero 时观察到的现象类似:一开始 AI 只会使用简单的策略,但随着训练的进行,AI 逐渐发展出复杂的战术。
1. 加入了少量人工标注的“冷启动”数据,让 AI 学会更自然的表达方式。
先用“冷启动”数据微调 DeepSeek-V3-Base,让 AI 学会基本的推理表达。
最后,使用 RL 训练生成的新数据进行监督微调(SFT),确保 AI 的答案既准确又易读。
如果 AI 也能自己优化记忆和知识整合能力,那 AGI 就真的近在咫尺了!
尽管 DeepSeek 在效率上领先,但 OpenAI 仍然拥有更强的整体模型能力:
他们在受限的 H800 GPU 上实现了全球领先的 AI 模型,说明美国的芯片封锁可能效果有限。
相反,DeepSeek 在受限条件下进行了极限优化,反而创造了更高效的 AI 训练方法。