Skip to content
← Back
2025-10-01

600 万美元击碎硅谷神话——推理革命与中国力量的崛起

这是 AI 编年史 系列的第四篇,覆盖 2025 年 1 月至 9 月。

一条新闻,6000 亿美元蒸发

2025 年 1 月 20 日,中国 AI 公司 DeepSeek 发布了 R1 推理模型。

这个模型训练成本约 560 万美元(约 279 万 GPU 小时,使用 NVIDIA H800)。它在数学、编程、推理等基准测试上匹敌甚至超越 OpenAI o1。最关键的是——MIT 协议,完全开源,任何人可以下载、部署、商用。

一周后的周一,NVIDIA 股价暴跌 16.9%,市值蒸发近 6000 亿美元——美国上市公司史上最大单日跌幅。

华尔街的逻辑很简单:如果顶级 AI 不再需要天价算力,NVIDIA 的护城河还有多深?


算法战胜算力

DeepSeek R1 的技术栈是这一章最值得理解的内容。

MoE:671B 参数,只激活 37B

R1 基于 DeepSeek V3 架构,采用极度稀疏的 Mixture-of-Experts (MoE) 设计:

  • 总参数量:671B(6710 亿)
  • 每个 token 实际激活:37B(370 亿)
  • 专家结构:1 个共享专家 + 256 个路由专家,每次只激活 8 个

这意味着模型拥有 6710 亿参数的知识储备,但每次推理只消耗 370 亿参数的算力。大脑很大,但每次思考只用相关的那部分神经元。

MLA:KV Cache 压缩 95%

传统 Transformer 的注意力机制需要为每个 token 缓存 Key-Value 对,上下文越长,显存占用越大。DeepSeek 的 Multi-Head Latent Attention (MLA) 把 KV Cache 压缩了约 95%,让长上下文推理的显存需求大幅下降。

FP8 混合精度:榨干每一块芯片

受芯片出口管制限制,DeepSeek 只能使用 H800(而非 H100)。他们用 FP8 混合精度训练在有限硬件上最大化性能——同样的芯片,更聪明的用法。

三项技术叠加,DeepSeek 用不到 600 万美元做到了硅谷花数十亿才做到的事。

这不是"追赶",这是路径创新。


中国开源阵营的集体爆发

DeepSeek 不是孤例。2025 年上半年,中国开源 AI 集体崛起。

阿里 Qwen:全球下载量第一的模型家族

Qwen 2.5 系列以 Apache 2.0 协议发布,覆盖 0.5B 到 72B 共 7 个尺寸,支持 201 种语言。仅 Qwen2.5-7B-Instruct 一个版本在 Hugging Face 上就有超过 1250 万次下载,整个 Qwen 家族累计下载量在全球开源模型中名列前茅。

市场格局被改写

2025 年 1 月,OpenAI 控制全球 AI 市场约 55% 的份额,DeepSeek + Qwen 加起来不到 1%

到 2025 年 9 月,OpenAI 降至约 40%,DeepSeek + Qwen 升至约 15%(DeepSeek 约 6%,Qwen 约 9%)。

丢失的 15 个百分点没有流向 Google 或 Anthropic——几乎全部被中国开源模型吃掉。


闭源阵营的回应

中国开源力量的崛起倒逼了闭源厂商加速迭代。

Claude 3.7 Sonnet(2025.02.24)

Anthropic 发布了"世界上第一个混合推理模型"。用户可以在两种模式间切换:

  • 标准模式:快速响应,功能等同于升级版 Claude 3.5 Sonnet
  • 扩展思考模式:支持最多 128K token 的逐步推理,在数学、物理和编程任务上显著提升

同时发布的还有 Claude Code——一个命令行 AI 编程工具,以研究预览的形式面世。这个工具后来改变了整个 AI 编程格局(下一节详述)。

GPT-5(2025.08.07)

OpenAI 发布了 GPT-5,但它不是一个单一模型,而是一个统一系统

  • 内置路由器自动判断:简单问题用高效模型,复杂问题切换到深度推理(GPT-5 Thinking)
  • 全面多模态:文本、图像、语音的原生融合
  • 在编码、数学、写作、健康等基准上刷新了闭源模型的最佳成绩
  • 幻觉率显著下降,指令跟随能力提升

GPT-5 很强,但它面对的竞争环境已经完全不同——开源模型正在以 1/20 的成本逼近它的水平。


AI 编程:从辅助到主力

2025 年上半年,另一条同样重要的线索是 AI 编程工具的质变。

Claude Code 成为 GitHub 主力

Claude Code 从 2 月的研究预览迅速成长为主导性 AI 编程工具:

  • 2025 年中:日均贡献约 13.5 万个 GitHub 公开 commit,占比约 4%
  • 增长轨迹陡峭,到 2026 年初已翻倍

Claude Code 的核心架构极其简单——一个 while 循环:调模型 → 执行工具 → 把结果喂回去 → 循环。没有 RAG,没有 DAG,没有任务编排器。Anthropic 的哲学是 "Less scaffolding, more model"——当模型足够聪明时,复杂的框架是多余的。

(我后来读完了它的全部源码,发现这一点令人震惊。)

Cursor 2.0:并行 Agent 时代

2025 年下半年(10 月 29 日),Cursor 发布 2.0 版本,带来了范式级的变化:

  • 最多 8 个并行 Agent,每个在独立的 git worktree 中操作
  • 自研编码模型,速度是同级别模型的 4 倍
  • 界面从"文件为中心"变成"Agent 为中心"

工程师的工作方式正在被重新定义:不再是你写代码,而是你管理一组 AI Agent,它们并行工作,你 review 和整合。


封锁与突破

这一章的底层叙事是地缘政治。

2024 年底,拜登政府签署行政令限制对华 AI 芯片出口。NVIDIA 公开批评这一政策"史无前例且被误导"。政策的意图是遏制中国 AI 发展。

结果呢?

DeepSeek 在只能使用 H800(而非 H100)的条件下,通过算法创新实现了对标甚至超越闭源模型的性能。Qwen 在同样的限制下成为全球下载量最大的开源模型家族之一。

芯片管制没有阻止创新,它重新定向了创新。 当你买不到最好的硬件时,你只有一个选择:发明更好的算法。

作为一个中国背景的工程师,我对这件事有特别的共鸣。但数据本身已经说明了一切——600 万美元 vs 数十亿美元,开源 vs 闭源,15% vs 40%。这不是民族情绪,这是效率革命。


这九个月的关键数据

指标2025 年 1 月2025 年 9 月
OpenAI 全球市场份额~55%~40%
DeepSeek + Qwen 市场份额不到 1%~15%
DeepSeek R1 训练成本$5.6M
Claude Code 日均 GitHub commit~135,000(约 4%)
Cursor 并行 Agent 数08

对工程师的启示

1. 成本不是壁垒,算法才是。 DeepSeek 证明了一个团队如果足够聪明,可以用 1/100 的预算达到前沿水平。这个逻辑同样适用于创业公司和个人开发者。

2. 开源正在赢。 不是"有一天会赢",是现在正在赢。如果你还在纯粹依赖闭源 API,是时候认真评估开源替代方案了。

3. AI 编程工具已经过了"辅助"阶段。 Claude Code 日均 13.5 万 commit、Cursor 2.0 的并行 Agent——这不是辅助,这是生产力的根本性变化。不适应的工程师会被适应的工程师拉开差距。


上一篇:← 多模态元年 | 下一篇:Agent 时代 →


作者:Steven Chou · GitHub · X @StevenChouAI