600 万美元击碎硅谷神话——推理革命与中国力量的崛起

这是 AI 编年史系列的第四篇，覆盖 2025 年 1 月至 9 月。

一条新闻，6000 亿美元蒸发

2025 年 1 月 20 日，中国 AI 公司 DeepSeek 发布了 R1 推理模型。

这个模型训练成本约 560 万美元（约 279 万 GPU 小时，使用 NVIDIA H800）。它在数学、编程、推理等基准测试上匹敌甚至超越 OpenAI o1。最关键的是——MIT 协议，完全开源，任何人可以下载、部署、商用。

一周后的周一，NVIDIA 股价暴跌 16.9%，市值蒸发近 6000 亿美元——美国上市公司史上最大单日跌幅。

华尔街的逻辑很简单：如果顶级 AI 不再需要天价算力，NVIDIA 的护城河还有多深？

算法战胜算力

DeepSeek R1 的技术栈是这一章最值得理解的内容。

MoE：671B 参数，只激活 37B

R1 基于 DeepSeek V3 架构，采用极度稀疏的 Mixture-of-Experts (MoE) 设计：

总参数量：671B（6710 亿）
每个 token 实际激活：37B（370 亿）
专家结构：1 个共享专家 + 256 个路由专家，每次只激活 8 个

这意味着模型拥有 6710 亿参数的知识储备，但每次推理只消耗 370 亿参数的算力。大脑很大，但每次思考只用相关的那部分神经元。

MLA：KV Cache 压缩 95%

传统 Transformer 的注意力机制需要为每个 token 缓存 Key-Value 对，上下文越长，显存占用越大。DeepSeek 的 Multi-Head Latent Attention (MLA) 把 KV Cache 压缩了约 95%，让长上下文推理的显存需求大幅下降。

FP8 混合精度：榨干每一块芯片

受芯片出口管制限制，DeepSeek 只能使用 H800（而非 H100）。他们用 FP8 混合精度训练在有限硬件上最大化性能——同样的芯片，更聪明的用法。

三项技术叠加，DeepSeek 用不到 600 万美元做到了硅谷花数十亿才做到的事。

这不是"追赶"，这是路径创新。

中国开源阵营的集体爆发

DeepSeek 不是孤例。2025 年上半年，中国开源 AI 集体崛起。

阿里 Qwen：全球下载量第一的模型家族

Qwen 2.5 系列以 Apache 2.0 协议发布，覆盖 0.5B 到 72B 共 7 个尺寸，支持 201 种语言。仅 Qwen2.5-7B-Instruct 一个版本在 Hugging Face 上就有超过 1250 万次下载，整个 Qwen 家族累计下载量在全球开源模型中名列前茅。

市场格局被改写

2025 年 1 月，OpenAI 控制全球 AI 市场约 55% 的份额，DeepSeek + Qwen 加起来不到 1%。

到 2025 年 9 月，OpenAI 降至约 40%，DeepSeek + Qwen 升至约 15%（DeepSeek 约 6%，Qwen 约 9%）。

丢失的 15 个百分点没有流向 Google 或 Anthropic——几乎全部被中国开源模型吃掉。

闭源阵营的回应

中国开源力量的崛起倒逼了闭源厂商加速迭代。

Claude 3.7 Sonnet（2025.02.24）

Anthropic 发布了"世界上第一个混合推理模型"。用户可以在两种模式间切换：

标准模式：快速响应，功能等同于升级版 Claude 3.5 Sonnet
扩展思考模式：支持最多 128K token 的逐步推理，在数学、物理和编程任务上显著提升

同时发布的还有 Claude Code——一个命令行 AI 编程工具，以研究预览的形式面世。这个工具后来改变了整个 AI 编程格局（下一节详述）。

GPT-5（2025.08.07）

OpenAI 发布了 GPT-5，但它不是一个单一模型，而是一个统一系统：

内置路由器自动判断：简单问题用高效模型，复杂问题切换到深度推理（GPT-5 Thinking）
全面多模态：文本、图像、语音的原生融合
在编码、数学、写作、健康等基准上刷新了闭源模型的最佳成绩
幻觉率显著下降，指令跟随能力提升

GPT-5 很强，但它面对的竞争环境已经完全不同——开源模型正在以 1/20 的成本逼近它的水平。

AI 编程：从辅助到主力

2025 年上半年，另一条同样重要的线索是 AI 编程工具的质变。

Claude Code 成为 GitHub 主力

Claude Code 从 2 月的研究预览迅速成长为主导性 AI 编程工具：

2025 年中：日均贡献约 13.5 万个 GitHub 公开 commit，占比约 4%
增长轨迹陡峭，到 2026 年初已翻倍

Claude Code 的核心架构极其简单——一个 while 循环：调模型 → 执行工具 → 把结果喂回去 → 循环。没有 RAG，没有 DAG，没有任务编排器。Anthropic 的哲学是 "Less scaffolding, more model"——当模型足够聪明时，复杂的框架是多余的。

（我后来读完了它的全部源码，发现这一点令人震惊。）

Cursor 2.0：并行 Agent 时代

2025 年下半年（10 月 29 日），Cursor 发布 2.0 版本，带来了范式级的变化：

最多 8 个并行 Agent，每个在独立的 git worktree 中操作
自研编码模型，速度是同级别模型的 4 倍
界面从"文件为中心"变成"Agent 为中心"

工程师的工作方式正在被重新定义：不再是你写代码，而是你管理一组 AI Agent，它们并行工作，你 review 和整合。

封锁与突破

这一章的底层叙事是地缘政治。

2024 年底，拜登政府签署行政令限制对华 AI 芯片出口。NVIDIA 公开批评这一政策"史无前例且被误导"。政策的意图是遏制中国 AI 发展。

结果呢？

DeepSeek 在只能使用 H800（而非 H100）的条件下，通过算法创新实现了对标甚至超越闭源模型的性能。Qwen 在同样的限制下成为全球下载量最大的开源模型家族之一。

芯片管制没有阻止创新，它重新定向了创新。 当你买不到最好的硬件时，你只有一个选择：发明更好的算法。

作为一个中国背景的工程师，我对这件事有特别的共鸣。但数据本身已经说明了一切——600 万美元 vs 数十亿美元，开源 vs 闭源，15% vs 40%。这不是民族情绪，这是效率革命。

这九个月的关键数据

指标	2025 年 1 月	2025 年 9 月
OpenAI 全球市场份额	~55%	~40%
DeepSeek + Qwen 市场份额	不到 1%	~15%
DeepSeek R1 训练成本	$5.6M	—
Claude Code 日均 GitHub commit	—	~135,000（约 4%）
Cursor 并行 Agent 数	0	8

对工程师的启示

1. 成本不是壁垒，算法才是。 DeepSeek 证明了一个团队如果足够聪明，可以用 1/100 的预算达到前沿水平。这个逻辑同样适用于创业公司和个人开发者。

2. 开源正在赢。 不是"有一天会赢"，是现在正在赢。如果你还在纯粹依赖闭源 API，是时候认真评估开源替代方案了。

3. AI 编程工具已经过了"辅助"阶段。 Claude Code 日均 13.5 万 commit、Cursor 2.0 的并行 Agent——这不是辅助，这是生产力的根本性变化。不适应的工程师会被适应的工程师拉开差距。

上一篇：← 多模态元年 | 下一篇：Agent 时代 →

作者：Steven Chou · GitHub · X @StevenChouAI