AI 编年史 Act II——9 个月，三股力量，终结了 OpenAI 的一家独大

这是 AI 编年史系列的第二篇。上一篇我们讲了 ChatGPT 如何在 2023 年上半年震撼世界。这一篇，我们讲垄断如何被打破。

一句话总结这 9 个月

2023 年 7 月到 2024 年 3 月，AI 行业的主题只有一个：垄断的终结。

OpenAI 的一家独大被三股力量同时冲击——Meta 带头的开源运动、Anthropic 的正面竞争、Google 的迟来醒悟。与此同时，Sam Altman 被开除又回归的宫斗剧，让所有人第一次认真思考一个问题：谁在控制最强的 AI？

答案是：不再是一家公司了。

时间线：9 个月的关键事件

2023.07——Meta 开源 LLaMA 2，引爆开源运动

Meta 发布 LLaMA 2，首次以商业许可开源大模型。参数从 7B 到 70B，任何人可以免费下载、微调、部署。

这件事的意义远超技术本身。LLaMA 2 之前，大模型只有两种玩法：用 OpenAI 的 API，或者自己从头训一个（烧几千万美元）。LLaMA 2 撕开了第三条路：拿开源模型，针对自己的场景微调。

开发者社区的反应是即时的——一周内 Hugging Face 上涌现了数百个基于 LLaMA 2 的微调模型。

2023.08-09——百花齐放

Meta 紧接着发布了 Code Llama，专门针对编程任务优化。开源社区迅速跟进：各种领域微调模型（医疗、法律、金融）在 Hugging Face 上井喷。

这段时间你能看到一个有意思的现象：很多团队发现，一个 13B 的微调模型在特定任务上能打赢通用的 GPT-3.5。模型不一定越大越好，用对了才是关键。

2023.09——Mistral 7B：小模型的逆袭

法国巴黎，一家成立仅 4 个月的创业公司 Mistral AI，发布了 Mistral 7B。

只有 7B 参数，却在多项基准上超越了 LLaMA 2 13B，逼近 LLaMA 2 34B 的表现。更关键的是，它用 Apache 2.0 协议完全开源——比 Meta 的许可更宽松。

Mistral 证明了一件事：你不需要万亿参数和无限算力，精心设计的小模型也能有大模型的能力。 这给整个行业传递了一个信号——AI 的门槛正在被拉低。

2023.11.06——OpenAI DevDay：GPT-4 Turbo 和 GPTs

OpenAI 在这场开发者大会上一口气发布了三个重磅更新：

GPT-4 Turbo：128K token 上下文（之前是 8K/32K），价格大幅下调
GPTs：用户可以创建自定义的 AI Agent，形成 GPT Store 生态
Assistants API：内置文件检索、代码解释器、函数调用

Sam Altman 站在台上描绘了一个愿景：每个人都能创建自己的 AI 助手。GPT Store 要做 AI 时代的 App Store。

当时所有人都觉得 OpenAI 赢麻了。没人知道 11 天后会发生什么。

2023.11.17-20——AI 史上最大的宫斗剧

11 月 17 日，OpenAI 董事会突然宣布解雇 CEO Sam Altman，理由是「在与董事会的沟通中不够坦诚」。

接下来的 72 小时堪比好莱坞剧本：

微软立刻宣布接纳 Altman，给他一个新 AI 研究团队
770 名员工中 730 人联名信要求董事会辞职、Altman 回归，否则集体跳槽微软
11 月 20 日，Altman 回归 OpenAI，董事会重组

表面上是公司治理冲突，深层是 OpenAI 从非营利到商业化转型中积累的结构性矛盾。创始使命是「确保 AGI 造福全人类」，但当你拿了微软 130 亿美元投资、估值 860 亿时，谁来定义什么是「全人类的利益」？

这场宫斗真正改变的是行业心态：没有人再敢把所有赌注压在一家公司上。 企业开始认真评估多供应商策略，开源方案的吸引力陡增。

2023.12——Google 发布 Gemini：迟来的反击

Google 终于拿出了自己的答案——Gemini。号称「原生多模态」，在部分基准上超越 GPT-4。

但发布过程翻了车。演示视频被发现经过剪辑美化，实际测试中 Gemini Pro 大致只有 GPT-3.5 到 GPT-4 之间的水平。社区评价：期望太高，交付不足。

不过 Google 的入场本身就是信号。全球最大的 AI 研究机构（别忘了 Transformer 就是 Google 发明的）认真下场了，OpenAI 的技术领先不再是铁板一块。

2023.12——Mixtral 8x7B：MoE 架构的开源标杆

Mistral 又出手了。这次是 Mixtral 8x7B——采用混合专家（MoE）架构，每次推理只激活 8 个专家中的 2 个，实际计算量远低于参数总量。

结果：性能接近 GPT-3.5 Turbo，但推理成本极低，可以在消费级硬件上运行。

Mixtral 的意义在于证明了开源模型不只是「能用」，而是在性价比上可以碾压闭源 API。对于很多不需要 GPT-4 级别能力的场景，Mixtral 就是更好的选择。

2024.01-02——中国百模大战

中国 AI 赛道在这个时期进入了「密集发布期」：百度文心一言升级、阿里通义千问开源、月之暗面 Kimi 主打超长上下文……

客观地说，这一阶段中国大模型和 GPT-4 之间还有明显差距，多数在 GPT-3.5 到 GPT-4 之间。但有几个趋势值得关注：

价格战已经开始：通义千问把 API 价格压到 OpenAI 的 1/10
场景落地更快：中国团队在客服、电商、教育领域的落地速度全球领先
开源参与度高：通义千问选择了开源路线，加入了全球开源生态

差距存在，但追赶的速度也很真实。后来 DeepSeek 的崛起，正是在这个阶段埋下的种子。

2024.02——Gemini 1.5：100 万 token 上下文

Google 发布 Gemini 1.5，支持 100 万 token 上下文窗口。

什么概念？你可以一次性输入一整本书、一个完整的代码仓库、甚至一小时的视频。这不是渐进式的改进，而是量级上的突破。

Gemini 1.5 证明了 Google 在基础研究上的深度——当他们认真做的时候，技术天花板可以被大幅抬高。100 万 token 的上下文窗口，直到一年后才被其他公司追平。

2024.03.04——Claude 3：Anthropic 的正面宣战

Anthropic 发布 Claude 3 系列——三个档位：

Haiku：轻量级，响应极快，适合高频低成本场景
Sonnet：中等能力，性价比最优
Opus：旗舰级，首次在多项基准上匹敌 GPT-4

这是里程碑事件。从 ChatGPT 发布以来，GPT-4 在能力上从未被真正挑战过。Claude 3 Opus 的出现意味着 OpenAI 的技术护城河被正式跨过——至少在部分任务上，Anthropic 做到了同等水平。

更重要的是产品策略：三个档位覆盖不同需求，让开发者可以按场景选择。这种「不是所有任务都需要最强模型」的理念，和 Mistral 的小模型哲学一脉相承。

这 9 个月真正改变了什么

回头看这段历史，变化可以归结为三个层面：

1. 权力结构变了

2023 年 6 月，如果你要用 AI，几乎只有一个选择：OpenAI。到 2024 年 3 月，你至少有五个认真的选项——OpenAI、Anthropic、Google、Mistral、Meta（开源）。

从「一家公司说了算」变成「多方博弈」，这对整个行业都是好事。竞争带来了更低的价格、更多的选择、更快的迭代。

2. 开源从备选变成主流

LLaMA 2 之前，开源模型是「实验品」。LLaMA 2 + Mistral + Mixtral 之后，开源模型成了生产级选项。

这不只是技术选择，更是权力的分散。当模型可以本地部署、自主微调，你就不再受限于任何一家公司的定价、政策或地缘政治立场。开源是 AI 民主化的核心力量。

3. 治理问题浮出水面

Altman 事件把一个尖锐的问题摆到了所有人面前：当 AI 变得足够强大时，谁来监督开发它的组织？

OpenAI 的非营利架构本该是答案，但事实证明它挡不住商业化的压力。这个问题到今天也没有好的解答，但至少从这个时候起，「AI 治理」从学术讨论变成了现实议题。

写在最后

如果 Act I 的主题是「震撼」——ChatGPT 让世界第一次看到大模型的能力，那 Act II 的主题就是「觉醒」——行业意识到不能让一家公司垄断这项技术。

开源运动、正面竞争、治理反思，三条线在这 9 个月里同时展开。它们共同塑造了 2024 年后的 AI 格局：多模型共存、开源与闭源并行、没有永远的赢家。

下一篇，我们进入多模态元年。GPT-4o、Sora、以及 AI 从文字走向视觉和声音的故事。

ChatGPT 震撼 ← | AI 编年史系列 | 多模态元年 →

作者：Steven Chou · GitHub