Skip to content
← Back
2024-04-01

AI 编年史 Act II——9 个月,三股力量,终结了 OpenAI 的一家独大

这是 AI 编年史 系列的第二篇。上一篇我们讲了 ChatGPT 如何在 2023 年上半年震撼世界。这一篇,我们讲垄断如何被打破。


一句话总结这 9 个月

2023 年 7 月到 2024 年 3 月,AI 行业的主题只有一个:垄断的终结

OpenAI 的一家独大被三股力量同时冲击——Meta 带头的开源运动、Anthropic 的正面竞争、Google 的迟来醒悟。与此同时,Sam Altman 被开除又回归的宫斗剧,让所有人第一次认真思考一个问题:谁在控制最强的 AI?

答案是:不再是一家公司了。


时间线:9 个月的关键事件

2023.07——Meta 开源 LLaMA 2,引爆开源运动

Meta 发布 LLaMA 2,首次以商业许可开源大模型。参数从 7B 到 70B,任何人可以免费下载、微调、部署。

这件事的意义远超技术本身。LLaMA 2 之前,大模型只有两种玩法:用 OpenAI 的 API,或者自己从头训一个(烧几千万美元)。LLaMA 2 撕开了第三条路:拿开源模型,针对自己的场景微调。

开发者社区的反应是即时的——一周内 Hugging Face 上涌现了数百个基于 LLaMA 2 的微调模型。

2023.08-09——百花齐放

Meta 紧接着发布了 Code Llama,专门针对编程任务优化。开源社区迅速跟进:各种领域微调模型(医疗、法律、金融)在 Hugging Face 上井喷。

这段时间你能看到一个有意思的现象:很多团队发现,一个 13B 的微调模型在特定任务上能打赢通用的 GPT-3.5。模型不一定越大越好,用对了才是关键。

2023.09——Mistral 7B:小模型的逆袭

法国巴黎,一家成立仅 4 个月的创业公司 Mistral AI,发布了 Mistral 7B。

只有 7B 参数,却在多项基准上超越了 LLaMA 2 13B,逼近 LLaMA 2 34B 的表现。更关键的是,它用 Apache 2.0 协议完全开源——比 Meta 的许可更宽松。

Mistral 证明了一件事:你不需要万亿参数和无限算力,精心设计的小模型也能有大模型的能力。 这给整个行业传递了一个信号——AI 的门槛正在被拉低。

2023.11.06——OpenAI DevDay:GPT-4 Turbo 和 GPTs

OpenAI 在这场开发者大会上一口气发布了三个重磅更新:

  • GPT-4 Turbo:128K token 上下文(之前是 8K/32K),价格大幅下调
  • GPTs:用户可以创建自定义的 AI Agent,形成 GPT Store 生态
  • Assistants API:内置文件检索、代码解释器、函数调用

Sam Altman 站在台上描绘了一个愿景:每个人都能创建自己的 AI 助手。GPT Store 要做 AI 时代的 App Store。

当时所有人都觉得 OpenAI 赢麻了。没人知道 11 天后会发生什么。

2023.11.17-20——AI 史上最大的宫斗剧

11 月 17 日,OpenAI 董事会突然宣布解雇 CEO Sam Altman,理由是「在与董事会的沟通中不够坦诚」。

接下来的 72 小时堪比好莱坞剧本:

  1. 微软立刻宣布接纳 Altman,给他一个新 AI 研究团队
  2. 770 名员工中 730 人联名信要求董事会辞职、Altman 回归,否则集体跳槽微软
  3. 11 月 20 日,Altman 回归 OpenAI,董事会重组

表面上是公司治理冲突,深层是 OpenAI 从非营利到商业化转型中积累的结构性矛盾。创始使命是「确保 AGI 造福全人类」,但当你拿了微软 130 亿美元投资、估值 860 亿时,谁来定义什么是「全人类的利益」?

这场宫斗真正改变的是行业心态:没有人再敢把所有赌注压在一家公司上。 企业开始认真评估多供应商策略,开源方案的吸引力陡增。

2023.12——Google 发布 Gemini:迟来的反击

Google 终于拿出了自己的答案——Gemini。号称「原生多模态」,在部分基准上超越 GPT-4。

但发布过程翻了车。演示视频被发现经过剪辑美化,实际测试中 Gemini Pro 大致只有 GPT-3.5 到 GPT-4 之间的水平。社区评价:期望太高,交付不足。

不过 Google 的入场本身就是信号。全球最大的 AI 研究机构(别忘了 Transformer 就是 Google 发明的)认真下场了,OpenAI 的技术领先不再是铁板一块。

2023.12——Mixtral 8x7B:MoE 架构的开源标杆

Mistral 又出手了。这次是 Mixtral 8x7B——采用混合专家(MoE)架构,每次推理只激活 8 个专家中的 2 个,实际计算量远低于参数总量。

结果:性能接近 GPT-3.5 Turbo,但推理成本极低,可以在消费级硬件上运行。

Mixtral 的意义在于证明了开源模型不只是「能用」,而是在性价比上可以碾压闭源 API。对于很多不需要 GPT-4 级别能力的场景,Mixtral 就是更好的选择。

2024.01-02——中国百模大战

中国 AI 赛道在这个时期进入了「密集发布期」:百度文心一言升级、阿里通义千问开源、月之暗面 Kimi 主打超长上下文……

客观地说,这一阶段中国大模型和 GPT-4 之间还有明显差距,多数在 GPT-3.5 到 GPT-4 之间。但有几个趋势值得关注:

  • 价格战已经开始:通义千问把 API 价格压到 OpenAI 的 1/10
  • 场景落地更快:中国团队在客服、电商、教育领域的落地速度全球领先
  • 开源参与度高:通义千问选择了开源路线,加入了全球开源生态

差距存在,但追赶的速度也很真实。后来 DeepSeek 的崛起,正是在这个阶段埋下的种子。

2024.02——Gemini 1.5:100 万 token 上下文

Google 发布 Gemini 1.5,支持 100 万 token 上下文窗口

什么概念?你可以一次性输入一整本书、一个完整的代码仓库、甚至一小时的视频。这不是渐进式的改进,而是量级上的突破。

Gemini 1.5 证明了 Google 在基础研究上的深度——当他们认真做的时候,技术天花板可以被大幅抬高。100 万 token 的上下文窗口,直到一年后才被其他公司追平。

2024.03.04——Claude 3:Anthropic 的正面宣战

Anthropic 发布 Claude 3 系列——三个档位:

  • Haiku:轻量级,响应极快,适合高频低成本场景
  • Sonnet:中等能力,性价比最优
  • Opus:旗舰级,首次在多项基准上匹敌 GPT-4

这是里程碑事件。从 ChatGPT 发布以来,GPT-4 在能力上从未被真正挑战过。Claude 3 Opus 的出现意味着 OpenAI 的技术护城河被正式跨过——至少在部分任务上,Anthropic 做到了同等水平。

更重要的是产品策略:三个档位覆盖不同需求,让开发者可以按场景选择。这种「不是所有任务都需要最强模型」的理念,和 Mistral 的小模型哲学一脉相承。


这 9 个月真正改变了什么

回头看这段历史,变化可以归结为三个层面:

1. 权力结构变了

2023 年 6 月,如果你要用 AI,几乎只有一个选择:OpenAI。到 2024 年 3 月,你至少有五个认真的选项——OpenAI、Anthropic、Google、Mistral、Meta(开源)。

从「一家公司说了算」变成「多方博弈」,这对整个行业都是好事。竞争带来了更低的价格、更多的选择、更快的迭代。

2. 开源从备选变成主流

LLaMA 2 之前,开源模型是「实验品」。LLaMA 2 + Mistral + Mixtral 之后,开源模型成了生产级选项。

这不只是技术选择,更是权力的分散。当模型可以本地部署、自主微调,你就不再受限于任何一家公司的定价、政策或地缘政治立场。开源是 AI 民主化的核心力量。

3. 治理问题浮出水面

Altman 事件把一个尖锐的问题摆到了所有人面前:当 AI 变得足够强大时,谁来监督开发它的组织?

OpenAI 的非营利架构本该是答案,但事实证明它挡不住商业化的压力。这个问题到今天也没有好的解答,但至少从这个时候起,「AI 治理」从学术讨论变成了现实议题。


写在最后

如果 Act I 的主题是「震撼」——ChatGPT 让世界第一次看到大模型的能力,那 Act II 的主题就是「觉醒」——行业意识到不能让一家公司垄断这项技术。

开源运动、正面竞争、治理反思,三条线在这 9 个月里同时展开。它们共同塑造了 2024 年后的 AI 格局:多模型共存、开源与闭源并行、没有永远的赢家。

下一篇,我们进入多模态元年。GPT-4o、Sora、以及 AI 从文字走向视觉和声音的故事。


ChatGPT 震撼 ← | AI 编年史系列 | 多模态元年 →


作者:Steven Chou · GitHub