AI 编年史 Act III——多模态元年，AI 开始「看见」世界

这是 AI 编年史系列的第三篇。

2023 年的主题是开源觉醒——LLaMA 泄露引爆了一整个生态。2024 年的主题完全不同：AI 不再只是读文字，它开始看图、听声音、理解视频、操作电脑。

如果 2023 年是「谁能做出大模型」，2024 年则是「大模型还能做什么」。

时间线：2024 年的七个关键时刻

2024.04——LLaMA 3：开源模型的又一次飞跃

Meta 发布 LLaMA 3（8B 和 70B）。与上一代相比，训练数据量翻了 7 倍（15T tokens），上下文窗口扩展到 8K。8B 版本在多项基准上超越了 Gemma 7B 和 Mistral 7B。

LLaMA 3 的意义不在于某个跑分，而在于开源模型与闭源模型的差距正在系统性地缩小。一年前 LLaMA 2 还在追赶 GPT-3.5，现在 LLaMA 3 70B 已经逼近 GPT-4 级别。

2024.05.13——GPT-4o：AI 第一次「看见」世界

OpenAI 发布 GPT-4o，"o" 代表 omni——全能。

这不是给 GPT-4 加了个图片识别模块。GPT-4o 是一个原生多模态模型：文字、语音、图像在同一个网络里处理，不需要分开编码再拼接。实时语音对话的延迟降到了 232 毫秒——接近人类的反应速度。

发布会上，GPT-4o 用实时语音跟人聊天、看镜头帮人解数学题、根据屏幕内容给建议。所有人的第一反应都一样：这不就是电影《Her》吗？

对工程师来说，GPT-4o 改变的不是某个工作流，而是交互方式本身。你可以截个屏让它解释报错，拍张白板照让它转成代码，甚至对着它说话讨论架构设计。AI 从一个「文字聊天框」变成了一个多感官的协作者。

2024.06.20——Claude 3.5 Sonnet：开发者的「默认选择」

Anthropic 发布 Claude 3.5 Sonnet。

论跑分，它在编程任务上全面超越 GPT-4o——HumanEval 通过率 92%，比 GPT-4o 高出近 10 个百分点。但真正让开发者「用脚投票」的不是跑分，而是体感：它写出来的代码，你改的地方更少。

Claude 3.5 Sonnet 对上下文的理解更精准，对项目结构的把握更好，生成的代码更「像人写的」。它不会动不动就给你一堆过度抽象的设计模式，也不会漏掉边界条件。

从这个模型开始，越来越多的开发者把日常编程从 GPT-4 切换到了 Claude。而这个模型后来成为了 Claude Code 的基础——2025 年最有影响力的 AI 编程工具之一。

2024.09.12——o1-preview：AI 学会了「思考」

OpenAI 发布 o1-preview。这是第一个公开的「推理模型」。

o1 跟之前的所有模型有一个根本区别：它不是直接给答案，而是先想一遍。 在输出之前，o1 会生成一段内部的 chain-of-thought 推理链——把问题分解、逐步推导、自我检查。

效果立竿见影：

国际数学奥林匹克资格考试：83%（GPT-4o 是 13%）
Codeforces 编程竞赛：第 89 百分位
博士级科学推理（GPQA）：首次超越人类专家

这不是更大的模型，而是一种全新的思考方式。o1 证明了一件事：AI 的能力提升不止有 scaling（更大更多），还有 reasoning（更深更慢）。

对行业来说，o1 开创了「推理模型」这个全新赛道。OpenAI 走了第一步，接下来 DeepSeek、Qwen、Gemini 都会跟进——这条线在 2025 年会全面爆发。

2024.10——Claude Computer Use：Agent 从论文走向产品

Anthropic 发布 Claude Computer Use（beta）。

AI 可以操作电脑了。不是通过 API 调接口——是真的在屏幕上移动鼠标、点击按钮、填写表单、切换窗口。Claude 通过截图理解当前屏幕状态，然后决定下一步操作。

这是 2024 年最被低估的发布。因为它标志着AI 从「回答问题的工具」向「执行任务的 Agent」的范式转变。

之前所有的 AI 产品本质上都是「你问我答」——你给输入，它给输出。Computer Use 不一样：你给一个目标，它自己规划步骤、操作界面、处理异常。

虽然 beta 版本的速度和准确率还不够好（完成率约 14.9% 在 OSWorld 基准上），但方向已经明确：AI Agent 不是概念，是产品。

2024.11——ChatGPT 周活跃用户突破 3 亿

一个容易被忽略的里程碑。

2022 年 11 月 ChatGPT 发布时，5 天达到 100 万用户。2024 年 11 月，周活跃用户突破 3 亿。两年时间，从科技圈的玩具变成了全球的基础设施。

3 亿周活意味着什么？微信月活 13 亿，Instagram 月活 20 亿。ChatGPT 用两年时间走完了其他产品十年的路。

AI 不再是前沿技术，它是日常工具。

2024.12——Gemini 2.0 Flash：竞争转向效率

Google 发布 Gemini 2.0 Flash。

这个模型的定位很有意思：不是最强的，而是最快最便宜的。它支持原生图像生成和文本转语音，拥有 100 万 token 的上下文窗口，同时在速度和成本上大幅优于上一代。

Gemini 2.0 Flash 暗示了一个趋势：AI 竞争正在从「谁更强」转向「谁更快更便宜」。 当顶级模型的能力差距越来越小，效率和成本就成了真正的壁垒。这个趋势在 2025 年会被 DeepSeek 推到极致。

两条平行线：感知与推理

回顾 2024 年，有两条清晰的主线：

第一条是「感知」。 GPT-4o 让 AI 第一次真正拥有了多感官能力——看图、听声音、实时对话。AI 从一个只能读文字的系统，变成了一个能「感知」世界的系统。

第二条是「推理」。 o1 证明了 AI 不只是在做模式匹配——给它足够的「思考时间」，它可以进行深度推理。这不是渐进式的改进，而是能力边界的质变。

这两条线在 2024 年是平行的，但在 2025 年会开始交汇：多模态 + 推理 + Agent = 真正有用的 AI 系统。

对工程师意味着什么

2024 年之前，AI 编程助手是「自动补全」——你打几个字，它帮你补完一行。

2024 年之后，AI 编程助手变成了「协作者」：

Claude 3.5 Sonnet 让「用 AI 写代码」从尝鲜变成了日常，生成质量高到你经常直接用，不需要大改
GPT-4o 的多模态 让你可以截图报错、拍白板设计、用语音讨论方案——交互方式从打字变成了对话
o1 的推理能力 让 AI 能处理更复杂的编程任务——不是写一个函数，而是设计一个方案

如果你是在 2024 年下半年开始把 Claude 3.5 Sonnet 当默认编程工具的，你不是少数。这个模型的出现，是 2025 年 AI 编程工具全面爆发的前奏。

2024 年的真正遗产

2024 年最重要的不是某个模型的发布，而是三个范式的确立：

多模态是标配，不是加分项。 GPT-4o 之后，任何不支持图片/语音的模型都显得过时了。
推理是新赛道。 o1 之后，"让模型想一想再回答"成了所有实验室的优先方向。
Agent 是下一站。 Computer Use 虽然还很初级，但方向已经不可逆——AI 会从「回答」走向「行动」。

这三条线在 2025 年会全部加速。下一篇，我们聊推理模型的爆发、DeepSeek 的崛起，以及中国 AI 力量如何改变全球格局。

上一篇：开源觉醒 ← | 下一篇：推理革命与中国力量 →

作者：Steven Chou · GitHub · X @StevenChouAI