AI 编年史 Act III——多模态元年,AI 开始「看见」世界
这是 AI 编年史 系列的第三篇。
2023 年的主题是开源觉醒——LLaMA 泄露引爆了一整个生态。2024 年的主题完全不同:AI 不再只是读文字,它开始看图、听声音、理解视频、操作电脑。
如果 2023 年是「谁能做出大模型」,2024 年则是「大模型还能做什么」。
时间线:2024 年的七个关键时刻
2024.04——LLaMA 3:开源模型的又一次飞跃
Meta 发布 LLaMA 3(8B 和 70B)。与上一代相比,训练数据量翻了 7 倍(15T tokens),上下文窗口扩展到 8K。8B 版本在多项基准上超越了 Gemma 7B 和 Mistral 7B。
LLaMA 3 的意义不在于某个跑分,而在于开源模型与闭源模型的差距正在系统性地缩小。一年前 LLaMA 2 还在追赶 GPT-3.5,现在 LLaMA 3 70B 已经逼近 GPT-4 级别。
2024.05.13——GPT-4o:AI 第一次「看见」世界
OpenAI 发布 GPT-4o,"o" 代表 omni——全能。
这不是给 GPT-4 加了个图片识别模块。GPT-4o 是一个原生多模态模型:文字、语音、图像在同一个网络里处理,不需要分开编码再拼接。实时语音对话的延迟降到了 232 毫秒——接近人类的反应速度。
发布会上,GPT-4o 用实时语音跟人聊天、看镜头帮人解数学题、根据屏幕内容给建议。所有人的第一反应都一样:这不就是电影《Her》吗?
对工程师来说,GPT-4o 改变的不是某个工作流,而是交互方式本身。你可以截个屏让它解释报错,拍张白板照让它转成代码,甚至对着它说话讨论架构设计。AI 从一个「文字聊天框」变成了一个多感官的协作者。
2024.06.20——Claude 3.5 Sonnet:开发者的「默认选择」
Anthropic 发布 Claude 3.5 Sonnet。
论跑分,它在编程任务上全面超越 GPT-4o——HumanEval 通过率 92%,比 GPT-4o 高出近 10 个百分点。但真正让开发者「用脚投票」的不是跑分,而是体感:它写出来的代码,你改的地方更少。
Claude 3.5 Sonnet 对上下文的理解更精准,对项目结构的把握更好,生成的代码更「像人写的」。它不会动不动就给你一堆过度抽象的设计模式,也不会漏掉边界条件。
从这个模型开始,越来越多的开发者把日常编程从 GPT-4 切换到了 Claude。而这个模型后来成为了 Claude Code 的基础——2025 年最有影响力的 AI 编程工具之一。
2024.09.12——o1-preview:AI 学会了「思考」
OpenAI 发布 o1-preview。这是第一个公开的「推理模型」。
o1 跟之前的所有模型有一个根本区别:它不是直接给答案,而是先想一遍。 在输出之前,o1 会生成一段内部的 chain-of-thought 推理链——把问题分解、逐步推导、自我检查。
效果立竿见影:
- 国际数学奥林匹克资格考试:83%(GPT-4o 是 13%)
- Codeforces 编程竞赛:第 89 百分位
- 博士级科学推理(GPQA):首次超越人类专家
这不是更大的模型,而是一种全新的思考方式。o1 证明了一件事:AI 的能力提升不止有 scaling(更大更多),还有 reasoning(更深更慢)。
对行业来说,o1 开创了「推理模型」这个全新赛道。OpenAI 走了第一步,接下来 DeepSeek、Qwen、Gemini 都会跟进——这条线在 2025 年会全面爆发。
2024.10——Claude Computer Use:Agent 从论文走向产品
Anthropic 发布 Claude Computer Use(beta)。
AI 可以操作电脑了。不是通过 API 调接口——是真的在屏幕上移动鼠标、点击按钮、填写表单、切换窗口。Claude 通过截图理解当前屏幕状态,然后决定下一步操作。
这是 2024 年最被低估的发布。因为它标志着AI 从「回答问题的工具」向「执行任务的 Agent」的范式转变。
之前所有的 AI 产品本质上都是「你问我答」——你给输入,它给输出。Computer Use 不一样:你给一个目标,它自己规划步骤、操作界面、处理异常。
虽然 beta 版本的速度和准确率还不够好(完成率约 14.9% 在 OSWorld 基准上),但方向已经明确:AI Agent 不是概念,是产品。
2024.11——ChatGPT 周活跃用户突破 3 亿
一个容易被忽略的里程碑。
2022 年 11 月 ChatGPT 发布时,5 天达到 100 万用户。2024 年 11 月,周活跃用户突破 3 亿。两年时间,从科技圈的玩具变成了全球的基础设施。
3 亿周活意味着什么?微信月活 13 亿,Instagram 月活 20 亿。ChatGPT 用两年时间走完了其他产品十年的路。
AI 不再是前沿技术,它是日常工具。
2024.12——Gemini 2.0 Flash:竞争转向效率
Google 发布 Gemini 2.0 Flash。
这个模型的定位很有意思:不是最强的,而是最快最便宜的。它支持原生图像生成和文本转语音,拥有 100 万 token 的上下文窗口,同时在速度和成本上大幅优于上一代。
Gemini 2.0 Flash 暗示了一个趋势:AI 竞争正在从「谁更强」转向「谁更快更便宜」。 当顶级模型的能力差距越来越小,效率和成本就成了真正的壁垒。这个趋势在 2025 年会被 DeepSeek 推到极致。
两条平行线:感知与推理
回顾 2024 年,有两条清晰的主线:
第一条是「感知」。 GPT-4o 让 AI 第一次真正拥有了多感官能力——看图、听声音、实时对话。AI 从一个只能读文字的系统,变成了一个能「感知」世界的系统。
第二条是「推理」。 o1 证明了 AI 不只是在做模式匹配——给它足够的「思考时间」,它可以进行深度推理。这不是渐进式的改进,而是能力边界的质变。
这两条线在 2024 年是平行的,但在 2025 年会开始交汇:多模态 + 推理 + Agent = 真正有用的 AI 系统。
对工程师意味着什么
2024 年之前,AI 编程助手是「自动补全」——你打几个字,它帮你补完一行。
2024 年之后,AI 编程助手变成了「协作者」:
- Claude 3.5 Sonnet 让「用 AI 写代码」从尝鲜变成了日常,生成质量高到你经常直接用,不需要大改
- GPT-4o 的多模态 让你可以截图报错、拍白板设计、用语音讨论方案——交互方式从打字变成了对话
- o1 的推理能力 让 AI 能处理更复杂的编程任务——不是写一个函数,而是设计一个方案
如果你是在 2024 年下半年开始把 Claude 3.5 Sonnet 当默认编程工具的,你不是少数。这个模型的出现,是 2025 年 AI 编程工具全面爆发的前奏。
2024 年的真正遗产
2024 年最重要的不是某个模型的发布,而是三个范式的确立:
- 多模态是标配,不是加分项。 GPT-4o 之后,任何不支持图片/语音的模型都显得过时了。
- 推理是新赛道。 o1 之后,"让模型想一想再回答"成了所有实验室的优先方向。
- Agent 是下一站。 Computer Use 虽然还很初级,但方向已经不可逆——AI 会从「回答」走向「行动」。
这三条线在 2025 年会全部加速。下一篇,我们聊推理模型的爆发、DeepSeek 的崛起,以及中国 AI 力量如何改变全球格局。
上一篇:开源觉醒 ← | 下一篇:推理革命与中国力量 →
作者:Steven Chou · GitHub · X @StevenChouAI