AI 模型资料馆第 3 课的补充资料 回到第 3 课

资料馆

常见模型家族,不用背,学会比较。

下面不是排行榜。它只是帮助你知道:世界上有许多团队在做 AI,不同模型擅长的事、开放方式和使用平台不一样。把它当成“AI 品牌地图”看就好,不用背。

OpenAI GPT常见:GPT-5.5、GPT-5.2、GPT-5 mini、Sora 2、GPT Image 1.5

常用于聊天、写作、编程、推理、多模态、图像视频生成和工具调用。

Anthropic Claude常见:Claude Opus、Sonnet、Haiku

常用于长文档、写作、代码、电脑操作和复杂任务协作。

Google Gemini常见:Gemini 3 Pro、Gemini 3 Flash、Gemini 2.5 Flash

强调多模态、搜索关联、长上下文和与 Google 工具结合。可以把“长上下文”想成桌面更大,能摊开更多资料。

Meta Llama常见:Llama 4 Scout、Maverick

许多版本属于开放权重,开发者可以下载、运行或改造。它有点像能拿回家研究的积木盒。

Alibaba Qwen常见:Qwen3、Qwen3-VL、Qwen3-Omni

在中文、代码、多模态和开放模型生态里很常见。

DeepSeek常见:DeepSeek-V4-Pro、DeepSeek-V4-Flash、DeepSeek-V3.2

常被拿来做数学、代码、推理、工具使用和开放模型讨论。“推理”可以先理解成写草稿、分步骤想。

Baidu 文心 / ERNIE常见:ERNIE 4.5、ERNIE X1

中文生态里的基础模型和推理模型,常与搜索、云服务结合。

豆包 / Seed、Kimi、Mistral还有很多重要队伍

豆包来自字节跳动生态,Kimi 有 K2 系列模型,Mistral 有开放权重、代码、语音和多模态模型。

模型更新很快。版本号像运动鞋的新款,会不断换。真正要学的是:比较能力、看清限制、知道什么时候该查证,而不是追着版本号跑。

看模型时问 4 个问题

输入

像投进机器的材料:它能读文字、图片、声音、视频还是文件?

输出

像机器做出的成品:它能写回答、画图、生成视频、写代码还是做表格?

工具

像它能拿到的文具:它能不能搜索、计算、读取文件或运行代码?

检查

像验算和查字典:它的回答需要用什么资料核对?