大模型的开源，到底开源了什么

大模型时代喊的"开源"，99% 不是你以为的那种开源。

当我们说 Linux 开源、Redis 开源的时候，意思很明确：把软件的"设计图纸"——源代码——全部公开，任何人都可以照着图纸把软件重新造一遍。这是软件的开源，公开图纸就等于公开一切。

但大模型的开源是一件根本不同的事。大模型的能力不在图纸里，而在一堆"经验"里——几千亿个数字，是用海量数据和巨额算力"喂"出来的，不是人一行一行写出来的。你可以公开这些数字，但别人拿到了也不知道你是怎么喂出来的。这是AI 的开源，它和软件开源之间的鸿沟，比大多数人意识到的要深得多。

深到什么程度？全球最权威的开源组织 OSI（开源促进会）在 2024 年 10 月专门发布了《开源 AI 定义 1.0》¹，试图从头定义"AI 的开源到底应该是什么"——光是需要重新定义这件事本身，就说明传统软件开源的框架已经装不下大模型了。2026 年全国两会期间，中科院院士、阿里云创始人王坚更是直接呼吁：别再说"开源大模型"了，应该叫"开放权重模型"——因为你开放出去的不是一段代码，而是背后烧掉的电费和算力²。

这篇文章想做一件事：把大模型"开源"这个词拆开，一层一层看清楚里面到底装了什么。

大模型的"源代码"不是代码

软件开源的逻辑很简单：一个程序员写了一段代码，公开了，别人照着代码就能把同样的软件跑起来，还能改。代码就是全部，公开代码就是公开一切。

大模型完全不是这么回事。它的核心不是人写的代码，而是一种叫权重（weights）的东西——你可以把它理解成模型的"肌肉记忆"。就像一个厨师做了十年菜，他的手感、火候判断、调味直觉，全都长在身体里，不是写在菜谱上的。大模型的权重也一样：几十亿到几千亿个数字，是模型在海量数据上反复训练出来的结果。没有人能看懂这些数字具体是什么意思，但把它们加载到程序里，模型就能回答问题、写代码、做翻译。

关键区别在这里：公开厨师做好的菜，不等于公开他十年练出来的手艺。公开权重，不等于公开训练权重的方法。这就是 AI 开源和软件开源的根本区别。

所以，大模型的世界里，“源代码"这个概念被拆成了至少四层：

层	是什么	厨师类比
权重	模型训练出来的"肌肉记忆”	厨师十年练出来的手感和味觉直觉
推理代码	让模型跑起来的程序	把菜端上桌的流程
训练代码	从零训练模型的完整方法	厨师十年来的全部训练方法和食谱
训练数据	喂给模型学习的海量文本、图像等	厨师吃过的所有菜、看过的所有菜谱

传统软件开源，相当于把食谱和做法全部公开。大模型"开源"，大多数时候只是把做好的菜端出来，告诉你怎么加热和摆盘。

三种"开源"，差别巨大

明白了这四层之后，我们就可以看清楚：市面上号称"开源"的大模型，其实分成了截然不同的三种模式。

开放权重：给你成品，不给你生产车间

这是目前最主流的模式。Qwen、Llama 3、Gemma、Mistral——全球下载量最大的开源模型，几乎都属于这一类。

阿里的 Qwen（通义千问）是这个模式的典型代表。 你可以免费下载它全系列的模型——从轻量级的小模型到最新的 Qwen 3.5 旗舰版，附带使用说明和示例代码。你能拿它在自己的电脑或服务器上跑起来，用自己的数据做定制化训练（行话叫"微调"），甚至基于它做出更小的模型拿去商用。Qwen 的下载量已突破 7 亿次，全球开发者基于它做出的衍生模型超过 18 万个³——这个生态的繁荣，完全建立在"开放权重"这个模式之上。

但你拿不到的东西同样重要：Qwen 是怎么从零开始训练出来的？喂了什么数据？数据怎么筛选和清洗的？训练过程中几百个关键参数是怎么调的？模型怎么学会"像人一样说话"的？这些全都没有公开。你拿到了一个训练好的模型，但完全不知道它是怎么炼成的。

值得注意的是，即便同属"开放权重"，“使用条款"之间的差异也不小。Qwen 用的是最宽松的 Apache 2.0 协议——随便用、随便改、随便商用，没有附加限制。Meta 的 Llama 3 则有门槛：如果你的产品月活用户超过 7 亿，需要单独找 Meta 谈授权。Google 的 Gemma 更严格：明确禁止你用它的模型去训练竞品。同样叫"开放权重”，你能拿它做什么，差别可以很大。

一句话：给你成品模型和使用手册，不给你生产车间的图纸。

代码+权重双开源：给你成品，也给你图纸

DeepSeek 走了一条不同的路。 它不仅开放了训练好的模型，还把"怎么训练的"也公开了——模型的架构设计、训练流程、核心算法优化，全部以最宽松的 MIT 协议放在了 GitHub 上。

这意味着什么？打个比方：Qwen 模式相当于给你一辆造好的车，你可以开、可以改装，但你不知道这辆车是怎么从零造出来的。DeepSeek 模式相当于不仅给你车，还给你整条生产线的图纸。我认识一个三人创业团队，他们拿到 DeepSeek 的训练代码后两周，就在自己的服务器上跑通了一个缩小版的训练流程——如果只有模型没有代码，他们顶多能给车换个轮毂；有了代码，他们可以造自己的车。全球数十个团队在几周内做出了类似的事情。

DeepSeek-V3 的训练成本约为 557.6 万美元⁴——这个数字之所以轰动，是因为 OpenAI 训练 GPT-4 花了大约 1 亿美元⁵，DeepSeek 用不到其十八分之一的钱，做出了接近的效果。但即便是 DeepSeek，也没有公开原始训练数据——也就是"喂"给模型学习的那些海量文本。这些数据涉及版权、隐私等法律问题，目前没有任何商业公司能完全公开训练数据而不面临法律风险。

一句话：给你成品模型、使用手册和生产车间的图纸，但原材料的配方还是保密的。

完全开源：连原材料都告诉你

这是最彻底的模式，也是最稀少的。艾伦人工智能研究院（AI2）的 OLMo 是目前最接近"完全开源"的大模型。 它公开了一切：训练代码、模型权重、训练数据（约 3 万亿条文本片段）、训练日志，甚至训练过程中的中间产物。换句话说，任何人都可以从零开始，用同样的材料和方法，把同一个模型重新训练一遍。在 OSI 对主流模型的评估中，OLMo 是少数真正达标的模型之一¹。

按照 OSI 的标准，一个 AI 系统要被称为"开源"，必须开放到让别人能从头复现的程度——数据、代码、模型参数，一个都不能少¹。按照这个标准，目前市面上绝大多数号称"开源"的大模型，严格来说都不算开源——Llama、Qwen、Mixtral 统统没达标¹。

这不是在苛责谁。OSI 的定义更像是一个理想标杆，而现实中的大模型开源是一个光谱——从完全封闭（GPT-4o、Claude）到开放权重（Qwen、Llama）到代码+权重双开源（DeepSeek）到接近完全开源（OLMo），每一步都在向更开放的方向移动，但每一步也都有自己的商业和法律约束。

当核心资产从代码变成权重，协作方式也变了

核心资产变了，围绕它的协作方式自然也跟着变了。传统软件开源的协作发生在 GitHub 上——大家一起改代码。但大模型时代，技术报告和 Hugging Face 这两样东西的重要性，已经超过了代码仓库本身。

为什么？因为当一个模型只开放权重的时候，代码仓库里其实没多少东西可看——主要就是使用说明和示例。那真正的技术含量去哪了？

去了技术报告里。你可以把技术报告理解成一篇详细的"造车说明书"——虽然不给你生产线，但告诉你这辆车的发动机是怎么设计的、为什么这么设计、和别的车比好在哪里。Qwen 的技术报告详细描述了模型怎么设计、怎么训练、效果怎么评测。DeepSeek-V3 的技术报告更是被全球研究者当教科书来读。Qwen 技术报告单篇被学术界引用超过 6000 次⁶，不是因为大家在引用它的代码，而是因为报告本身就是最重要的技术贡献。在传统软件世界里，代码自己会说话；但在大模型世界里，权重是一堆"看不懂的数字"，技术报告成了唯一能让外界理解"这个模型为什么好"的窗口。

而模型本身的分享和协作，则发生在 Hugging Face 上——你可以把它理解成"大模型界的应用商店"，只不过里面放的不是 App，而是模型。开发者在这里下载模型、上传自己定制化训练后的版本、分享压缩版本、讨论使用问题。Qwen 在 Hugging Face 上的下载量已突破 7 亿次，衍生模型超过 18 万个³。GitHub 是代码时代的协作基础设施，Hugging Face 是权重时代的协作基础设施。

为什么大多数公司只开放权重

理解了分层之后，一个自然的问题是：为什么不全部开放？

第一层是钱。 训练一个顶级大模型，算力成本动辄数千万美元。DeepSeek-V3 花了约 557.6 万美元⁴，已经是业界最省的了；OpenAI 训练 GPT-4 估计花了 1 亿美元⁵。完整公开训练代码和数据，等于把这笔巨额投资的核心产出免费送给竞争对手——哪家公司愿意？

第二层是官司。 这一层的压力可能比钱还大。大模型的训练数据从哪来？绝大部分是从互联网上抓取的——新闻、图片、书籍、论坛帖子，什么都有。这些内容的版权归谁？没人说得清。2023 年底，《纽约时报》直接把 OpenAI 和微软告上了法庭，说你们拿我几百万篇文章训练 AI 却不付钱，索赔数十亿美元⁷。图片库 Getty Images 也起诉了 Stability AI，说你们用了我 1200 万张图片训练 AI 画画⁸。在这种环境下，完全公开训练数据，几乎等于在法庭上主动提交证据。

第三层是核心竞争力。 训练代码里藏着一个团队最值钱的东西：怎么筛选和清洗数据、几百个关键参数怎么调、怎么让模型"学会说人话"。这些东西的价值，往往比训练出来的模型本身还大——因为模型是一次性的产出，而训练方法论是可以反复使用的能力。公开模型是请你吃饭，公开训练方法是把厨师的手艺教给你。

所以，开放权重是一个精心计算过的策略：它足以让开发者用你的模型做应用、建生态、扩大影响力，但不足以让竞争对手复制你的训练能力。

一张图看懂：谁开放了什么

模型	模型本身	使用代码	训练方法	训练数据	使用条款	模式
GPT-4o / Claude	❌	❌	❌	❌	闭源	完全封闭
Qwen 3.5	✅	✅	❌	❌	Apache 2.0	开放权重
Llama 3	✅	✅	❌	❌	Llama 社区协议	开放权重
Gemma	✅	✅	❌	❌	Gemma 使用条款	开放权重
Mistral	✅	✅	❌	❌	Apache 2.0	开放权重
DeepSeek-V3	✅	✅	✅	❌	MIT	代码+权重双开源
OLMo	✅	✅	✅	✅	Apache 2.0	接近完全开源

开放权重已经改变了整个生态

说到这里，可能有人会觉得：那这些模型不就是"假开源"吗？

2023 年 7 月之前，如果你想用一个能力接近 GPT-3.5 的模型，你只有一个选择：调用 OpenAI 的 API，按 token 付费，数据经过别人的服务器，没有任何定制空间。然后 Llama 2 来了。我记得一个做法律 AI 的朋友跟我说，他下载 Llama 2 权重的那天晚上几乎没睡——不是因为兴奋，而是因为他终于可以在自己的服务器上跑一个不错的模型，用自己的法律语料微调，不需要把客户的合同数据发送到 OpenAI 的服务器上。

Qwen 把这件事推得更远。全系列从 0.5B 到 72B 全部以 Apache 2.0 协议开放，意味着你可以拿它做任何事——商用、修改、再分发，没有附加限制。18 万个衍生模型、7 亿次下载³，这些数字背后是无数团队在 Qwen 的基础上构建自己的应用和服务。

开放权重不是传统意义上的"开源"，但它创造了一个真实的、繁荣的、全球性的协作生态。这个生态的运作方式和传统开源不同——不是大家一起改代码，而是大家拿着同一个模型去做各自的定制和应用。但效果是一样的：降低门槛、促进创新、让更多人用上原本只有少数巨头才能提供的技术。

说到底，“开源"这个词在大模型时代被重新定义了。它不再是一个非黑即白的标签，而是一个从封闭到开放的连续光谱。在这个光谱上，每一步开放都有它的代价和收益，每一个选择都反映了技术理想和商业现实之间的博弈。与其纠结于"这算不算真正的开源”，不如问一个更实在的问题：它让多少人能用上原本用不上的技术？它让多少创新成为可能？ 从这个角度看，即便是不完美的开放，也比完美的封闭要好得多。

- FIN -

参考

“The Open Source AI Definition - 1.0,” Open Source Initiative, 2024 年 10 月。链接 ↩︎ ↩︎ ↩︎ ↩︎
“阿里云创始人王坚：当前模型权重的开放本质上是数据资源和计算资源的开放,” 第一财经, 2026 年两会期间。链接 ↩︎
“Alibaba Qwen Model Downloads: Metrics and Enterprise Impact,” AI CERTs, 2026 年 1 月。截至 2026 年 1 月，Hugging Face 下载量达 7 亿次，社区衍生模型约 18 万个。链接 ↩︎ ↩︎ ↩︎
DeepSeek-V3 Technical Report, arXiv:2412.19437, 2024 年 12 月。训练成本约 557.6 万美元（2,788M H800 GPU 小时）。链接 ↩︎ ↩︎
“DeepSeek V3 and the cost of frontier AI models,” Interconnects, 2025。GPT-4 训练成本估计约 1 亿美元。链接 ↩︎ ↩︎
Bai, J. et al., “Qwen Technical Report,” arXiv:2309.16609, 2023。Google Scholar 引用数截至 2026 年 3 月约 6,300 次。链接 ↩︎
“The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work,” The New York Times, 2023 年 12 月 27 日。链接 ↩︎
“Getty sues Stability AI for copying 12M photos,” Ars Technica, 2023 年 2 月。链接 ↩︎

大模型的"源代码"不是代码#

三种"开源"，差别巨大#

开放权重：给你成品，不给你生产车间#

代码+权重双开源：给你成品，也给你图纸#

完全开源：连原材料都告诉你#

当核心资产从代码变成权重，协作方式也变了#

为什么大多数公司只开放权重#

一张图看懂：谁开放了什么#

开放权重已经改变了整个生态#

参考#