技术 | Zhang's Blog

大模型的开源，到底开源了什么

大模型时代喊的"开源"，99% 不是你以为的那种开源。当我们说 Linux 开源、Redis 开源的时候，意思很明确：把软件的"设计图纸"——源代码——全部公开，任何人都可以照着图纸把软件重新造一遍。这是软件的开源，公开图纸就等于公开一切。但大模型的开源是一件根本不同的事。大模型的能力不在图纸里，而在一堆"经验"里——几千亿个数字，是用海量数据和巨额算力"喂"出来的，不是人一行一行写出来的。你可以公开这些数字，但别人拿到了也不知道你是怎么喂出来的。这是AI 的开源，它和软件开源之间的鸿沟，比大多数人意识到的要深得多。深到什么程度？全球最权威的开源组织 OSI（开源促进会）在 2024 年 10 月专门发布了《开源 AI 定义 1.0》1，试图从头定义"AI 的开源到底应该是什么"——光是需要重新定义这件事本身，就说明传统软件开源的框架已经装不下大模型了。2026 年全国两会期间，中科院院士、阿里云创始人王坚更是直接呼吁：别再说"开源大模型"了，应该叫"开放权重模型"——因为你开放出去的不是一段代码，而是背后烧掉的电费和算力2。这篇文章想做一件事：把大模型"开源"这个词拆开，一层一层看清楚里面到底装了什么。大模型的"源代码"不是代码软件开源的逻辑很简单：一个程序员写了一段代码，公开了，别人照着代码就能把同样的软件跑起来，还能改。代码就是全部，公开代码就是公开一切。大模型完全不是这么回事。它的核心不是人写的代码，而是一种叫权重（weights）的东西——你可以把它理解成模型的"肌肉记忆"。就像一个厨师做了十年菜，他的手感、火候判断、调味直觉，全都长在身体里，不是写在菜谱上的。大模型的权重也一样：几十亿到几千亿个数字，是模型在海量数据上反复训练出来的结果。没有人能看懂这些数字具体是什么意思，但把它们加载到程序里，模型就能回答问题、写代码、做翻译。关键区别在这里：公开厨师做好的菜，不等于公开他十年练出来的手艺。公开权重，不等于公开训练权重的方法。这就是 AI 开源和软件开源的根本区别。所以，大模型的世界里，“源代码"这个概念被拆成了至少四层：层是什么厨师类比权重模型训练出来的"肌肉记忆” 厨师十年练出来的手感和味觉直觉推理代码让模型跑起来的程序把菜端上桌的流程训练代码从零训练模型的完整方法厨师十年来的全部训练方法和食谱训练数据喂给模型学习的海量文本、图像等厨师吃过的所有菜、看过的所有菜谱传统软件开源，相当于把食谱和做法全部公开。大模型"开源"，大多数时候只是把做好的菜端出来，告诉你怎么加热和摆盘。三种"开源"，差别巨大明白了这四层之后，我们就可以看清楚：市面上号称"开源"的大模型，其实分成了截然不同的三种模式。开放权重：给你成品，不给你生产车间这是目前最主流的模式。Qwen、Llama 3、Gemma、Mistral——全球下载量最大的开源模型，几乎都属于这一类。阿里的 Qwen（通义千问）是这个模式的典型代表。你可以免费下载它全系列的模型——从轻量级的小模型到最新的 Qwen 3.5 旗舰版，附带使用说明和示例代码。你能拿它在自己的电脑或服务器上跑起来，用自己的数据做定制化训练（行话叫"微调"），甚至基于它做出更小的模型拿去商用。Qwen 的下载量已突破 7 亿次，全球开发者基于它做出的衍生模型超过 18 万个3——这个生态的繁荣，完全建立在"开放权重"这个模式之上。但你拿不到的东西同样重要：Qwen 是怎么从零开始训练出来的？喂了什么数据？数据怎么筛选和清洗的？训练过程中几百个关键参数是怎么调的？模型怎么学会"像人一样说话"的？这些全都没有公开。你拿到了一个训练好的模型，但完全不知道它是怎么炼成的。值得注意的是，即便同属"开放权重"，“使用条款"之间的差异也不小。Qwen 用的是最宽松的 Apache 2.0 协议——随便用、随便改、随便商用，没有附加限制。Meta 的 Llama 3 则有门槛：如果你的产品月活用户超过 7 亿，需要单独找 Meta 谈授权。Google 的 Gemma 更严格：明确禁止你用它的模型去训练竞品。同样叫"开放权重”，你能拿它做什么，差别可以很大。 ...

千问核心离职风波：开源社区需要什么人

Qwen 的技术报告单篇引用超过 6000 次1，Hugging Face 下载量突破 7 亿次2，衍生模型超过 18 万个2。斯坦福《2025 年人工智能指数报告》把它排在全球第三3。然后，带着这一切走到今天的人，在凌晨 0:11 发了一条推文就走了4。这两天 AI 圈讨论最多的不是模型，而是人。但我注意到一个有意思的现象：中文互联网上讨论的焦点是"阿里怎么了"“管理出了什么问题"“谁来接班”，而英文社区——从 Hugging Face 到 GitHub 到 X 的评论区——讨论的焦点是一个更本质的问题：开源社区到底需要什么样的人？失去这样的人意味着什么？这两种反应之间的落差，可能比林俊旸的离职本身更值得想一想。全球顶级机构在用行动投票艾伦人工智能研究院的研究员 Nathan Lambert 在 X 上写了一句话：“如果 Qwen 倒塌，在开放研究生态中留下的巨大空缺将很难填补。那些小模型是不可替代的。”5 Hyperbolic Labs 的 CTO Yuchen Jin 说：“一个时代的结束。“MiniMax、Unsloth、Ollama 都在林俊旸的推文下留言感谢。Hugging Face 亚太区负责人 Tiezhen Wang 说这是 Qwen 的"巨大损失”。智谱 AI 创始人唐杰评论说：“酷，开始新的旅程吧。” 而截至发稿，事情已经从哀悼升级为抢人。Google DeepMind 的 Omar Sanseviero 直接在 X 上向 Qwen 团队公开喊话6： Qwen friends: if any of you want a new home to build great models and contribute to the open models ecosystem, please reach out! ...

H200发布：NVIDIA赢了性能战，但可能输了未来

今天早上收到加州朋友Mike的邮件，附件是NVIDIA H200的内部评测报告。他在NVIDIA做架构师，每次有新品都会偷偷给我发点料。我盯着性能测试图看了半小时，H200比H100提升了35%，但真正让我倒吸凉气的，不是性能数字，而是CUDA生态的数据。 “全球95%以上的AI训练任务都跑在CUDA上，“Mike在微信里说，“我们刚更新了CUDA 12.5，专门优化了H200。那些想用AMD或其他芯片的公司，光是迁移代码就得花半年。“我回他：“所以NVIDIA已经不是芯片公司了，是AI时代的Windows？“他发了个笑脸：“差不多吧。” 但我心里在想：Windows当年也以为自己无敌，结果被移动互联网时代抛弃了。NVIDIA的CUDA生态，会不会也面临同样的命运？从表面看：性能数字背后的生态霸权表面上看，这是"H200性能提升35%“的技术突破。但真正让NVIDIA无敌的，不是芯片性能，而是CUDA生态。芯片性能可以追上——AMD的MI300X在某些场景已经接近H100，中国的昇腾910B在推理场景甚至超过H100。但生态壁垒一旦形成，几乎无法突破。全球95%的AI训练任务都跑在CUDA上，这意味着：即使你的芯片性能更强，开发者也不会用，因为迁移成本太高。 NVIDIA已经从一家芯片公司，变成了AI时代的Windows。Windows当年靠操作系统垄断PC市场，NVIDIA靠CUDA生态垄断AI市场。关键洞察：这不是芯片战争，是生态战争。性能可以追赶，生态难以复制。从深层看：中国芯片的差异化突围想起上周去华为上海研究所拜访的场景。负责昇腾910B的李工带我参观实验室，指着一台堆满芯片的服务器说：“我们不跟NVIDIA在训练芯片正面死磕，昇腾910B专门优化推理场景。在智慧城市视频分析上，我们的性能已经超过了H100。” 不仅华为，寒武纪的思元590芯片正在给智能加油站做边缘计算，实时监控油枪状态、预测库存；地平线的征程6芯片在自动驾驶领域也有不错的表现。中国芯片公司选择了一条差异化的突围路径：不拼通用性能，而是深耕垂直场景，把特定领域的AI芯片做到极致。去年在深圳参加AI峰会，看到一家创业公司用昇腾芯片做工业机器人实时控制，延迟比NVIDIA的方案低40%。美国的技术封锁反而成了中国芯片产业的催化剂——以前大家都觉得买NVIDIA的芯片就行，现在不得不自己搞研发。翻出三年前的笔记，当时我判断"中国芯片10年内赶不上美国”。现在看来，我错了——不是赶不上，而是走了一条完全不同的路。NVIDIA在通用计算领域狂飙，中国芯片则在垂直场景深耕。关键洞察：芯片战争的终局，不是谁的性能更强，而是谁能更好地服务用户。NVIDIA赢了通用性能，中国芯片可能赢了垂直场景。从未来看：生态与场景的终极博弈晚上刷朋友圈，看到Mike发了张NVIDIA总部的照片，配文：“H200发布，我们赢了。“我给他点了个赞，心里却在想：这场芯片战争，才刚刚开始。 NVIDIA赢了性能战，但可能输了未来。因为未来的AI应用，不是"一个模型跑遍所有场景”，而是"每个场景都有专属芯片”。当自动驾驶、智慧城市、工业机器人这些垂直场景成为主流时，NVIDIA的通用芯片优势还能保持多久？ 2025年，我判断会看到更多融合：NVIDIA会加强垂直场景优化（比如推出专门的自动驾驶芯片），中国芯片会加强生态建设（比如推出自己的开发框架）。芯片战争的终局，不是谁的性能更强，而是谁能更好地服务用户。NVIDIA赢了性能战，中国芯片却可能赢了未来的场景战。 2025年，我期待看到NVIDIA的场景化，也期待看到中国芯片的生态化。

【AI数学】30分钟拆解AI核心公式-复习笔记

上一篇我们搞定了符号，这一篇直接拆解AI论文中出现频率最高的6个公式。每个公式都是：问题→公式→拆解→代码。前置要求：读完上一篇符号速查手册。一、Softmax与交叉熵损失问题：如何把模型输出变成概率？神经网络输出的是一堆数字（logits），可能是负数、可能很大。我们需要把它们变成概率分布（非负、和为1）。公式 $$\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{K} e^{x_j}}$$ 拆解 $e^{x_i}$：指数函数，把任意数变成正数 $\sum_{j=1}^{K} e^{x_j}$：所有指数的和，用于归一化除法：确保结果和为1 为什么用指数？因为指数函数会放大差异——大的更大，小的更小，让模型更"自信"。代码实现 import numpy as np def softmax(x): """ 输入: x, shape (K,) 或 (batch, K) 输出: 概率分布，shape同输入 """ # 减去最大值防止数值溢出（数学上等价） exp_x = np.exp(x - np.max(x, axis=-1, keepdims=True)) return exp_x / np.sum(exp_x, axis=-1, keepdims=True) # 示例 logits = np.array([2.0, 1.0, 0.1]) probs = softmax(logits) print(probs) # [0.659, 0.242, 0.099] print(probs.sum()) # 1.0 交叉熵损失有了概率，如何衡量预测和真实标签的差距？ $$L = -\sum_{i=1}^{K} y_i \log(\hat{y}_i)$$ 其中 $y_i$ 是真实标签（one-hot），$\hat{y}_i$ 是预测概率。简化形式（单标签分类）： $$L = -\log(\hat{y}_{correct})$$ 就是正确类别的概率取负对数。概率越高，损失越小。 def cross_entropy_loss(probs, label): """ probs: softmax输出的概率, shape (K,) label: 正确类别的索引, int """ return -np.log(probs[label] + 1e-10) # 加小数防止log(0) # 示例 probs = np.array([0.7, 0.2, 0.1]) loss = cross_entropy_loss(probs, label=0) # 正确类别是0 print(loss) # 0.357（概率0.7对应的损失）二、注意力机制（Attention）问题：如何让模型"关注"输入的不同部分？翻译"我爱北京"时，生成"Beijing"应该主要关注"北京"这个词，而不是平均关注所有词。 ...

【AI数学】30分钟搞懂AI论文里的数学符号-复习笔记

读AI论文最大的障碍不是英语，是数学符号。看到 $\sum$、$\nabla$、$\mathbb{E}$ 就头大？本文用符号→读法→含义→代码的模式，30分钟帮你扫清障碍。前置要求：高中数学水平，会基础Python。一、求和与连乘 1.1 求和符号 $\sum$ 读法：Sigma（西格玛），读作"sum" 含义：把一堆数加起来公式示例： $$\sum_{i=1}^{n} x_i = x_1 + x_2 + \cdots + x_n$$ 论文中常见形式：损失函数：$L = \sum_{i=1}^{N} \ell(y_i, \hat{y}_i)$（所有样本的损失加起来）注意力权重：$c = \sum_{i=1}^{T} \alpha_i h_i$（加权求和） Python实现： import numpy as np # 方法1：直接求和 x = [1, 2, 3, 4, 5] result = sum(x) # 15 # 方法2：NumPy x = np.array([1, 2, 3, 4, 5]) result = np.sum(x) # 15 # 方法3：带条件的求和（论文常见） # 例如：只对正数求和 result = sum(xi for xi in x if xi > 0) 1.2 连乘符号 $\prod$ 读法：Pi（派），读作"product" 含义：把一堆数乘起来公式示例： $$\prod_{i=1}^{n} x_i = x_1 \times x_2 \times \cdots \times x_n$$ 论文中常见形式： ...