大模型的开源,到底开源了什么

大模型时代喊的"开源",99% 不是你以为的那种开源。 当我们说 Linux 开源、Redis 开源的时候,意思很明确:把软件的"设计图纸"——源代码——全部公开,任何人都可以照着图纸把软件重新造一遍。这是软件的开源,公开图纸就等于公开一切。 但大模型的开源是一件根本不同的事。大模型的能力不在图纸里,而在一堆"经验"里——几千亿个数字,是用海量数据和巨额算力"喂"出来的,不是人一行一行写出来的。你可以公开这些数字,但别人拿到了也不知道你是怎么喂出来的。这是AI 的开源,它和软件开源之间的鸿沟,比大多数人意识到的要深得多。 深到什么程度?全球最权威的开源组织 OSI(开源促进会)在 2024 年 10 月专门发布了《开源 AI 定义 1.0》1,试图从头定义"AI 的开源到底应该是什么"——光是需要重新定义这件事本身,就说明传统软件开源的框架已经装不下大模型了。2026 年全国两会期间,中科院院士、阿里云创始人王坚更是直接呼吁:别再说"开源大模型"了,应该叫"开放权重模型"——因为你开放出去的不是一段代码,而是背后烧掉的电费和算力2。 这篇文章想做一件事:把大模型"开源"这个词拆开,一层一层看清楚里面到底装了什么。 大模型的"源代码"不是代码 软件开源的逻辑很简单:一个程序员写了一段代码,公开了,别人照着代码就能把同样的软件跑起来,还能改。代码就是全部,公开代码就是公开一切。 大模型完全不是这么回事。它的核心不是人写的代码,而是一种叫权重(weights)的东西——你可以把它理解成模型的"肌肉记忆"。就像一个厨师做了十年菜,他的手感、火候判断、调味直觉,全都长在身体里,不是写在菜谱上的。大模型的权重也一样:几十亿到几千亿个数字,是模型在海量数据上反复训练出来的结果。没有人能看懂这些数字具体是什么意思,但把它们加载到程序里,模型就能回答问题、写代码、做翻译。 关键区别在这里:公开厨师做好的菜,不等于公开他十年练出来的手艺。公开权重,不等于公开训练权重的方法。这就是 AI 开源和软件开源的根本区别。 所以,大模型的世界里,“源代码"这个概念被拆成了至少四层: 层 是什么 厨师类比 权重 模型训练出来的"肌肉记忆” 厨师十年练出来的手感和味觉直觉 推理代码 让模型跑起来的程序 把菜端上桌的流程 训练代码 从零训练模型的完整方法 厨师十年来的全部训练方法和食谱 训练数据 喂给模型学习的海量文本、图像等 厨师吃过的所有菜、看过的所有菜谱 传统软件开源,相当于把食谱和做法全部公开。大模型"开源",大多数时候只是把做好的菜端出来,告诉你怎么加热和摆盘。 三种"开源",差别巨大 明白了这四层之后,我们就可以看清楚:市面上号称"开源"的大模型,其实分成了截然不同的三种模式。 开放权重:给你成品,不给你生产车间 这是目前最主流的模式。Qwen、Llama 3、Gemma、Mistral——全球下载量最大的开源模型,几乎都属于这一类。 阿里的 Qwen(通义千问)是这个模式的典型代表。 你可以免费下载它全系列的模型——从轻量级的小模型到最新的 Qwen 3.5 旗舰版,附带使用说明和示例代码。你能拿它在自己的电脑或服务器上跑起来,用自己的数据做定制化训练(行话叫"微调"),甚至基于它做出更小的模型拿去商用。Qwen 的下载量已突破 7 亿次,全球开发者基于它做出的衍生模型超过 18 万个3——这个生态的繁荣,完全建立在"开放权重"这个模式之上。 但你拿不到的东西同样重要:Qwen 是怎么从零开始训练出来的?喂了什么数据?数据怎么筛选和清洗的?训练过程中几百个关键参数是怎么调的?模型怎么学会"像人一样说话"的?这些全都没有公开。你拿到了一个训练好的模型,但完全不知道它是怎么炼成的。 值得注意的是,即便同属"开放权重",“使用条款"之间的差异也不小。Qwen 用的是最宽松的 Apache 2.0 协议——随便用、随便改、随便商用,没有附加限制。Meta 的 Llama 3 则有门槛:如果你的产品月活用户超过 7 亿,需要单独找 Meta 谈授权。Google 的 Gemma 更严格:明确禁止你用它的模型去训练竞品。同样叫"开放权重”,你能拿它做什么,差别可以很大。 ...

ZHANG.z | March 6, 2026 | 25 min | Shanghai

千问核心离职风波:开源社区需要什么人

Qwen 的技术报告单篇引用超过 6000 次1,Hugging Face 下载量突破 7 亿次2,衍生模型超过 18 万个2。斯坦福《2025 年人工智能指数报告》把它排在全球第三3。然后,带着这一切走到今天的人,在凌晨 0:11 发了一条推文就走了4。 这两天 AI 圈讨论最多的不是模型,而是人。但我注意到一个有意思的现象:中文互联网上讨论的焦点是"阿里怎么了"“管理出了什么问题"“谁来接班”,而英文社区——从 Hugging Face 到 GitHub 到 X 的评论区——讨论的焦点是一个更本质的问题:开源社区到底需要什么样的人?失去这样的人意味着什么? 这两种反应之间的落差,可能比林俊旸的离职本身更值得想一想。 全球顶级机构在用行动投票 艾伦人工智能研究院的研究员 Nathan Lambert 在 X 上写了一句话:“如果 Qwen 倒塌,在开放研究生态中留下的巨大空缺将很难填补。那些小模型是不可替代的。”5 Hyperbolic Labs 的 CTO Yuchen Jin 说:“一个时代的结束。“MiniMax、Unsloth、Ollama 都在林俊旸的推文下留言感谢。Hugging Face 亚太区负责人 Tiezhen Wang 说这是 Qwen 的"巨大损失”。智谱 AI 创始人唐杰评论说:“酷,开始新的旅程吧。” 而截至发稿,事情已经从哀悼升级为抢人。Google DeepMind 的 Omar Sanseviero 直接在 X 上向 Qwen 团队公开喊话6: Qwen friends: if any of you want a new home to build great models and contribute to the open models ecosystem, please reach out! ...

ZHANG.z | March 6, 2026 | 26 min | Shanghai

千问团队离职风波:一个管理者应该看到什么

3 月 4 日凌晨 0:11,林俊旸在 X 上写下一句话: me stepping down. bye my beloved qwen. 6M 浏览,1.3K 转发,1.3 万点赞。阿里巴巴通义千问技术负责人,今年刚满 32 岁,阿里最年轻的 P10,就这样在深夜告别了自己一手带大的团队。 前一天晚上,他的团队刚发布了一个让马斯克都点赞的开源模型。紧接着,Qwen 另一位核心负责人 Binyuan Hui(惠彬原)也走了,Qwen3.5、Qwen VL、Qwen Coder 的核心贡献者 Kaixin Li 也发了告别帖。目前确认离开的至少三到四人,全是核心骨干。一天之内,中国最有影响力的开源大模型团队经历了一次集体震荡。 这件事在 AI 圈刷屏了两天。各种内幕、传闻、阴谋论满天飞——KPI 不达标、转向闭源、被架空、被挖角。3 月 5 日,阿里 CEO 吴泳铭发了一封内部邮件: 各位通义实验室同学: 公司已决定批准林俊旸同学的辞职,感谢林俊旸过去在岗位上的付出。靖人会继续带领通义实验室推进后续工作。同时公司将成立基础模型支持小组,由我,靖人,范禹共同协调集团资源支持基础模型建设。 技术发展不进则退。发展基础大模型是我们面向未来的关键战略,我们将在继续坚持开源模型策略的同时,持续加大对人工智能领域的研发投入,加大吸纳优秀人才的力度,我们一起加油。 吴泳铭 2026年3月5日 坦白说,这些八卦和公关回应我都不太关心。我更想从一个很小的窗口来看这件事:管理。具体来说,是三个层层递进的问题——你有没有看到信号?你有没有理解诉求?你的制度能不能接住这些人? 信号一直在,只是没人听 管理学里有个说法:员工离职的决定,通常在正式提出前三到六个月就已经做出了。在这段时间里,信号其实一直在——工作热情下降、对战略讨论的参与减少、开始频繁和外部接触。问题不是信号不存在,而是有没有人在接收。 大公司里有一个常见的悖论:越重要的人,CEO 越没时间见。 吴泳铭在邮件里宣布成立高层直接协调的支持小组——这个动作本身说明了一件事:之前的协调层级太多了。一个负责公司核心 AI 能力的技术负责人,他的诉求、困惑、不满,要穿过几层汇报才能到达 CEO 耳朵里?等信息传到的时候,还剩下多少真实度? 我一直觉得,CEO 最值钱的时间投入之一是和关键人才的 one-on-one。不是季度汇报,不是 all-hands 上的 Q&A,而是关起门来、没有议程、聊半小时到一小时的那种对话。这种对话的价值不在于解决具体问题,而在于建立一条不经过任何中间层的信息通道。 Andy Grove 在《高产出管理》里算过一笔账:一个经理人花一小时做 one-on-one,影响的是下属接下来两周的工作质量和方向感。对 CEO 来说,这笔账的杠杆更大——你花一小时和一个关键技术负责人聊,可能避免的是一次价值数十亿的团队震荡。反过来,你省下的这一小时拿去开了一个战略会,讨论的可能恰恰是这个人走了之后怎么办。 ...

ZHANG.z | March 5, 2026 | 13 min | Shanghai

精准打击会不会改写人类的组织方式?

精准打击刺穿的不是一座建筑,而是人类延续了两百年的组织幻觉。 2026 年 2 月 28 日,美国与以色列联合发动代号"史诗怒火"(Operation Epic Fury)的军事行动,对伊朗多座城市实施空袭。据以色列军方声明,以空军出动约 200 架战机执行了"以色列历史上最大规模的飞行任务",打击了伊朗全境约 500 个目标1。伊朗国家媒体随后证实,最高领袖哈梅内伊在其德黑兰官邸遭袭后身亡,伊朗宣布全国哀悼 40 天2。据 Reuters 报道,国防部长纳西尔扎德、革命卫队总司令帕克普尔、国防委员会秘书沙姆哈尼等多名高级官员同日被确认死亡1。3 月 1 日,多家外媒报道称前总统内贾德也在德黑兰纳尔马克区住所遭空袭身亡,但截至发稿时伊朗官方尚未正式确认这一消息3。没有地面推进,没有大规模地面战——情报锁定位置,空中精准打击,一个拥有 8800 万人口的国家在数小时内陷入权力真空。 这不是孤例。2026 年 1 月 3 日,美军在代号"绝对决心"(Operation Absolute Resolve)的行动中,用约两个半小时从委内瑞拉提取了总统马杜罗及其妻子。据 Reuters 和 Guardian 报道,行动依赖数月的 CIA 地面情报搜集、对马杜罗行踪的持续监控,以及来自 20 个基地的超过 150 架飞机(含 F-35、F-22 和 B-1 轰炸机)的空中压制,三角洲部队在马杜罗安全屋的复制建筑上反复演练后实施突击45。从委内瑞拉到伊朗,同一套逻辑反复上演:不需要占领一寸土地,只要猎杀关键节点,整个系统就会瘫痪。 这件事的意义远不止军事——它实质上是对人类延续了两百年的集中式组织形态的一次破坏性检验。 “最优解"过期了 集中式组织因效率而生,也因效率的代价——脆弱——而走向失效。 伊朗的权力结构为什么这么脆?因为它和全世界大多数国家一样,是按照工业时代的逻辑搭建的。 两百年前,蒸汽机、铁路和电报让大规模动员和远距离指挥第一次成为可能。拿破仑战争证明了一件事:谁能更快地集中兵力、统一指挥,谁就能赢。于是中央集权的民族国家成为"最优解”——韦伯所说的"法理型权威"。从军队到政府到企业,全部按照金字塔结构运转:信息向上汇聚,命令向下传达,效率极高。两次世界大战把这套逻辑推到了极致:苏联靠中央计划经济把整个国家变成一台战争机器,美国靠联邦政府统一调配资源打赢了太平洋战争。 但效率的代价是脆弱。金字塔的顶端——最高领袖、总司令、指挥中枢——变成了整个系统的"单点故障"。在工业化战争年代,要打掉这个顶端需要几百万军队一路推过去,代价极大,所以集中式组织是安全的。可当精准打击技术把"猎杀一个节点"的成本降到几架战机和几个小时,这个"最优解"就不再最优了。伊朗最高领袖、国防部长、革命卫队总司令在同一天被消灭——这在二战时期需要打到柏林才能做到的事,今天只需要情报加精确制导。 有意思的是,集中式并不是人类组织的"默认状态"。在工业革命之前的漫长历史里,分散才是常态。中世纪欧洲的封建制虽然效率低下,但面对蒙古西征时,分散的欧洲诸国反而比高度集中的南宋更难被一击致命——蒙古人可以在崖山灭掉整个南宋朝廷,却无法用同样的方式征服整个欧洲,因为没有一个"中枢"可以被一锅端。集中式组织是工业化战争的产物,不是人类组织的天然形态;精准斩首战争的出现,不过是让历史的钟摆开始往回摆。 三种分布式:求生、设计与技术 分布式组织已在三个层面展开——被动求生、主动设计、底层技术支撑,层层递进。 面对精准打击的威胁,分布式并不是一种统一的方案,而是在不同场景下各自生长出来的。 被逼出来的分布式:ISIS 的"九头蛇"变异。 2019 年"哈里发国"的领土被摧毁后,ISIS 并没有消亡。据 Crisis Zone 报道,它从一个有领土、有首都、有层级指挥的"准国家",变异成一个横跨 12 个以上省份、拥有约 15000 至 25000 名战斗人员的分布式网络6。中央指挥被反复斩首,但萨赫勒省、呼罗珊省等分支反而在近年取得了显著的领土扩张。砍掉一个头,其他头照样咬人——这证明了分布式组织在"抗毁性"上的天然优势。 主动设计的分布式:美军的 CJADC2 和以色列的网络化军事体系。 美军显然不想等到被斩首之后才被动转型。据 Breaking Defense 报道,2026 年 2 月第四步兵师在"常春藤之刺"演习中验证了 CJADC2(联合全域指挥与控制)体系:陆军、海军陆战队、海军和盟国(澳大利亚、英国)的 48 个作战节点通过 NGC2 数据层实现了双向实时信息共享,陆军可以直接使用海军陆战队提供的目标数据开火7。以色列自身就是另一个案例——作为约 900 万人口的小国,它的预备役制度让大量公民成为潜在的作战节点,摩萨德、辛贝特、阿曼三大情报机构各自独立运作又通过技术平台共享信息,决策链条极短。以色列能对伊朗发动精准斩首,恰恰因为自身的组织形态已经高度网络化——而伊朗围绕最高领袖构建的集中式体系,在面对这种打击时几乎没有缓冲。 ...

ZHANG.z | March 1, 2026 | 18 min | Shanghai

穿越周期的智慧:给理性乐观主义者的信

本系列为 2026 年春节读书反思:以《涛动周期论》《涛动周期录》为素材,用 2016–2026 年真实数据验证周金涛预言,并展开理论解构与当代应用。所有观点与预言均对应原作,数据引用参考文末索引。 他留下的不是水晶球,而是一套在不确定中找确定性的思维方式。 这是「周期启示录:解码周金涛」系列的最后一篇。前九篇我们验了预言、谈了盲区、拆了四周期嵌套、讨论了「人生发财靠康波」、萧条期配置、拐点观察、第六康波的中国机会、财富相位与理论边界。这篇不重复结论,只写周金涛留下的最大遗产是什么,以及给理性乐观主义者的几句心里话。依据仍限于《涛动周期论》《涛动周期录》及其公开演讲中的精神,不造神不杜撰,欢迎留言理性讨论。 遗产不是预测水晶球,而是思维框架 周金涛在书与演讲里一再传递同一个意思:周期是指南针,不是水晶球——能告诉你大方向与所处相位,不能告诉你某月某日必涨必跌。他甚至还给过一道二选一的人生题(2016 年演讲):「在萧条即将来临之前,一个社会必将出现分裂倾向,理论中可以看到的。这种情况下你的人生只有两个选择:一种选择,像我一样当个虚职,每天忽悠忽悠,心情好出来忽悠,心情不好在家里待着;另外一种选择,未来一定是英雄辈出的时代,你可以成为先德或者先烈。」1 不是鸡汤,而是把「顺势」与「逆势」都摊开:要么保存实力、要么在不确定里博一把。 十年数据验证下来,方向对的多、时点常有偏差;所以可贵的不是某条预言是否百分百命中,而是他的观察与推演方式:用四周期嵌套识别「当下在历史中的位置」,先定位,再决策。叹为观止的应该是这套思维,而不是某一句预言。 相位识别:知道自己在哪里 知道自己在哪,才能决定往哪走。宏观上:第五康波尾、第六康波初,萧条尾声与复苏过渡;资产上:不宜极端现金也不宜满仓梭哈,而是股债现金与避险的再平衡;人生上:朝阳行业与旧经济的分化、职业阶段与风险承受度的匹配。这些在本系列里都写过,核心只有一句:先看清相位,再谈进攻还是防守。 敬畏趋势,不与周期对抗 周期不是阴谋论,而是技术、人口、制度与资本交织出来的系统性波动。在萧条期加杠杆博反转、在繁荣顶满仓不撤,往往是在和趋势对抗。周金涛的智慧是:承认趋势的存在,然后选择顺势——在萧条期保留实力与选项,在回升与繁荣期敢于下注。这不是认命,而是理性。 利用波动:在恐慌与狂热中保持冷静 波动是周期的常态。利用波动不是去猜顶底,而是:在恐慌时不过度悲观、不贱卖长期筹码;在狂热时不过度乐观、不追高梭哈。用仓位与再平衡来管理情绪,而不是让情绪决定仓位。他在书与演讲里传递的,正是这种在噪音中保持框架的冷静。 给理性乐观主义者的几句话 若你相信长期增长与技术进步,又愿意用周期思维做约束,那么: 乐观:第六康波已在萌芽,AI、新能源、生物技术会改写产业与职业;中国在其中仍有规模与产业链优势。 理性:相位仍在过渡期,债务、地缘、政策会制造波动;用防守与弹性为乐观留出容错空间。 行动:把「相位—行业—职业—资产」当成定期自检的清单,每年问自己一遍:我现在的选择是否与所处阶段匹配? 周金涛生前说过不少话,有一句常被引用:「人生发财靠康波。」 我们在这个系列里把它解读为「概率分布」而不是宿命——在好相位下提高胜率,在坏相位下少输当赢。剩下的,交给努力与运气。 为什么周金涛和周期论值得研究 周期论不是占卜,而是把经济史里的结构性重复提炼成可辨识的相位。周金涛的价值在于:他把康波、库兹涅茨、朱格拉、基钦从学术论文里搬出来,变成「人生一次康波、三次房产、九次设备、十八次库存」这种能对号入座的语言。值得研究的不是某一句预言是否应验,而是他用的那套框架——长波主导短波、技术革命决定主导国与主导产业、相位决定机遇密度——在十年后的今天,仍然能解释金强、房弱、铜起、科技潮的并存。能经得起「用数据验」的理论,才配得上一遍遍重读。 研究的框架 本系列采用的是一个简单可复用的框架。第一步:以《涛动周期论》《涛动周期录》及 2016 年上海清算所演讲等原文为据,提取可验证的时间窗口与论断。第二步:用 2016–2026 年公开数据(宏观、资产、政策)做逐条对照,区分「方向命中」「时点偏差」「未发生」三类。第三步:在承认盲区(时间模糊、政策干预、技术加速)的前提下,把周期当「相位+方向」的指南针,而不是「某年某月」的日历。读者若想自己验证,可按同一框架换数据、换地区、换资产,结论会随数据更新,但方法论可复用。 涛动周期论的数据支撑 周金涛的论断并非空口无凭。书中与演讲里大量引用经济史与统计:康波划分沿袭康德拉季耶夫及雅各布·范杜因的长波表,库兹涅茨周期对应房地产与建筑业的长期序列,朱格拉、基钦在学术与央行研究中均有对应指标。本系列验证时用到的数据——A 股与美股指数的年度涨跌、70 城房价与商品房销售、金价铜价与央行购金、美联储利率与通胀——均来自国家统计局、央行、Wind、LBMA 等可查来源,并在各篇文末标注。涛动周期论的数据支撑,一是历史长序列与周期长度的归纳,二是用这些序列做的相位推演;我们做的「十年验证」是在同一逻辑上,用更新数据做的一次压力测试。 后续研究重点 理论要活,就得跟着时代迭代。可延续的方向包括:第六康波的主导产业与主导国如何随 AI、新能源、生物技术落地而细化;中国在「追赶—主导」切换中的位置如何用产业链与政策数据跟踪;政策与地缘如何纳入周期模型、做成「相位+政策」的联合判断;技术加速是否压缩康波长度、如何用新数据修正 50–60 年的假设。对个人而言,把「相位—行业—职业—资产」做成年度自检清单,用公开数据校准自己在四维里的位置,就是最实用的后续研究。 我的反思:方向对,时点差——以及知识给我的回报 很多人会问:2016 年的预测现在看为什么并不完全准确?我的回答是:框架和方法论比单次预言更重要。最难能可贵的是,周金涛给出的方向完全正确——萧条集中期、房地产长熊、萧条终点在 2025 前后、黄金与商品的相位意义——十年数据都对得上。出现一两年代差,我理解为经济与社会多因素叠加的波动:宏观调控和突发事件可能延缓周期,多方博弈可能加速出清,但总体的演化和规律很难被撼动。当前的数据和经济形势已经在印证这一点;2026 年 2 月上海等地出台的房地产交易政策,某种意义上也是在和周期与时间赛跑——趋势并未改变,变的只是节奏。 所以,人生还是要把握好经济周期和钱袋子,打造自己的财富之路。我和周金涛一样,没法告诉你哪支股票会一飞冲天;但跟随周期做相位选择,我确实尝到了知识的回报:2018 年我在房产上做了与周期相符的布局,2024 年压中了科技股的方向,2025 年压对了黄金。这些不是运气,而是「先定位相位、再下注」的实践。仅以此文和研究献给一路读到这里的你,也以此怀念周金涛先生在周期论上的贡献。2026:进步。 这个系列写于 2026 年春节前后,算是我重读《涛动周期论》《涛动周期录》的笔记与验证。写到最后这篇时,金价已冲过 4500 美元/盎司(01月29日曾冲击5600美元/盎司,02月25日黄金重新回到5100美元/盎司)、铜价站上 10 万元/吨、房地产销售仍在同比下滑2——这些「现在」的数据,正是我们用周期与数据一起看的样本:相位(萧条尾、复苏萌芽)对,但资产幅度与时点要交给实时数据与政策。 论断方式是「相位→方向、概率分布」;以今视昔,方向性判断大多成立,时点偏差(如黄金「见顶」未至反而冲高)提醒我们——逻辑上「周期决定大方向」成立,「某年某月」必须加上政策与地缘同权、并用数据不断校准。十篇的结论可以压成一句:用周期看世界,用数据验预言,用相位做决策,用边界保清醒。 感谢你读到最后一篇;若你也在某个深夜翻过他的书,欢迎一起保持理性、保持乐观,一起穿越周期。 系列阅读快速跳转 日期 篇目 核心问题 02-15 2026年,周金涛的预言兑现了吗? 三条预言,十年数据,逐条验证 02-16 那些他没说对的事:周期天王的预测盲区 时间偏差、政策低估、技术加速 02-17 五层嵌套:周金涛看世界的底层代码 康波、库兹涅茨、朱格拉、基钦 02-18 人生发财靠康波:是宿命论还是概率学? 概率分布 vs 命运决定论 02-19 萧条期的生存法则:按他的方法做,能跑赢大盘吗? 现金/黄金/债券回测推演 02-20 2025年真的是萧条终点吗?我站在拐点的观察 拐点信号与余波风险 02-21 第六康波的中国机会:AI、新能源与生物技术 三条主线与参与方式 02-22 周期思维的个人应用:如何判断自己的「财富相位」 宏观/行业/职业/资产四层 02-24 周期天王的阿喀琉斯之踵:理论边界与争议 时间模糊、政策市、技术加速 02-25 穿越周期的智慧:给理性乐观主义者的信 相位、敬畏趋势、利用波动 引用 周金涛观点均引用自:周金涛等《涛动周期论:经济周期决定人生财富命运》,北京:机械工业出版社,2017;《涛动周期录》;及其生前公开演讲与报告(如 2016 年 3 月上海清算所沙龙演讲实录,见《涛动周期论》第一部分等)。 ...

ZHANG.z" | February 25, 2026 | 18 min | shanghai