Zhang's Blog

千问核心离职风波：林俊旸下一步是创业吗？

3 月 6 日，林俊旸正式确认离职。距离那条「bye my beloved qwen」的推文过去 48 小时，这场震动中国 AI 圈的人事风波进入下半场——不是八卦内幕的下半场，而是更实质的问题：一个 32 岁、带出了全球顶级开源模型、被 Google DeepMind 公开喊话抢人的技术领袖，下一步该往哪走？我的判断很直接：创业是他唯一合理的选择。不是情感上的「创业浪漫」，而是结构性推演后的结论。大厂、学术机构、加入其他独角兽——这三条路都有明显的逻辑断裂，只有创业能承接他过去三年积累的所有资产，并给他真正的自由度。林俊旸今年 32 岁，阿里最年轻的 P10，Qwen 技术负责人。在他带领下，Qwen 从一个内部项目成长为全球下载量突破 7 亿次、衍生模型超过 18 万个的开源模型家族1。斯坦福《2025 年人工智能指数报告》把 Qwen 排在全球第三2，Google DeepMind executive Omar Sanseviero 在他离职后直接在 X 上向 Qwen 团队喊话：「if any of you want a new home to build great models and contribute to the open models ecosystem, please reach out!」3 这是全球顶级 AI 实验室在用行动投票：这些人在开源生态里的价值，远超任何一家公司的内部职级体系能衡量的。但价值归价值，选择归选择。林俊旸面前的选项其实不多——或者说，他面前的选择太多，反而让决策变得更难。据说离职消息传出后，投资圈瞬间沸腾。不止一家头部机构的合伙人通过各种渠道打探他的联系方式——有人发朋友圈暗示「有预算、等团队」，有人通过千问团队的熟人递话，有人直接私信阿里内部的朋友「能不能帮我引荐林俊旸」。不到 48 小时，他的微信被加爆，未读消息里挤满了红杉、高瓴、五源、启明等一线基金的合伙人。开出的条件一个比一个诱人：有人直接开价数千万美元估值，不占大股，「你说了算」；有人承诺「只管做技术，商业化我们来」，配套完整的 GTM 团队。 ...

大模型的开源，到底开源了什么

大模型时代喊的"开源"，99% 不是你以为的那种开源。当我们说 Linux 开源、Redis 开源的时候，意思很明确：把软件的"设计图纸"——源代码——全部公开，任何人都可以照着图纸把软件重新造一遍。这是软件的开源，公开图纸就等于公开一切。但大模型的开源是一件根本不同的事。大模型的能力不在图纸里，而在一堆"经验"里——几千亿个数字，是用海量数据和巨额算力"喂"出来的，不是人一行一行写出来的。你可以公开这些数字，但别人拿到了也不知道你是怎么喂出来的。这是AI 的开源，它和软件开源之间的鸿沟，比大多数人意识到的要深得多。深到什么程度？全球最权威的开源组织 OSI（开源促进会）在 2024 年 10 月专门发布了《开源 AI 定义 1.0》1，试图从头定义"AI 的开源到底应该是什么"——光是需要重新定义这件事本身，就说明传统软件开源的框架已经装不下大模型了。2026 年全国两会期间，中科院院士、阿里云创始人王坚更是直接呼吁：别再说"开源大模型"了，应该叫"开放权重模型"——因为你开放出去的不是一段代码，而是背后烧掉的电费和算力2。这篇文章想做一件事：把大模型"开源"这个词拆开，一层一层看清楚里面到底装了什么。大模型的"源代码"不是代码软件开源的逻辑很简单：一个程序员写了一段代码，公开了，别人照着代码就能把同样的软件跑起来，还能改。代码就是全部，公开代码就是公开一切。大模型完全不是这么回事。它的核心不是人写的代码，而是一种叫权重（weights）的东西——你可以把它理解成模型的"肌肉记忆"。就像一个厨师做了十年菜，他的手感、火候判断、调味直觉，全都长在身体里，不是写在菜谱上的。大模型的权重也一样：几十亿到几千亿个数字，是模型在海量数据上反复训练出来的结果。没有人能看懂这些数字具体是什么意思，但把它们加载到程序里，模型就能回答问题、写代码、做翻译。关键区别在这里：公开厨师做好的菜，不等于公开他十年练出来的手艺。公开权重，不等于公开训练权重的方法。这就是 AI 开源和软件开源的根本区别。所以，大模型的世界里，“源代码"这个概念被拆成了至少四层：层是什么厨师类比权重模型训练出来的"肌肉记忆” 厨师十年练出来的手感和味觉直觉推理代码让模型跑起来的程序把菜端上桌的流程训练代码从零训练模型的完整方法厨师十年来的全部训练方法和食谱训练数据喂给模型学习的海量文本、图像等厨师吃过的所有菜、看过的所有菜谱传统软件开源，相当于把食谱和做法全部公开。大模型"开源"，大多数时候只是把做好的菜端出来，告诉你怎么加热和摆盘。三种"开源"，差别巨大明白了这四层之后，我们就可以看清楚：市面上号称"开源"的大模型，其实分成了截然不同的三种模式。开放权重：给你成品，不给你生产车间这是目前最主流的模式。Qwen、Llama 3、Gemma、Mistral——全球下载量最大的开源模型，几乎都属于这一类。阿里的 Qwen（通义千问）是这个模式的典型代表。你可以免费下载它全系列的模型——从轻量级的小模型到最新的 Qwen 3.5 旗舰版，附带使用说明和示例代码。你能拿它在自己的电脑或服务器上跑起来，用自己的数据做定制化训练（行话叫"微调"），甚至基于它做出更小的模型拿去商用。Qwen 的下载量已突破 7 亿次，全球开发者基于它做出的衍生模型超过 18 万个3——这个生态的繁荣，完全建立在"开放权重"这个模式之上。但你拿不到的东西同样重要：Qwen 是怎么从零开始训练出来的？喂了什么数据？数据怎么筛选和清洗的？训练过程中几百个关键参数是怎么调的？模型怎么学会"像人一样说话"的？这些全都没有公开。你拿到了一个训练好的模型，但完全不知道它是怎么炼成的。值得注意的是，即便同属"开放权重"，“使用条款"之间的差异也不小。Qwen 用的是最宽松的 Apache 2.0 协议——随便用、随便改、随便商用，没有附加限制。Meta 的 Llama 3 则有门槛：如果你的产品月活用户超过 7 亿，需要单独找 Meta 谈授权。Google 的 Gemma 更严格：明确禁止你用它的模型去训练竞品。同样叫"开放权重”，你能拿它做什么，差别可以很大。 ...

千问核心离职风波：开源社区需要什么人

Qwen 的技术报告单篇引用超过 6000 次1，Hugging Face 下载量突破 7 亿次2，衍生模型超过 18 万个2。斯坦福《2025 年人工智能指数报告》把它排在全球第三3。然后，带着这一切走到今天的人，在凌晨 0:11 发了一条推文就走了4。这两天 AI 圈讨论最多的不是模型，而是人。但我注意到一个有意思的现象：中文互联网上讨论的焦点是"阿里怎么了"“管理出了什么问题"“谁来接班”，而英文社区——从 Hugging Face 到 GitHub 到 X 的评论区——讨论的焦点是一个更本质的问题：开源社区到底需要什么样的人？失去这样的人意味着什么？这两种反应之间的落差，可能比林俊旸的离职本身更值得想一想。全球顶级机构在用行动投票艾伦人工智能研究院的研究员 Nathan Lambert 在 X 上写了一句话：“如果 Qwen 倒塌，在开放研究生态中留下的巨大空缺将很难填补。那些小模型是不可替代的。”5 Hyperbolic Labs 的 CTO Yuchen Jin 说：“一个时代的结束。“MiniMax、Unsloth、Ollama 都在林俊旸的推文下留言感谢。Hugging Face 亚太区负责人 Tiezhen Wang 说这是 Qwen 的"巨大损失”。智谱 AI 创始人唐杰评论说：“酷，开始新的旅程吧。” 而截至发稿，事情已经从哀悼升级为抢人。Google DeepMind 的 Omar Sanseviero 直接在 X 上向 Qwen 团队公开喊话6： Qwen friends: if any of you want a new home to build great models and contribute to the open models ecosystem, please reach out! ...

千问团队离职风波：一个管理者应该看到什么

3 月 4 日凌晨 0:11，林俊旸在 X 上写下一句话： me stepping down. bye my beloved qwen. 6M 浏览，1.3K 转发，1.3 万点赞。阿里巴巴通义千问技术负责人，今年刚满 32 岁，阿里最年轻的 P10，就这样在深夜告别了自己一手带大的团队。前一天晚上，他的团队刚发布了一个让马斯克都点赞的开源模型。紧接着，Qwen 另一位核心负责人 Binyuan Hui（惠彬原）也走了，Qwen3.5、Qwen VL、Qwen Coder 的核心贡献者 Kaixin Li 也发了告别帖。目前确认离开的至少三到四人，全是核心骨干。一天之内，中国最有影响力的开源大模型团队经历了一次集体震荡。这件事在 AI 圈刷屏了两天。各种内幕、传闻、阴谋论满天飞——KPI 不达标、转向闭源、被架空、被挖角。3 月 5 日，阿里 CEO 吴泳铭发了一封内部邮件：各位通义实验室同学：公司已决定批准林俊旸同学的辞职，感谢林俊旸过去在岗位上的付出。靖人会继续带领通义实验室推进后续工作。同时公司将成立基础模型支持小组，由我，靖人，范禹共同协调集团资源支持基础模型建设。技术发展不进则退。发展基础大模型是我们面向未来的关键战略，我们将在继续坚持开源模型策略的同时，持续加大对人工智能领域的研发投入，加大吸纳优秀人才的力度，我们一起加油。吴泳铭 2026年3月5日坦白说，这些八卦和公关回应我都不太关心。我更想从一个很小的窗口来看这件事：管理。具体来说，是三个层层递进的问题——你有没有看到信号？你有没有理解诉求？你的制度能不能接住这些人？信号一直在，只是没人听管理学里有个说法：员工离职的决定，通常在正式提出前三到六个月就已经做出了。在这段时间里，信号其实一直在——工作热情下降、对战略讨论的参与减少、开始频繁和外部接触。问题不是信号不存在，而是有没有人在接收。大公司里有一个常见的悖论：越重要的人，CEO 越没时间见。吴泳铭在邮件里宣布成立高层直接协调的支持小组——这个动作本身说明了一件事：之前的协调层级太多了。一个负责公司核心 AI 能力的技术负责人，他的诉求、困惑、不满，要穿过几层汇报才能到达 CEO 耳朵里？等信息传到的时候，还剩下多少真实度？我一直觉得，CEO 最值钱的时间投入之一是和关键人才的 one-on-one。不是季度汇报，不是 all-hands 上的 Q&A，而是关起门来、没有议程、聊半小时到一小时的那种对话。这种对话的价值不在于解决具体问题，而在于建立一条不经过任何中间层的信息通道。 Andy Grove 在《高产出管理》里算过一笔账：一个经理人花一小时做 one-on-one，影响的是下属接下来两周的工作质量和方向感。对 CEO 来说，这笔账的杠杆更大——你花一小时和一个关键技术负责人聊，可能避免的是一次价值数十亿的团队震荡。反过来，你省下的这一小时拿去开了一个战略会，讨论的可能恰恰是这个人走了之后怎么办。 ...

精准打击会不会改写人类的组织方式？

精准打击刺穿的不是一座建筑，而是人类延续了两百年的组织幻觉。 2026 年 2 月 28 日，美国与以色列联合发动代号"史诗怒火"（Operation Epic Fury）的军事行动，对伊朗多座城市实施空袭。据以色列军方声明，以空军出动约 200 架战机执行了"以色列历史上最大规模的飞行任务"，打击了伊朗全境约 500 个目标1。伊朗国家媒体随后证实，最高领袖哈梅内伊在其德黑兰官邸遭袭后身亡，伊朗宣布全国哀悼 40 天2。据 Reuters 报道，国防部长纳西尔扎德、革命卫队总司令帕克普尔、国防委员会秘书沙姆哈尼等多名高级官员同日被确认死亡1。3 月 1 日，多家外媒报道称前总统内贾德也在德黑兰纳尔马克区住所遭空袭身亡，但截至发稿时伊朗官方尚未正式确认这一消息3。没有地面推进，没有大规模地面战——情报锁定位置，空中精准打击，一个拥有 8800 万人口的国家在数小时内陷入权力真空。这不是孤例。2026 年 1 月 3 日，美军在代号"绝对决心"（Operation Absolute Resolve）的行动中，用约两个半小时从委内瑞拉提取了总统马杜罗及其妻子。据 Reuters 和 Guardian 报道，行动依赖数月的 CIA 地面情报搜集、对马杜罗行踪的持续监控，以及来自 20 个基地的超过 150 架飞机（含 F-35、F-22 和 B-1 轰炸机）的空中压制，三角洲部队在马杜罗安全屋的复制建筑上反复演练后实施突击45。从委内瑞拉到伊朗，同一套逻辑反复上演：不需要占领一寸土地，只要猎杀关键节点，整个系统就会瘫痪。这件事的意义远不止军事——它实质上是对人类延续了两百年的集中式组织形态的一次破坏性检验。 “最优解"过期了集中式组织因效率而生，也因效率的代价——脆弱——而走向失效。伊朗的权力结构为什么这么脆？因为它和全世界大多数国家一样，是按照工业时代的逻辑搭建的。两百年前，蒸汽机、铁路和电报让大规模动员和远距离指挥第一次成为可能。拿破仑战争证明了一件事：谁能更快地集中兵力、统一指挥，谁就能赢。于是中央集权的民族国家成为"最优解”——韦伯所说的"法理型权威"。从军队到政府到企业，全部按照金字塔结构运转：信息向上汇聚，命令向下传达，效率极高。两次世界大战把这套逻辑推到了极致：苏联靠中央计划经济把整个国家变成一台战争机器，美国靠联邦政府统一调配资源打赢了太平洋战争。但效率的代价是脆弱。金字塔的顶端——最高领袖、总司令、指挥中枢——变成了整个系统的"单点故障"。在工业化战争年代，要打掉这个顶端需要几百万军队一路推过去，代价极大，所以集中式组织是安全的。可当精准打击技术把"猎杀一个节点"的成本降到几架战机和几个小时，这个"最优解"就不再最优了。伊朗最高领袖、国防部长、革命卫队总司令在同一天被消灭——这在二战时期需要打到柏林才能做到的事，今天只需要情报加精确制导。有意思的是，集中式并不是人类组织的"默认状态"。在工业革命之前的漫长历史里，分散才是常态。中世纪欧洲的封建制虽然效率低下，但面对蒙古西征时，分散的欧洲诸国反而比高度集中的南宋更难被一击致命——蒙古人可以在崖山灭掉整个南宋朝廷，却无法用同样的方式征服整个欧洲，因为没有一个"中枢"可以被一锅端。集中式组织是工业化战争的产物，不是人类组织的天然形态；精准斩首战争的出现，不过是让历史的钟摆开始往回摆。三种分布式：求生、设计与技术分布式组织已在三个层面展开——被动求生、主动设计、底层技术支撑，层层递进。面对精准打击的威胁，分布式并不是一种统一的方案，而是在不同场景下各自生长出来的。被逼出来的分布式：ISIS 的"九头蛇"变异。 2019 年"哈里发国"的领土被摧毁后，ISIS 并没有消亡。据 Crisis Zone 报道，它从一个有领土、有首都、有层级指挥的"准国家"，变异成一个横跨 12 个以上省份、拥有约 15000 至 25000 名战斗人员的分布式网络6。中央指挥被反复斩首，但萨赫勒省、呼罗珊省等分支反而在近年取得了显著的领土扩张。砍掉一个头，其他头照样咬人——这证明了分布式组织在"抗毁性"上的天然优势。主动设计的分布式：美军的 CJADC2 和以色列的网络化军事体系。美军显然不想等到被斩首之后才被动转型。据 Breaking Defense 报道，2026 年 2 月第四步兵师在"常春藤之刺"演习中验证了 CJADC2（联合全域指挥与控制）体系：陆军、海军陆战队、海军和盟国（澳大利亚、英国）的 48 个作战节点通过 NGC2 数据层实现了双向实时信息共享，陆军可以直接使用海军陆战队提供的目标数据开火7。以色列自身就是另一个案例——作为约 900 万人口的小国，它的预备役制度让大量公民成为潜在的作战节点，摩萨德、辛贝特、阿曼三大情报机构各自独立运作又通过技术平台共享信息，决策链条极短。以色列能对伊朗发动精准斩首，恰恰因为自身的组织形态已经高度网络化——而伊朗围绕最高领袖构建的集中式体系，在面对这种打击时几乎没有缓冲。 ...