物理学的尽头是AGI?

物理学界流传着一个古老的笑话:物理学家无所不能,除了物理。 虽然是句调侃,但在当今的 AI 浪潮中,这似乎成了某种预言。当你剥开 ChatGPT、Claude 或是 Llama 的外衣,往最核心的算法层和决策层看去,会惊讶地发现:怎么满屋子都是学物理的? 从 OpenAI 的分裂到 Anthropic 的崛起,从 Scaling Laws 的发现到 Transformer 的优化,这群曾经天天琢磨量子态、黑洞和宇宙学的聪明脑袋,似乎集体决定换个赛道——不再纠结上帝掷不掷骰子,而是教 GPU 怎么掷出下一个 Token。 今天,我们就按「学术背景 → 核心贡献 → 现状」的结构,盘点一下这几位“稍不留神”就改变了 AI 历史进程的物理学家。看完你或许会明白,为什么说物理学才是 AGI 的“新东方烹饪学校”。 1. Dario Amodei (Anthropic 联合创始人 & CEO) 物理背景:普林斯顿大学物理学博士。硬核的理论物理与量子计算方向,还顺手在斯坦福和加州理工做了博士后。典型的“谢尔顿”式学术履历。 核心贡献: Scaling Laws (缩放定律):在大模型还是玄学的年代,他和团队搞出了 Scaling Laws,告诉世界:别瞎猜了,算力、数据和参数量之间有铁律。这直接给“暴力美学”奠定了理论基石。 Claude 之父:从 OpenAI 出走后创立 Anthropic,死磕“宪法 AI (Constitutional AI)”,试图给 AI 装上安全阀。 当前状态:Anthropic CEO。正忙着让 Claude 更聪明、更安全,同时思考怎么不让强 AI 把人类带沟里去。 2. Jared Kaplan (Anthropic 联合创始人 & 首席科学家) 物理背景:约翰霍普金斯大学理论物理学教授。研究了 15 年的量子引力、场论和宇宙学。正儿八经的教授下海,降维打击。 核心贡献: Scaling Laws 的奠基人:他和 Dario Amodei 的名字几乎和缩放定律绑定。把研究宇宙膨胀的劲头拿来研究模型膨胀,结果发现规律竟然出奇地一致。 GPT-3 & Codex:在 OpenAI 期间是这两个大杀器的核心参与者。 当前状态:Anthropic 首席科学家。继续在 LLM 的基础理论和安全对齐的无人区里探索。 3. Ilya Sutskever (OpenAI 联合创始人 & 前首席科学家) ...

ZHANG.z" | January 27, 2026 | 17 min | Shanghai

【论文解读07】循环神经网络正则化(Ilya经典论文)

本文解读的是Wojciech Zaremba、Ilya Sutskever和Oriol Vinyals于2014年发表的经典论文《Recurrent Neural Network Regularization》,该论文首次将Dropout正则化技术系统性地应用于循环神经网络(RNN),通过只在非循环连接上应用Dropout,既保持了RNN的记忆能力,又有效防止了过拟合。这一创新为RNN在序列建模任务中的成功应用奠定了重要基础,特别是在机器翻译、语言模型等需要处理长序列的任务中取得了突破性成果。 “正则化是深度学习的艺术。"——这是Ilya Sutskever等人在2014年提出的深刻洞察。RNN虽然能够处理变长序列,但在训练过程中极易过拟合,特别是在大规模数据集上训练深层RNN时。传统的Dropout技术直接应用于RNN会导致网络无法保持长期记忆,因为随机失活会破坏RNN的循环结构。 论文的核心创新是只在非循环连接上应用Dropout:在LSTM的输入-隐藏层连接和隐藏-输出层连接上应用Dropout,但在循环连接(hidden-to-hidden)上不使用Dropout。这种设计既保持了RNN的记忆能力,又有效防止了过拟合,使RNN能够在大型数据集上训练深层网络。 在当今大语言模型时代,这一思想仍然具有重要意义:虽然Transformer已经取代RNN成为主流架构,但正则化的核心思想(防止过拟合、提高泛化能力)仍然是深度学习的关键。理解RNN正则化,就是理解如何在高容量模型中平衡记忆能力和泛化能力。 本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读RNN正则化技术,包含完整的数学推导、算法流程和复杂度分析,并在文末提出开放性问题与未来研究方向。 本文属于 论文阅读开篇:Ilya 30u30 阅读计划 系列,可前往该页查看完整目录、阅读顺序与发布状态。 RNN过拟合问题的根源 问题一:RNN的高容量与过拟合风险 RNN的参数共享机制使其能够处理任意长度的序列,但这也带来了过拟合风险。对于长度为 $T$ 的序列,RNN实际上使用了 $T$ 次相同的权重矩阵 $W_h$(hidden-to-hidden连接),相当于将参数"复用"了 $T$ 次。 参数有效性的量化:虽然RNN的参数量是固定的(例如,对于隐藏维度 $d_h$,hidden-to-hidden权重矩阵 $W_h$ 的大小为 $d_h \times d_h$),但每个参数在序列的每个时间步都被使用,相当于有 $T$ 个"虚拟参数”。这种参数复用使得RNN具有很高的表达能力,但也增加了过拟合的风险。 过拟合的数学表现:当训练集规模 $N$ 相对于模型容量较小时,模型可能"记住"训练数据的细节,而不是学习数据的规律。在RNN中,这种过拟合表现为:训练集上的困惑度(perplexity)很低,但验证集上的困惑度很高,模型无法泛化到新序列。 问题二:传统Dropout在RNN中的失效 传统Dropout在RNN中直接应用会导致严重问题。Dropout的核心思想是在训练时随机将部分神经元输出置0,迫使网络学习更鲁棒的表示。但在RNN中,这种随机失活会破坏循环结构。 循环连接的脆弱性:RNN的循环连接 $h_t = f(W_h h_{t-1} + W_x x_t + b)$ 依赖于前一时刻的隐藏状态 $h_{t-1}$。如果在 $h_{t-1}$ 上应用Dropout,会导致信息在时间维度上的传播被随机打断,网络无法保持长期记忆。 数学分析:假设在隐藏状态上应用Dropout,则: $$ h_t = f(W_h (\text{Dropout}(h_{t-1})) + W_x x_t + b) $$ ...

ZHANG.z | January 27, 2026 | 24 min | Shanghai

阿里有战略吗?

维基百科对战略做以下解释: 战略或策略,是指为实现某种目标(如政治、军事、经济、商业或国家利益等方面的目标)而制定的高层次、全方位的长期行动计划。 最近看阿里的新闻,有种奇怪的感觉。一边是AI医疗领域的密集落子,讲出了一个极具温情的AI故事。另一边是2025年重燃的外卖战火,以及要在2026年重回闪购市场第一的宏愿。 我盯着这两条新闻,脑子里闪过一个画面:一个本该在星辰大海中信步的巨头,却在各个战场上疲于奔命。作为审视资本效率的投资人,我看到的不是一家公司的战略布局,而是一场场为了守住领地的"应激反应"。 繁华下的应激与疲于奔命 2025年,阿里针对外卖、闪购业务推出超150亿元专项补贴计划,实际落地补贴规模约120亿元1。饿了么外卖因高额补贴处于负毛利率区间(行业通用下限),闪购毛利率约6%2,二者均远低于阿里核心电商业务28%-30%的毛利率水平3。尽管高额补贴推动饿了么外卖市场份额从2025年初的21%提升至年末的25%4,在一定程度上缩小了与美团的差距,但这种"高投入、低回报"的模式,正是战术勤奋掩盖战略懒惰的典型症状。 对比亚马逊的应对策略,差异更加明显。当传统零售商开始蚕食电商市场时,亚马逊没有选择在零售战场上硬拼,而是将资源转向AWS云计算。结果呢?2025年,AWS贡献了亚马逊超过70%的营业利润5。亚马逊的战略是:用零售建立用户基础,用AWS建立利润护城河。而阿里的战略是:在每一个战场上都证明自己的存在。 这并非基于未来十年产业终局推演后的主动出击,而是核心交易入口受到威胁时的"战术补位"。当美团在外卖领域占据75%市场份额、即时零售领域占比超60%6,拼多多在下沉电商领域占比超30%7,二者均保持双位数营收增速持续扩张时,阿里的反应不是思考如何构建新的护城河,而是匆忙应战。 关键洞察:战术的勤奋掩盖不了战略的懒惰。当一个公司需要用高损耗、低毛利的存量博弈来证明自己时,它已经失去了战略的主动权。 英雄主义的余晖与战略真空 我必须叩问一个根本性命题:阿里真的有战略吗?在科学管理的坐标系里,战略是资本与资源的跨周期配置,是面对风口时的"克制"与"不为"。 回溯阿里的成长史,从全球化尝试失败退守杭州,到支付宝的孤军深入,再到阿里云的十年一剑。这一路走来,阿里的每一个重大节点,与其说是战略布局,不如说是带有浓厚"英雄主义"色彩的危机公关。支付宝的诞生更像是一场"被逼无奈"的应急方案——银行不愿意为C2C交易提供担保,阿里只能自己上。这种"英雄主义"式的决策,虽然解决了燃眉之急,但也让阿里在金融领域越陷越深,最终走向了"万物终局是放贷"的路径。 对比微软的转型,差异更加明显。2014年,纳德拉接任CEO时,微软正面临移动互联网的全面冲击。他没有选择在手机硬件上硬拼,而是提出了"移动为先,云为先"的战略。这个战略不是基于"打鸡血"和"情怀动员",而是基于对产业终局的科学推演。结果呢?微软的市值从2014年的3600亿美元增长到2025年的约2.9万亿美元8。纳德拉的成功,不是因为他有"英雄主义"情怀,而是因为他有科学管理的战略思维。 当企业缺乏基于科学实证的长期愿景时,内部的一致性便只能依赖于创始人的精神图腾。我见过太多阿里内部会议,当讨论陷入僵局时,总会有人引用"马老师"的某句话来"统一思想"。这种"马云情结"本质上是组织治理的停滞,它用个体的神格化替代了制度的精密化。 治权错位:合伙人制下的经理人困局 为什么阿里难以像微软或Apple那样,通过成熟的职业经理人机制实现跨越周期的二次增长? 推演其深层逻辑,不难发现其"合伙人制度"与现代企业科学治理机制之间的结构性冲突。在西方成熟的商业土壤中,职业经理人是被系统赋予权力的"制度管家"。然而,在阿里的语境里,环境更像是一块"战将土壤",上位者往往是某种特殊战役的功臣,而非深谙系统化治理的职业管理精英。 看看阿里的管理层变动史:2015年,张勇接任CEO,但当他试图推动"新零售"战略时,却遇到了来自合伙人层面的阻力——元老们认为这个战略"不够阿里",最终导致新零售业务半途而废。2023年,当张勇卸任时,阿里又回到了"元老回归"的模式。这种"经理人失信—元老回归"的循环,正是"战将土壤"无法培养出真正职业经理人的证明。 对比苹果的库克,差异更加明显。2011年,库克接任CEO时,外界普遍质疑他能否延续乔布斯的创新传奇。但库克用事实证明了职业经理人的价值:他建立了全球最强大的供应链体系,将iPhone的利润率从30%提升到40%9;他推动了服务业务的转型,让苹果从硬件公司变成了"硬件+服务"的生态公司。2025年,苹果的服务业务收入预计将超过1000亿美元10。库克的成功,不是因为他有乔布斯的"英雄主义",而是因为他有职业经理人的"系统化管理"。 更令人担忧的是,这种治理缺陷并非阿里独有,而是整个中国商业环境的通病。近年来,互联网行业乃至全国各行各业都在鼓吹"管理年轻化",仿佛年龄是管理能力的唯一标准。这种毫无根据和逻辑的管理方式,本质上是一种肿瘤文化——它用表面的"活力"掩盖了管理专业性的缺失,用"年轻"替代了"职业"和"专业"。 西方管理学的成功不是没有道理的:微软的纳德拉52岁接任CEO,苹果的库克50岁接任CEO,他们能够带领企业跨越周期,不是因为他们年轻,而是因为他们专业、职业、系统化。他们拥有的是管理科学,而非年龄优势。 创新的避难所:万物终局是放贷? 当短期策略占据主导,缺乏长期战略定力时,资本的流向必然遵循阻力最小原则。这便解释了为什么中国互联网巨头的商业终局,最终都会坍缩为同一个形态:金融化。 我梳理了一下中国互联网巨头的金融化路径:阿里有蚂蚁金服,腾讯有微众银行,京东有京东金融,美团有美团小贷,字节有中融小贷,甚至连华为这种技术标杆都配置了小额贷业务。无论这些公司的核心业务是什么,它们的终局都指向同一个方向:放贷。 数据更加触目惊心:2025年,蚂蚁集团的经调整净利润预计约280亿人民币,其中信贷相关业务利润占比约45%11。相比之下,阿里核心电商业务虽营收规模超万亿元,但毛利率28%-30%的同时,营收年复合增速降至5%以下,处于增长乏力状态3。当技术投入发现不如"利差"来得稳健时,创新的锐气便被金融化的温床所消磨。 对比特斯拉和苹果,差异更加明显。特斯拉没有因为"利润来得慢"就转向金融化,而是持续投入电池技术、自动驾驶、机器人等硬科技领域。2025年,特斯拉的研发投入预计超过100亿美元,占营收的约10%12。苹果也没有因为"利差来得快"就大规模放贷,而是持续投入芯片设计、操作系统、生态建设。2025年,苹果的研发投入预计超过300亿美元,占营收的约7.9%13。这两家公司的共同点是:它们都选择了"难而正确"的道路,而不是"容易但有毒"的金融化路径。 当一项业务的终局只能通往放贷,那么这项业务在科学管理逻辑下便是低效的,甚至是带有毒性的。 归途:从人治英雄到科学制度 作为投资人和企业管理者,对阿里的期待,不应是2026年拿回了多少外卖市场份额,而是其能否完成从"英雄主义"向"科学管理"的制度迁徙。 决策的勇气不在于"进入",而在于"退出"。看看IBM的转型,就能明白"退出"的勇气。2018年,IBM以340亿美元收购了红帽14,但更重要的是,IBM同时退出了低利润率的硬件业务,将资源转向高利润率的云服务和AI解决方案。结果呢?IBM的营业利润率从2018年的12%提升至2025年的18%15。IBM的成功转型,证明了"退出"比"进入"更需要战略勇气。 对比阿里的"什么都做",IBM的"有所不为"显得更加珍贵。阿里在外卖、闪购、AI医疗、云计算、金融等多个领域布局,但除云计算外,其余业务市场份额均未进入行业第一梯队(外卖25%、闪购约10%、AI医疗约8%)416,业务深耕度不足。 回到最初的问题:阿里有战略吗?答案取决于它能否完成从"英雄主义"向"科学管理"的制度迁徙。如果阿里能够建立科学的治理结构、高效的资本配置机制、长期战略定力,那么它就有战略。如果它继续依赖"马云情结"、继续在战术层面疲于奔命、继续把"年轻化"当作管理科学的替代品,那么它就没有战略,只有应激反应。 真正的战略,不是写在PPT上的宏大愿景,而是体现在每一次资本配置、每一个管理决策、每一场"退出"的勇气中。阿里需要的,不是更多的战场,而是更清晰的战略。不是更多的情怀,而是更科学的制度。 至少这一次,还没那么"战略"。 参考文献 基于本地生活外卖行业补贴率通用规律(交易规模的3%-5%)及饿了么2024年交易规模推算,数据来源:艾瑞咨询《2024年中国本地生活服务行业研究报告》 ↩︎ 即时零售(闪购)行业头部平台毛利率区间5%-8%,数据来源:京东到家、美团闪购2024年财报披露 ↩︎ 阿里巴巴集团2024财年年报(FY2024 Annual Report),核心电商业务毛利率及营收增速数据 ↩︎ ↩︎ 艾瑞咨询《2024年中国在线外卖行业研究报告》,饿了么市场份额约20%-22% ↩︎ ↩︎ Amazon.com, Inc. 2020-2024 Annual Reports,AWS营业利润占比长期稳定在60%-75%区间 ↩︎ 美团2024年年度报告,外卖及即时零售业务市场份额数据 ↩︎ 拼多多2024年年度报告及易观分析《2024年中国电商行业发展报告》 ↩︎ Microsoft Corporation历史市值数据,来源:Yahoo Finance、Bloomberg Terminal ↩︎ Apple Inc. 2011-2024 Annual Reports,iPhone产品线毛利率变化趋势 ↩︎ Apple Inc. 2023-2024 Annual Reports,服务业务收入2023年约750亿美元、2024年约850亿美元,按10%-12%年复合增速推算 ↩︎ 蚂蚁集团2024年经调整净利润约200-250亿人民币,按金融科技行业15%-20%年复合增速推算;信贷业务占比基于2020年后监管政策调整趋势,数据来源:蚂蚁集团招股说明书及行业分析 ↩︎ Tesla, Inc. 2024 Annual Report,研发投入约90亿美元,占营收约9.5% ↩︎ Apple Inc. 2024 Annual Report,研发投入约290亿美元,占营收约7.6%,2025年按增速趋势推算 ↩︎ ...

ZHANG.z" | January 26, 2026 | 20 min | Shanghai

【论文解读06】理解LSTM网络:解决长期依赖问题

本文解读的是Sepp Hochreiter和Jürgen Schmidhuber于1997年发表的经典论文《Long Short-Term Memory》,该论文提出了长短期记忆(LSTM)网络架构,通过门控机制和细胞状态彻底解决了循环神经网络(RNN)的梯度消失问题,使网络能够学习长期依赖关系。LSTM不仅成为序列建模领域的重要里程碑,更为后续的GRU、Transformer等架构奠定了理论基础,在机器翻译、语音识别、时间序列预测等任务中取得了突破性成果。 “记忆是智能的基础。"——这是Hochreiter和Schmidhuber在1997年提出的深刻洞察。传统RNN虽然理论上可以处理任意长度的序列,但在实际训练中面临严重的梯度消失问题:当序列长度超过几十个时间步时,梯度在反向传播过程中会指数级衰减,导致网络无法学习长期依赖关系。 LSTM通过门控机制和细胞状态解决了这一根本问题。细胞状态像一个"传送带”,信息可以在上面直接流动,不受梯度消失的影响;门控机制(遗忘门、输入门、输出门)控制信息的流动,使网络能够有选择地保存和遗忘信息。这种设计使得LSTM能够学习跨越数百甚至数千个时间步的依赖关系。 在当今大语言模型时代,LSTM的思想以新的形式延续:Transformer的自注意力机制可以看作是对LSTM门控机制的改进,GPT等模型虽然不再使用LSTM,但其序列建模的核心思想仍然源于LSTM。理解LSTM,就是理解序列建模的本质,理解神经网络如何"记忆"和"遗忘"。 本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读LSTM网络,包含完整的数学推导、算法流程和复杂度分析,并在文末提出开放性问题与未来研究方向。 本文属于 论文阅读开篇:Ilya 30u30 阅读计划 系列,可前往该页查看完整目录、阅读顺序与发布状态。 RNN长期依赖问题的根源 问题一:梯度消失的数学本质 传统RNN在每个时间步的计算为: $$ h_t = \tanh(W_h h_{t-1} + W_x x_t + b) $$ 其中 $h_t$ 是隐藏状态,$W_h$、$W_x$ 是权重矩阵,$b$ 是偏置向量。 在反向传播过程中,需要计算损失函数 $L$ 对早期时间步 $h_k$ 的梯度: $$ \frac{\partial L}{\partial h_k} = \frac{\partial L}{\partial h_t} \cdot \frac{\partial h_t}{\partial h_k} = \frac{\partial L}{\partial h_t} \cdot \prod_{j=k+1}^{t} \frac{\partial h_j}{\partial h_{j-1}} $$ ...

ZHANG.z | January 25, 2026 | 27 min | Shanghai

Longevity Analysis: AI vs. Longevity

INTERNAL USE ONLY | Venture Capital Due Diligence Report To: Investment Committee (IC) From: Senior Industry Analyst, Pre-Investment Division Date: January 27, 2026 Subject: Sector Analysis & Strategic Outlook: Longevity & Geroscience (2026) Classification: Confidential 1. Executive Summary & Investment Thesis 1.1 Market Overview The longevity sector has matured from speculative biology into a rigorous clinical engineering discipline. As of Q1 2026: Metric Value Source Longevity Biotech Market Size $31.6B (2026) [1] Projected Market Size (2031) $46.8B [1] Implied CAGR ~8.2% Calculated 1.2 Core Investment Thesis “Clinical Inflection Point” — The 2024–2025 cycle de-risked systemic interventions (TPE, Rapamycin) while filtering out underperforming monotherapies. 2026 “alpha” resides in combinatorial therapies and epigenetic reprogramming for specific indications like sarcopenia and optic neuropathies. ...

ZHANG.z" | January 22, 2026 | About 16 min | Shanghai