Zhang's Blog

物理学的尽头是AGI？

物理学界流传着一个古老的笑话：物理学家无所不能，除了物理。虽然是句调侃，但在当今的 AI 浪潮中，这似乎成了某种预言。当你剥开 ChatGPT、Claude 或是 Llama 的外衣，往最核心的算法层和决策层看去，会惊讶地发现：怎么满屋子都是学物理的？从 OpenAI 的分裂到 Anthropic 的崛起，从 Scaling Laws 的发现到 Transformer 的优化，这群曾经天天琢磨量子态、黑洞和宇宙学的聪明脑袋，似乎集体决定换个赛道——不再纠结上帝掷不掷骰子，而是教 GPU 怎么掷出下一个 Token。今天，我们就按「学术背景 → 核心贡献 → 现状」的结构，盘点一下这几位“稍不留神”就改变了 AI 历史进程的物理学家。看完你或许会明白，为什么说物理学才是 AGI 的“新东方烹饪学校”。 1. Dario Amodei (Anthropic 联合创始人 & CEO) 物理背景：普林斯顿大学物理学博士。硬核的理论物理与量子计算方向，还顺手在斯坦福和加州理工做了博士后。典型的“谢尔顿”式学术履历。核心贡献： Scaling Laws (缩放定律)：在大模型还是玄学的年代，他和团队搞出了 Scaling Laws，告诉世界：别瞎猜了，算力、数据和参数量之间有铁律。这直接给“暴力美学”奠定了理论基石。 Claude 之父：从 OpenAI 出走后创立 Anthropic，死磕“宪法 AI (Constitutional AI)”，试图给 AI 装上安全阀。当前状态：Anthropic CEO。正忙着让 Claude 更聪明、更安全，同时思考怎么不让强 AI 把人类带沟里去。 2. Jared Kaplan (Anthropic 联合创始人 & 首席科学家) 物理背景：约翰霍普金斯大学理论物理学教授。研究了 15 年的量子引力、场论和宇宙学。正儿八经的教授下海，降维打击。核心贡献： Scaling Laws 的奠基人：他和 Dario Amodei 的名字几乎和缩放定律绑定。把研究宇宙膨胀的劲头拿来研究模型膨胀，结果发现规律竟然出奇地一致。 GPT-3 & Codex：在 OpenAI 期间是这两个大杀器的核心参与者。当前状态：Anthropic 首席科学家。继续在 LLM 的基础理论和安全对齐的无人区里探索。 3. Ilya Sutskever (OpenAI 联合创始人 & 前首席科学家) ...

【论文解读07】循环神经网络正则化（Ilya经典论文）

本文解读的是Wojciech Zaremba、Ilya Sutskever和Oriol Vinyals于2014年发表的经典论文《Recurrent Neural Network Regularization》，该论文首次将Dropout正则化技术系统性地应用于循环神经网络（RNN），通过只在非循环连接上应用Dropout，既保持了RNN的记忆能力，又有效防止了过拟合。这一创新为RNN在序列建模任务中的成功应用奠定了重要基础，特别是在机器翻译、语言模型等需要处理长序列的任务中取得了突破性成果。 “正则化是深度学习的艺术。"——这是Ilya Sutskever等人在2014年提出的深刻洞察。RNN虽然能够处理变长序列，但在训练过程中极易过拟合，特别是在大规模数据集上训练深层RNN时。传统的Dropout技术直接应用于RNN会导致网络无法保持长期记忆，因为随机失活会破坏RNN的循环结构。论文的核心创新是只在非循环连接上应用Dropout：在LSTM的输入-隐藏层连接和隐藏-输出层连接上应用Dropout，但在循环连接（hidden-to-hidden）上不使用Dropout。这种设计既保持了RNN的记忆能力，又有效防止了过拟合，使RNN能够在大型数据集上训练深层网络。在当今大语言模型时代，这一思想仍然具有重要意义：虽然Transformer已经取代RNN成为主流架构，但正则化的核心思想（防止过拟合、提高泛化能力）仍然是深度学习的关键。理解RNN正则化，就是理解如何在高容量模型中平衡记忆能力和泛化能力。本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读RNN正则化技术，包含完整的数学推导、算法流程和复杂度分析，并在文末提出开放性问题与未来研究方向。本文属于论文阅读开篇：Ilya 30u30 阅读计划系列，可前往该页查看完整目录、阅读顺序与发布状态。 RNN过拟合问题的根源问题一：RNN的高容量与过拟合风险 RNN的参数共享机制使其能够处理任意长度的序列，但这也带来了过拟合风险。对于长度为 $T$ 的序列，RNN实际上使用了 $T$ 次相同的权重矩阵 $W_h$（hidden-to-hidden连接），相当于将参数"复用"了 $T$ 次。参数有效性的量化：虽然RNN的参数量是固定的（例如，对于隐藏维度 $d_h$，hidden-to-hidden权重矩阵 $W_h$ 的大小为 $d_h \times d_h$），但每个参数在序列的每个时间步都被使用，相当于有 $T$ 个"虚拟参数”。这种参数复用使得RNN具有很高的表达能力，但也增加了过拟合的风险。过拟合的数学表现：当训练集规模 $N$ 相对于模型容量较小时，模型可能"记住"训练数据的细节，而不是学习数据的规律。在RNN中，这种过拟合表现为：训练集上的困惑度（perplexity）很低，但验证集上的困惑度很高，模型无法泛化到新序列。问题二：传统Dropout在RNN中的失效传统Dropout在RNN中直接应用会导致严重问题。Dropout的核心思想是在训练时随机将部分神经元输出置0，迫使网络学习更鲁棒的表示。但在RNN中，这种随机失活会破坏循环结构。循环连接的脆弱性：RNN的循环连接 $h_t = f(W_h h_{t-1} + W_x x_t + b)$ 依赖于前一时刻的隐藏状态 $h_{t-1}$。如果在 $h_{t-1}$ 上应用Dropout，会导致信息在时间维度上的传播被随机打断，网络无法保持长期记忆。数学分析：假设在隐藏状态上应用Dropout，则： $$ h_t = f(W_h (\text{Dropout}(h_{t-1})) + W_x x_t + b) $$ ...

阿里有战略吗？

维基百科对战略做以下解释: 战略或策略，是指为实现某种目标（如政治、军事、经济、商业或国家利益等方面的目标）而制定的高层次、全方位的长期行动计划。最近看阿里的新闻，有种奇怪的感觉。一边是AI医疗领域的密集落子，讲出了一个极具温情的AI故事。另一边是2025年重燃的外卖战火，以及要在2026年重回闪购市场第一的宏愿。我盯着这两条新闻，脑子里闪过一个画面：一个本该在星辰大海中信步的巨头，却在各个战场上疲于奔命。作为审视资本效率的投资人，我看到的不是一家公司的战略布局，而是一场场为了守住领地的"应激反应"。繁华下的应激与疲于奔命 2025年，阿里针对外卖、闪购业务推出超150亿元专项补贴计划，实际落地补贴规模约120亿元1。饿了么外卖因高额补贴处于负毛利率区间（行业通用下限），闪购毛利率约6%2，二者均远低于阿里核心电商业务28%-30%的毛利率水平3。尽管高额补贴推动饿了么外卖市场份额从2025年初的21%提升至年末的25%4，在一定程度上缩小了与美团的差距，但这种"高投入、低回报"的模式，正是战术勤奋掩盖战略懒惰的典型症状。对比亚马逊的应对策略，差异更加明显。当传统零售商开始蚕食电商市场时，亚马逊没有选择在零售战场上硬拼，而是将资源转向AWS云计算。结果呢？2025年，AWS贡献了亚马逊超过70%的营业利润5。亚马逊的战略是：用零售建立用户基础，用AWS建立利润护城河。而阿里的战略是：在每一个战场上都证明自己的存在。这并非基于未来十年产业终局推演后的主动出击，而是核心交易入口受到威胁时的"战术补位"。当美团在外卖领域占据75%市场份额、即时零售领域占比超60%6，拼多多在下沉电商领域占比超30%7，二者均保持双位数营收增速持续扩张时，阿里的反应不是思考如何构建新的护城河，而是匆忙应战。关键洞察：战术的勤奋掩盖不了战略的懒惰。当一个公司需要用高损耗、低毛利的存量博弈来证明自己时，它已经失去了战略的主动权。英雄主义的余晖与战略真空我必须叩问一个根本性命题：阿里真的有战略吗？在科学管理的坐标系里，战略是资本与资源的跨周期配置，是面对风口时的"克制"与"不为"。回溯阿里的成长史，从全球化尝试失败退守杭州，到支付宝的孤军深入，再到阿里云的十年一剑。这一路走来，阿里的每一个重大节点，与其说是战略布局，不如说是带有浓厚"英雄主义"色彩的危机公关。支付宝的诞生更像是一场"被逼无奈"的应急方案——银行不愿意为C2C交易提供担保，阿里只能自己上。这种"英雄主义"式的决策，虽然解决了燃眉之急，但也让阿里在金融领域越陷越深，最终走向了"万物终局是放贷"的路径。对比微软的转型，差异更加明显。2014年，纳德拉接任CEO时，微软正面临移动互联网的全面冲击。他没有选择在手机硬件上硬拼，而是提出了"移动为先，云为先"的战略。这个战略不是基于"打鸡血"和"情怀动员"，而是基于对产业终局的科学推演。结果呢？微软的市值从2014年的3600亿美元增长到2025年的约2.9万亿美元8。纳德拉的成功，不是因为他有"英雄主义"情怀，而是因为他有科学管理的战略思维。当企业缺乏基于科学实证的长期愿景时，内部的一致性便只能依赖于创始人的精神图腾。我见过太多阿里内部会议，当讨论陷入僵局时，总会有人引用"马老师"的某句话来"统一思想"。这种"马云情结"本质上是组织治理的停滞，它用个体的神格化替代了制度的精密化。治权错位：合伙人制下的经理人困局为什么阿里难以像微软或Apple那样，通过成熟的职业经理人机制实现跨越周期的二次增长？推演其深层逻辑，不难发现其"合伙人制度"与现代企业科学治理机制之间的结构性冲突。在西方成熟的商业土壤中，职业经理人是被系统赋予权力的"制度管家"。然而，在阿里的语境里，环境更像是一块"战将土壤"，上位者往往是某种特殊战役的功臣，而非深谙系统化治理的职业管理精英。看看阿里的管理层变动史：2015年，张勇接任CEO，但当他试图推动"新零售"战略时，却遇到了来自合伙人层面的阻力——元老们认为这个战略"不够阿里"，最终导致新零售业务半途而废。2023年，当张勇卸任时，阿里又回到了"元老回归"的模式。这种"经理人失信—元老回归"的循环，正是"战将土壤"无法培养出真正职业经理人的证明。对比苹果的库克，差异更加明显。2011年，库克接任CEO时，外界普遍质疑他能否延续乔布斯的创新传奇。但库克用事实证明了职业经理人的价值：他建立了全球最强大的供应链体系，将iPhone的利润率从30%提升到40%9；他推动了服务业务的转型，让苹果从硬件公司变成了"硬件+服务"的生态公司。2025年，苹果的服务业务收入预计将超过1000亿美元10。库克的成功，不是因为他有乔布斯的"英雄主义"，而是因为他有职业经理人的"系统化管理"。更令人担忧的是，这种治理缺陷并非阿里独有，而是整个中国商业环境的通病。近年来，互联网行业乃至全国各行各业都在鼓吹"管理年轻化"，仿佛年龄是管理能力的唯一标准。这种毫无根据和逻辑的管理方式，本质上是一种肿瘤文化——它用表面的"活力"掩盖了管理专业性的缺失，用"年轻"替代了"职业"和"专业"。西方管理学的成功不是没有道理的：微软的纳德拉52岁接任CEO，苹果的库克50岁接任CEO，他们能够带领企业跨越周期，不是因为他们年轻，而是因为他们专业、职业、系统化。他们拥有的是管理科学，而非年龄优势。创新的避难所：万物终局是放贷？当短期策略占据主导，缺乏长期战略定力时，资本的流向必然遵循阻力最小原则。这便解释了为什么中国互联网巨头的商业终局，最终都会坍缩为同一个形态：金融化。我梳理了一下中国互联网巨头的金融化路径：阿里有蚂蚁金服，腾讯有微众银行，京东有京东金融，美团有美团小贷，字节有中融小贷，甚至连华为这种技术标杆都配置了小额贷业务。无论这些公司的核心业务是什么，它们的终局都指向同一个方向：放贷。数据更加触目惊心：2025年，蚂蚁集团的经调整净利润预计约280亿人民币，其中信贷相关业务利润占比约45%11。相比之下，阿里核心电商业务虽营收规模超万亿元，但毛利率28%-30%的同时，营收年复合增速降至5%以下，处于增长乏力状态3。当技术投入发现不如"利差"来得稳健时，创新的锐气便被金融化的温床所消磨。对比特斯拉和苹果，差异更加明显。特斯拉没有因为"利润来得慢"就转向金融化，而是持续投入电池技术、自动驾驶、机器人等硬科技领域。2025年，特斯拉的研发投入预计超过100亿美元，占营收的约10%12。苹果也没有因为"利差来得快"就大规模放贷，而是持续投入芯片设计、操作系统、生态建设。2025年，苹果的研发投入预计超过300亿美元，占营收的约7.9%13。这两家公司的共同点是：它们都选择了"难而正确"的道路，而不是"容易但有毒"的金融化路径。当一项业务的终局只能通往放贷，那么这项业务在科学管理逻辑下便是低效的，甚至是带有毒性的。归途：从人治英雄到科学制度作为投资人和企业管理者，对阿里的期待，不应是2026年拿回了多少外卖市场份额，而是其能否完成从"英雄主义"向"科学管理"的制度迁徙。决策的勇气不在于"进入"，而在于"退出"。看看IBM的转型，就能明白"退出"的勇气。2018年，IBM以340亿美元收购了红帽14，但更重要的是，IBM同时退出了低利润率的硬件业务，将资源转向高利润率的云服务和AI解决方案。结果呢？IBM的营业利润率从2018年的12%提升至2025年的18%15。IBM的成功转型，证明了"退出"比"进入"更需要战略勇气。对比阿里的"什么都做"，IBM的"有所不为"显得更加珍贵。阿里在外卖、闪购、AI医疗、云计算、金融等多个领域布局，但除云计算外，其余业务市场份额均未进入行业第一梯队（外卖25%、闪购约10%、AI医疗约8%）416，业务深耕度不足。回到最初的问题：阿里有战略吗？答案取决于它能否完成从"英雄主义"向"科学管理"的制度迁徙。如果阿里能够建立科学的治理结构、高效的资本配置机制、长期战略定力，那么它就有战略。如果它继续依赖"马云情结"、继续在战术层面疲于奔命、继续把"年轻化"当作管理科学的替代品，那么它就没有战略，只有应激反应。真正的战略，不是写在PPT上的宏大愿景，而是体现在每一次资本配置、每一个管理决策、每一场"退出"的勇气中。阿里需要的，不是更多的战场，而是更清晰的战略。不是更多的情怀，而是更科学的制度。至少这一次，还没那么"战略"。参考文献基于本地生活外卖行业补贴率通用规律（交易规模的3%-5%）及饿了么2024年交易规模推算，数据来源：艾瑞咨询《2024年中国本地生活服务行业研究报告》 ↩︎ 即时零售（闪购）行业头部平台毛利率区间5%-8%，数据来源：京东到家、美团闪购2024年财报披露 ↩︎ 阿里巴巴集团2024财年年报（FY2024 Annual Report），核心电商业务毛利率及营收增速数据 ↩︎ ↩︎ 艾瑞咨询《2024年中国在线外卖行业研究报告》，饿了么市场份额约20%-22% ↩︎ ↩︎ Amazon.com, Inc. 2020-2024 Annual Reports，AWS营业利润占比长期稳定在60%-75%区间 ↩︎ 美团2024年年度报告，外卖及即时零售业务市场份额数据 ↩︎ 拼多多2024年年度报告及易观分析《2024年中国电商行业发展报告》 ↩︎ Microsoft Corporation历史市值数据，来源：Yahoo Finance、Bloomberg Terminal ↩︎ Apple Inc. 2011-2024 Annual Reports，iPhone产品线毛利率变化趋势 ↩︎ Apple Inc. 2023-2024 Annual Reports，服务业务收入2023年约750亿美元、2024年约850亿美元，按10%-12%年复合增速推算 ↩︎ 蚂蚁集团2024年经调整净利润约200-250亿人民币，按金融科技行业15%-20%年复合增速推算；信贷业务占比基于2020年后监管政策调整趋势，数据来源：蚂蚁集团招股说明书及行业分析 ↩︎ Tesla, Inc. 2024 Annual Report，研发投入约90亿美元，占营收约9.5% ↩︎ Apple Inc. 2024 Annual Report，研发投入约290亿美元，占营收约7.6%，2025年按增速趋势推算 ↩︎ ...

【论文解读06】理解LSTM网络：解决长期依赖问题

本文解读的是Sepp Hochreiter和Jürgen Schmidhuber于1997年发表的经典论文《Long Short-Term Memory》，该论文提出了长短期记忆（LSTM）网络架构，通过门控机制和细胞状态彻底解决了循环神经网络（RNN）的梯度消失问题，使网络能够学习长期依赖关系。LSTM不仅成为序列建模领域的重要里程碑，更为后续的GRU、Transformer等架构奠定了理论基础，在机器翻译、语音识别、时间序列预测等任务中取得了突破性成果。 “记忆是智能的基础。"——这是Hochreiter和Schmidhuber在1997年提出的深刻洞察。传统RNN虽然理论上可以处理任意长度的序列，但在实际训练中面临严重的梯度消失问题：当序列长度超过几十个时间步时，梯度在反向传播过程中会指数级衰减，导致网络无法学习长期依赖关系。 LSTM通过门控机制和细胞状态解决了这一根本问题。细胞状态像一个"传送带”，信息可以在上面直接流动，不受梯度消失的影响；门控机制（遗忘门、输入门、输出门）控制信息的流动，使网络能够有选择地保存和遗忘信息。这种设计使得LSTM能够学习跨越数百甚至数千个时间步的依赖关系。在当今大语言模型时代，LSTM的思想以新的形式延续：Transformer的自注意力机制可以看作是对LSTM门控机制的改进，GPT等模型虽然不再使用LSTM，但其序列建模的核心思想仍然源于LSTM。理解LSTM，就是理解序列建模的本质，理解神经网络如何"记忆"和"遗忘"。本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读LSTM网络，包含完整的数学推导、算法流程和复杂度分析，并在文末提出开放性问题与未来研究方向。本文属于论文阅读开篇：Ilya 30u30 阅读计划系列，可前往该页查看完整目录、阅读顺序与发布状态。 RNN长期依赖问题的根源问题一：梯度消失的数学本质传统RNN在每个时间步的计算为： $$ h_t = \tanh(W_h h_{t-1} + W_x x_t + b) $$ 其中 $h_t$ 是隐藏状态，$W_h$、$W_x$ 是权重矩阵，$b$ 是偏置向量。在反向传播过程中，需要计算损失函数 $L$ 对早期时间步 $h_k$ 的梯度： $$ \frac{\partial L}{\partial h_k} = \frac{\partial L}{\partial h_t} \cdot \frac{\partial h_t}{\partial h_k} = \frac{\partial L}{\partial h_t} \cdot \prod_{j=k+1}^{t} \frac{\partial h_j}{\partial h_{j-1}} $$ ...

Longevity Analysis: AI vs. Longevity

INTERNAL USE ONLY | Venture Capital Due Diligence Report To: Investment Committee (IC) From: Senior Industry Analyst, Pre-Investment Division Date: January 27, 2026 Subject: Sector Analysis & Strategic Outlook: Longevity & Geroscience (2026) Classification: Confidential 1. Executive Summary & Investment Thesis 1.1 Market Overview The longevity sector has matured from speculative biology into a rigorous clinical engineering discipline. As of Q1 2026: Metric Value Source Longevity Biotech Market Size $31.6B (2026) [1] Projected Market Size (2031) $46.8B [1] Implied CAGR ~8.2% Calculated 1.2 Core Investment Thesis “Clinical Inflection Point” — The 2024–2025 cycle de-risked systemic interventions (TPE, Rapamycin) while filtering out underperforming monotherapies. 2026 “alpha” resides in combinatorial therapies and epigenetic reprogramming for specific indications like sarcopenia and optic neuropathies. ...