Zhang's Blog

AI 幻觉与「洗车悖论」：今天的 AI 为什么还当不了你的主治医师

AI 的「聪明」和人类的「聪明」不是同一种东西——弄不清这一点，就会要么高估它，要么低估它。最近有个问题在网络上很火：「我要去小区旁 20 米的洗车店洗车，请问步行还是开车？」不少 AI 会认真建议你：20 米很近，步行环保又锻炼身体。你忍不住笑：不开车去，洗车店洗什么？洗我的腿吗？这类现象有个正式名字叫 AI 幻觉（AI Hallucination）：模型用非常笃定的语气，给出逻辑上站不住脚或与事实不符的回答。幻觉背后的原因，不只是「AI 还笨」或「数据不够」。实质是：今天的 AI 是在用「猜下一个字」的统计方式生成文字，它缺的是对物理世界和因果逻辑的「世界感」。理解这一点，才能说清为什么眼下它既不能当你的主治医师，也替代不了科学家和创意工作者；以及行业正在用哪些办法给这件事「打补丁」。洗车悖论与 9.11 比 9.9 大：幻觉长什么样「20 米洗车该步行还是开车」和另一道流传很广的题是同一类陷阱：「9.11 和 9.9 哪个大？」很多模型会答 9.11 更大——因为它把数字当成了软件版本号或日期（9 月 11 日），而不是在比较两个数的大小。两件事共同暴露的是：AI 会顺着训练数据里高概率出现的「搭配」往下说，而不是先想清楚这道题在问什么、需要什么前提。在医学、法律、安全建议等场景里，这种「顺滑地跑偏」会带来真实风险。据学术与媒体报道，已有 AI 因训练数据中的统计偏差，对哮喘患者给出过「不需要特殊照顾」之类的建议；也有系统因为曾在某篇小说里读到某种蘑菇的描写，就敢回答「可以食用」。这些都不是个例，而是同一类问题的不同表现：模型在「像什么」的联想上很强，在「是什么」「该不该」的逻辑与事实上却不可靠。所以讨论幻觉，本质上是在讨论 AI 的能力边界——它擅长什么、不擅长什么，以及在哪些场景下必须由人做最后把关。2024 年能答对「9.11 与 9.9 哪个大」的模型还很少，到 2026 年这类题已常见于各大厂的基础评测；幻觉会随技术迭代减轻，但边界仍在。它在「猜字」而不是推演，所以会掉进统计陷阱要理解幻觉从哪来，得先搞清楚当前这类 AI 到底在干什么。可以把大语言模型想成一台「超级猜字机」：你输入一句话，它根据读过的海量文本，算出「下一个最可能出现的字（或词元）」是什么，然后一个接一个往下猜，拼成整段回答。它没有在内部先推演「洗车需要车」「所以必须开车去」——只是在无数网页、书籍、对话里，「20 米」和「步行」「短途」「环保」经常一起出现，所以概率一加权，它就顺着这条「统计捷径」滑过去了，忽略了「目的」是洗车、洗车必须有车这个常识。「9.11 比 9.9 大」也是同一套逻辑的产物。在模型眼里，数字往往被拆成「词元」（Token）来处理，比如 9.11 可能被拆成「9」「.」「11」。在技术文档、版本说明里，「11」出现在「9」之后太常见了，所以它会答「9.11 更大」——模式识别压过了数学逻辑。一句话总结：AI 擅长的是「像什么」的联想，而不是「是什么」的严格推理。这种差别，就是幻觉和逻辑失效的根源；不是它不想答对，而是它当前的运作方式本来就不是「先理解再作答」。缺的不是知识量，而是「世界感」人听到「去洗车」，脑子里会自动冒出画面：洗车店、水枪、泡沫、自己的车。这种对物理世界和日常流程的直觉，是我们在真实世界里摸爬滚打出来的。AI 没有身体，没摸过车，也没见过洗车房的水雾；它的「知识」全部来自文字。如果训练数据里没有反复、多角度地强调「洗车必须带车」，它就容易把这道题当成单纯的「距离题」：20 米 → 步行，完事。有一句话概括得很准：今天的 AI 像一位背熟了百科全书却从没出过门的读书人——语义联想很强，常识推理却常常跟不上。就像没去过海边的人，再会形容也缺「那一口咸风」；AI 和世界的关系，跟我们不一样。所以问题不只是「少学了哪条知识」，而是它缺乏在真实世界中行动、观察、试错后沉淀下来的那种「世界模型」。这不是笨不笨的问题，而是它认识世界的方式和人类根本不同；补上这一点，是当前研究里最难、也最被重视的方向之一。 ...

【论文解读11】深度残差网络中的恒等映射：ResNet改进

本文解读的是Kaiming He、Xiangyu Zhang、Shaoqing Ren和Jian Sun于2016年发表的改进论文《Identity Mappings in Deep Residual Networks》，该论文深入分析了ResNet中恒等映射的作用机制，提出了预激活（Pre-activation）的残差块设计，进一步优化了ResNet的训练稳定性和性能。这一改进不仅完善了ResNet的理论基础，更为理解残差连接的本质提供了深刻的洞察。 “恒等映射是残差网络成功的关键。"——这是He等人在ResNet改进论文中提出的核心观点。在原始ResNet中，残差块的设计虽然有效，但恒等映射的实现方式（激活函数的位置）对性能有重要影响。通过系统性的实验和理论分析，论文发现预激活（在卷积之前应用BatchNorm和ReLU）比后激活（在卷积之后应用）效果更好。论文的核心创新是预激活残差块：将BatchNorm和ReLU移到卷积之前，使恒等映射的路径更加"干净”，梯度流动更加顺畅。这种设计不仅提高了训练稳定性，还进一步提升了模型性能，在ImageNet上取得了更好的结果。在当今大模型时代，这一改进的思想仍然重要：理解恒等映射的本质，优化信息流动路径，这些原则仍然是深度网络设计的核心。理解ResNet改进，就是理解如何进一步优化残差连接。本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读ResNet改进，包含完整的数学推导、梯度流动分析和实验评估，并在文末提出开放性问题与未来研究方向。本文属于论文阅读开篇：Ilya 30u30 阅读计划系列，可前往该页查看完整目录、阅读顺序与发布状态。原始ResNet的恒等映射问题问题一：激活函数位置的影响在原始ResNet中，残差块的设计为： $$ y = \mathcal{F}(x, {W_i}) + x $$ 其中 $\mathcal{F}$ 通常包含：Conv → BN → ReLU → Conv → BN，然后输出与 $x$ 相加，最后再应用ReLU。后激活设计：激活函数在残差函数之后，恒等映射 $x$ 直接参与加法，然后应用激活函数。问题分析：当 $x$ 经过ReLU激活时，如果 $x$ 的某些元素为负，会被置为0，破坏了恒等映射的性质。这导致恒等映射路径不够"干净"，梯度流动可能受阻。问题二：梯度流动的阻塞在原始设计中，梯度需要通过激活函数的导数传播： $$ \frac{\partial y}{\partial x} = \frac{\partial \text{ReLU}(\mathcal{F}(x) + x)}{\partial x} = \text{ReLU}’(\mathcal{F}(x) + x) \left(1 + \frac{\partial \mathcal{F}}{\partial x}\right) $$ ...

从巴菲特的并购与数字观，看CEO该盯住什么

「大都会公司的运营利润率为 29%，ABC 公司是 11%。如果墨菲能将 ABC 公司的运营利润率提高 1/3 到 15%，那么公司每年将多增收益 1.25 亿美元，合并后的新公司盈利将是 3.25 亿美元。」出处说明：这句话并非巴菲特在致股东信或股东大会上的原话，而是罗伯特·G·哈格斯特朗（Robert G. Hagstrom）在《巴菲特之道》（The Warren Buffett Way，第一版 1994 年）一书中，对巴菲特 1985 年参与大都会通信公司（Capital Cities）收购美国广播公司（ABC）一案的并购逻辑所做的量化转述。1985 年 3 月该交易完成，巴菲特出资约 5.175 亿美元成为合并后新公司重要股东，其信心核心来自大都会 CEO 汤姆·墨菲的管理能力；巴菲特在 1986 年致股东信中明确将这笔投资概括为「购买优秀管理层管理的优秀业务」。哈格斯特朗用上述数字提炼的，正是「管理改善能显著提升低利润率业务的盈利能力」这一逻辑，与巴菲特公开表达的投资哲学一致。这句话用极简数字把「运营利润率对比 → 效率改善空间 → 利润增量 → 合并价值」这条链讲完。并购的核心价值，往往不是买下现有盈利，而是买下「低效资产被好管理修复后的利润增量」。本文从这一量化表述出发，做一层财务拆解、一层指标辨析、一层并购逻辑，最后落到CEO 和决策者真正该盯住的指标与前提。不谈轶事、不攀交情，只谈可复现的因果与数字。一、先把数字拆开：那一句里藏着的营收基数该案例的量化表述只给了四件事：ABC 原利润率 11%、提高 1/3 后约 15%、每年多赚 1.25 亿美元、合并后总利润 3.25 亿。没有直接给出 ABC 的营收。但营收恰恰是「为什么动一点利润率就能多出这么多利润」的关键。设 ABC 的运营营收为 $R$（提效阶段先假设不扩营收，只做管理优化）：利润率绝对提升：$15\\% - 11\\% = 4$ 个百分点利润增量 = 营收 × 利润率提升，即 $$ \Delta \text{Profit} = R \times 4\\% $$ 代入 $\Delta \text{Profit} = 1.25$ 亿（美元）： $$ R = \frac{1.25}{0.04} = 31.25 \text{ 亿美元} $$ 也就是说，ABC 是一家营收约 31 亿、但运营利润率只有 11% 的公司。小幅度利润率提升 × 大营收基数 = 大额绝对利润增量。这是并购价值的一个数学来源：同样的 4 个百分点，若 (R) 只有 3 亿，增量只有 0.12 亿；若 (R) 是 31 亿，增量才是 1.25 亿。CEO 和投资者若只盯「利润率提高了多少」，而忽略「利润是在多大的营收基数上算出来的」，就会低估或高估一次提效或一次并购的真实影响。 ...

【论文解读10】深度残差学习：ResNet解决网络退化问题

本文解读的是Kaiming He、Xiangyu Zhang、Shaoqing Ren和Jian Sun于2016年发表的里程碑论文《Deep Residual Learning for Image Recognition》，该论文提出的ResNet通过残差连接（Residual Connection）解决了深度网络的退化问题，将网络深度推到了前所未有的152层，在ImageNet上取得了3.57%的Top-5错误率，首次超越人类水平。ResNet不仅彻底改变了深度网络的设计范式，更为后续Transformer、生成模型等架构的残差连接奠定了理论基础。 “更深的网络应该至少不会比浅层网络更差。"——这是ResNet论文的核心洞察。在ResNet之前，深度网络面临一个悖论：理论上更深的网络应该能够学习更复杂的特征，但实际中更深的网络在训练集上的错误率反而更高。这不是过拟合，而是优化困难——网络无法有效学习恒等映射。 ResNet通过残差连接解决了这一根本问题。残差块定义为 $y = F(x) + x$，其中 $F(x)$ 是残差函数，$x$ 是恒等映射。如果最优映射是恒等映射 $H(x) = x$，传统网络需要学习 $H(x) = x$，而残差网络只需学习 $F(x) = 0$，后者显然更容易。这种设计使得网络可以非常深，性能可以持续提升。在当今大模型时代，残差连接已经成为深度网络的标准组件：Transformer的残差连接、生成模型的跳跃连接（U-Net、StyleGAN）、大模型的深度扩展（GPT-3、PaLM等模型都依赖残差连接训练深层网络）。理解ResNet，就是理解深度网络设计的核心思想。本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读ResNet，包含完整的数学推导、梯度流动分析和实验评估，并在文末提出开放性问题与未来研究方向。深度网络的退化问题问题一：网络深度与性能的悖论理论上，更深的网络应该能够学习更复杂的特征表示，性能应该更好。但实际中，随着网络加深，出现了两个严重问题：梯度消失问题：在深层网络中，梯度在反向传播过程中指数级衰减。对于Sigmoid激活函数，$\sigma’(x) \leq 0.25$，经过 $L$ 层后，梯度最多衰减到 $0.25^L$。当 $L$ 很大时，早期层的梯度接近0，无法有效更新参数。退化问题（Degradation Problem）：这是ResNet论文发现的新问题。实验显示，56层网络的训练误差比20层网络更高。这不是过拟合（因为训练误差也更高），而是优化困难——网络无法有效学习。数学分析：假设最优映射是 $H(x) = x$（恒等映射），传统网络需要学习 $H(x) = x$，这需要所有层的权重矩阵都是单位矩阵，这在深层网络中很难实现。问题二：恒等映射的学习困难恒等映射 $H(x) = x$ 是最简单的映射，但在深层网络中学习恒等映射却非常困难。 ...

货币、黄金、比特币、人口与政权的底层逻辑

在金本位时代，稀缺的是黄金，锁死的是人类；在信用货币时代，稀缺的是人——合格、有未来、讲信用的借款人。政权可以驯化黄金、招安比特币，但无法驯化「谁才是真正的资产」这条逻辑。本文是我最近刷到脑总的博客学习的, 真的信息量极大的一项思考盛宴. 我用记录的形式做自己的思考和汇总, 并且我也深思下我们作为普通人应该如何面对未来。本文主要线索是把货币 / 黄金 / 比特币 / 人口 / 政权五者的关系做一次系统梳理和深度解析，并在最后回答：普通人该怎么办——内卷与学校为何是「不得不做的入场券」，以及如何在系统之内突破个人天花板。同时本文也是我思考的汇总，我深思下我们作为普通人应该如何面对未来。一、认知错位：为什么多数人用「大清逻辑」读现代金融一个魔幻却常见的现象：今天的老中在理工科上已经很强——硅谷 AI 独角兽核心团队、国际奥赛领奖台，大量是华人——但在社会科学的认知，尤其是金融与货币上，很多人依然停留在「大清语境」里。最典型的例子是宋鸿兵《货币战争》这类书：罗斯柴尔德家族控制世界、美联储是私人阴谋……地摊文学式的叙事，在国内卖了几百万册；《红色赌盘》里甚至提到，连王*山都非常推崇并推荐给省部级官员。王是社科院学者出身、长期担任金融口领导——这不是个人品味问题，而是整个精英阶层深层的防御性焦虑：在中国两千年历史语境里，从来没有独立的央行、也没有基于契约的现代金融系统。「知道」和「相信」是两回事——就像很多高知家庭依然用「上火、湿气」解释疾病，在金融领域，大家习惯用《资治通鉴》里的权谋逻辑，去解释《国富论》以后的现代经济运行：习惯找幕后大佬、信密室交易，却不愿承认现代金融的本质是制度与博弈。这种错位，会直接导致：歧视金融、互联网、人文社科为「虚拟经济、不事生产」，只认看得见摸得着的工业产能；在货币问题上，则表现为对实物货币（金本位）的迷信——而这恰恰是理解「货币 / 黄金 / 比特币 / 人口 / 政权」的起点。二、金本位：稀缺的是黄金，锁死的是人类马克思的片面深刻性与金本位的死穴马克思的理论有一定科学成分，否则不会俘获那么多高知。他用大白话推理「生产过剩」：假设一定时期内，工人创造的总商品价值是 10,000，总工资是 8,000，剩余价值 2,000 被资本家拿走；工人把 8,000 全用来消费，资本家再挥霍也只能花掉 1,000，那么社会总需求 9,000，总供给 10,000——生产过剩、消费不足。资本家可以把剩下 1,000 再投入生产（买设备也是商品），但这只是把过剩问题推迟，最终会让过剩更严重。马克思敏锐地抓住了「卖不出去」这个现象，但他的理论死穴在于：他是在金本位的框架下思考的。在金本位时代，社会总财富在某种意义上被等同为社会总黄金。工业革命带来的是生产力的指数级爆发——以英国为例，1770–1850 年纺织业效率提高超过 200 倍、钢铁产量从每年 4 万吨到 225 万吨、铁路从无到全球数万公里——商品像雪崩一样被生产出来，但地球上的黄金开采速度是线性的。数学上的必然就是：商品增长率远大于黄金增长率，用有限的黄金去流通无限增长的商品，结局必然是价格崩塌、严重通缩。所以那个时代会不断爆发经济危机：生产过剩 → 价格暴跌 → 企业倒闭 → 工人失业，恶性循环。马克思据此预言资本主义必然灭亡；之所以没有发生，是因为不断有新金矿发现（加州、澳大利亚的「旧金山、新金山」）以及每次危机淘汰一部分低效产能，把问题一再推迟。 19 世纪的资本家 = 21 世纪的币圈 OG 用今天币圈的现象做类比，可以精准理解当时资本家的行为。在金本位下，企业家赚到利润后只要换成黄金囤起来，他占有的全球黄金比例就只增不减——全球黄金总量假设 10 万吨，他拥有 100 吨即 0.1%，只要不卖，就永远占全球总财富的 0.1%。黄金是超新星爆发的产物，不是地球能量层级能「生产」出来的；商品产出在疯狂增长，黄金购买力不断上升，囤金者的实际财富在被动增值。这像极了现在币圈早期元老：场外赚钱（挖矿或实业），全部换成比特币囤在冷钱包里打死不卖；比特币总量恒定 2100 万枚，还有人忘私钥导致有效总量越来越少——只要你囤住不卖，随着法币滥发和生产力提升，很难有任何实业投资能跑赢这种简单囤积策略。 ...