AI 幻觉与「洗车悖论」:今天的 AI 为什么还当不了你的主治医师

AI 的「聪明」和人类的「聪明」不是同一种东西——弄不清这一点,就会要么高估它,要么低估它。 最近有个问题在网络上很火:「我要去小区旁 20 米的洗车店洗车,请问步行还是开车?」不少 AI 会认真建议你:20 米很近,步行环保又锻炼身体。你忍不住笑:不开车去,洗车店洗什么?洗我的腿吗?这类现象有个正式名字叫 AI 幻觉(AI Hallucination):模型用非常笃定的语气,给出逻辑上站不住脚或与事实不符的回答。 幻觉背后的原因,不只是「AI 还笨」或「数据不够」。实质是:今天的 AI 是在用「猜下一个字」的统计方式生成文字,它缺的是对物理世界和因果逻辑的「世界感」。理解这一点,才能说清为什么眼下它既不能当你的主治医师,也替代不了科学家和创意工作者;以及行业正在用哪些办法给这件事「打补丁」。 洗车悖论与 9.11 比 9.9 大:幻觉长什么样 「20 米洗车该步行还是开车」和另一道流传很广的题是同一类陷阱:「9.11 和 9.9 哪个大?」很多模型会答 9.11 更大——因为它把数字当成了软件版本号或日期(9 月 11 日),而不是在比较两个数的大小。两件事共同暴露的是:AI 会顺着训练数据里高概率出现的「搭配」往下说,而不是先想清楚这道题在问什么、需要什么前提。 在医学、法律、安全建议等场景里,这种「顺滑地跑偏」会带来真实风险。据学术与媒体报道,已有 AI 因训练数据中的统计偏差,对哮喘患者给出过「不需要特殊照顾」之类的建议;也有系统因为曾在某篇小说里读到某种蘑菇的描写,就敢回答「可以食用」。这些都不是个例,而是同一类问题的不同表现:模型在「像什么」的联想上很强,在「是什么」「该不该」的逻辑与事实上却不可靠。所以讨论幻觉,本质上是在讨论 AI 的能力边界——它擅长什么、不擅长什么,以及在哪些场景下必须由人做最后把关。2024 年能答对「9.11 与 9.9 哪个大」的模型还很少,到 2026 年这类题已常见于各大厂的基础评测;幻觉会随技术迭代减轻,但边界仍在。 它在「猜字」而不是推演,所以会掉进统计陷阱 要理解幻觉从哪来,得先搞清楚当前这类 AI 到底在干什么。 可以把大语言模型想成一台 「超级猜字机」:你输入一句话,它根据读过的海量文本,算出「下一个最可能出现的字(或词元)」是什么,然后一个接一个往下猜,拼成整段回答。它没有在内部先推演「洗车需要车」「所以必须开车去」——只是在无数网页、书籍、对话里,「20 米」和「步行」「短途」「环保」经常一起出现,所以概率一加权,它就顺着这条「统计捷径」滑过去了,忽略了「目的」是洗车、洗车必须有车这个常识。 「9.11 比 9.9 大」也是同一套逻辑的产物。在模型眼里,数字往往被拆成「词元」(Token)来处理,比如 9.11 可能被拆成「9」「.」「11」。在技术文档、版本说明里,「11」出现在「9」之后太常见了,所以它会答「9.11 更大」——模式识别压过了数学逻辑。一句话总结:AI 擅长的是「像什么」的联想,而不是「是什么」的严格推理。 这种差别,就是幻觉和逻辑失效的根源;不是它不想答对,而是它当前的运作方式本来就不是「先理解再作答」。 缺的不是知识量,而是「世界感」 人听到「去洗车」,脑子里会自动冒出画面:洗车店、水枪、泡沫、自己的车。这种对物理世界和日常流程的直觉,是我们在真实世界里摸爬滚打出来的。AI 没有身体,没摸过车,也没见过洗车房的水雾;它的「知识」全部来自文字。如果训练数据里没有反复、多角度地强调「洗车必须带车」,它就容易把这道题当成单纯的「距离题」:20 米 → 步行,完事。 有一句话概括得很准:今天的 AI 像一位背熟了百科全书却从没出过门的读书人——语义联想很强,常识推理却常常跟不上。就像没去过海边的人,再会形容也缺「那一口咸风」;AI 和世界的关系,跟我们不一样。所以问题不只是「少学了哪条知识」,而是它缺乏在真实世界中行动、观察、试错后沉淀下来的那种「世界模型」。这不是笨不笨的问题,而是它认识世界的方式和人类根本不同;补上这一点,是当前研究里最难、也最被重视的方向之一。 ...

ZHANG.z | February 11, 2026 | 15 min | Shanghai

【论文解读11】深度残差网络中的恒等映射:ResNet改进

本文解读的是Kaiming He、Xiangyu Zhang、Shaoqing Ren和Jian Sun于2016年发表的改进论文《Identity Mappings in Deep Residual Networks》,该论文深入分析了ResNet中恒等映射的作用机制,提出了预激活(Pre-activation)的残差块设计,进一步优化了ResNet的训练稳定性和性能。这一改进不仅完善了ResNet的理论基础,更为理解残差连接的本质提供了深刻的洞察。 “恒等映射是残差网络成功的关键。"——这是He等人在ResNet改进论文中提出的核心观点。在原始ResNet中,残差块的设计虽然有效,但恒等映射的实现方式(激活函数的位置)对性能有重要影响。通过系统性的实验和理论分析,论文发现预激活(在卷积之前应用BatchNorm和ReLU)比后激活(在卷积之后应用)效果更好。 论文的核心创新是预激活残差块:将BatchNorm和ReLU移到卷积之前,使恒等映射的路径更加"干净”,梯度流动更加顺畅。这种设计不仅提高了训练稳定性,还进一步提升了模型性能,在ImageNet上取得了更好的结果。 在当今大模型时代,这一改进的思想仍然重要:理解恒等映射的本质,优化信息流动路径,这些原则仍然是深度网络设计的核心。理解ResNet改进,就是理解如何进一步优化残差连接。 本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读ResNet改进,包含完整的数学推导、梯度流动分析和实验评估,并在文末提出开放性问题与未来研究方向。 本文属于 论文阅读开篇:Ilya 30u30 阅读计划 系列,可前往该页查看完整目录、阅读顺序与发布状态。 原始ResNet的恒等映射问题 问题一:激活函数位置的影响 在原始ResNet中,残差块的设计为: $$ y = \mathcal{F}(x, {W_i}) + x $$ 其中 $\mathcal{F}$ 通常包含:Conv → BN → ReLU → Conv → BN,然后输出与 $x$ 相加,最后再应用ReLU。 后激活设计:激活函数在残差函数之后,恒等映射 $x$ 直接参与加法,然后应用激活函数。 问题分析:当 $x$ 经过ReLU激活时,如果 $x$ 的某些元素为负,会被置为0,破坏了恒等映射的性质。这导致恒等映射路径不够"干净",梯度流动可能受阻。 问题二:梯度流动的阻塞 在原始设计中,梯度需要通过激活函数的导数传播: $$ \frac{\partial y}{\partial x} = \frac{\partial \text{ReLU}(\mathcal{F}(x) + x)}{\partial x} = \text{ReLU}’(\mathcal{F}(x) + x) \left(1 + \frac{\partial \mathcal{F}}{\partial x}\right) $$ ...

ZHANG.z | February 10, 2026 | 16 min | Shanghai

从巴菲特的并购与数字观,看CEO该盯住什么

「大都会公司的运营利润率为 29%,ABC 公司是 11%。如果墨菲能将 ABC 公司的运营利润率提高 1/3 到 15%,那么公司每年将多增收益 1.25 亿美元,合并后的新公司盈利将是 3.25 亿美元。」 出处说明:这句话并非巴菲特在致股东信或股东大会上的原话,而是罗伯特·G·哈格斯特朗(Robert G. Hagstrom)在《巴菲特之道》(The Warren Buffett Way,第一版 1994 年)一书中,对巴菲特 1985 年参与大都会通信公司(Capital Cities)收购美国广播公司(ABC)一案的并购逻辑所做的量化转述。1985 年 3 月该交易完成,巴菲特出资约 5.175 亿美元成为合并后新公司重要股东,其信心核心来自大都会 CEO 汤姆·墨菲的管理能力;巴菲特在 1986 年致股东信中明确将这笔投资概括为「购买优秀管理层管理的优秀业务」。哈格斯特朗用上述数字提炼的,正是「管理改善能显著提升低利润率业务的盈利能力」这一逻辑,与巴菲特公开表达的投资哲学一致。 这句话用极简数字把「运营利润率对比 → 效率改善空间 → 利润增量 → 合并价值」这条链讲完。并购的核心价值,往往不是买下现有盈利,而是买下「低效资产被好管理修复后的利润增量」。本文从这一量化表述出发,做一层财务拆解、一层指标辨析、一层并购逻辑,最后落到CEO 和决策者真正该盯住的指标与前提。不谈轶事、不攀交情,只谈可复现的因果与数字。 一、先把数字拆开:那一句里藏着的营收基数 该案例的量化表述只给了四件事:ABC 原利润率 11%、提高 1/3 后约 15%、每年多赚 1.25 亿美元、合并后总利润 3.25 亿。没有直接给出 ABC 的营收。但营收恰恰是「为什么动一点利润率就能多出这么多利润」的关键。 设 ABC 的运营营收为 $R$(提效阶段先假设不扩营收,只做管理优化): 利润率绝对提升:$15\\% - 11\\% = 4$ 个百分点 利润增量 = 营收 × 利润率提升,即 $$ \Delta \text{Profit} = R \times 4\\% $$ 代入 $\Delta \text{Profit} = 1.25$ 亿(美元): $$ R = \frac{1.25}{0.04} = 31.25 \text{ 亿美元} $$ 也就是说,ABC 是一家营收约 31 亿、但运营利润率只有 11% 的公司。小幅度利润率提升 × 大营收基数 = 大额绝对利润增量。这是并购价值的一个数学来源:同样的 4 个百分点,若 (R) 只有 3 亿,增量只有 0.12 亿;若 (R) 是 31 亿,增量才是 1.25 亿。CEO 和投资者若只盯「利润率提高了多少」,而忽略「利润是在多大的营收基数上算出来的」,就会低估或高估一次提效或一次并购的真实影响。 ...

ZHANG.z | February 9, 2026 | 21 min | Shanghai

【论文解读10】深度残差学习:ResNet解决网络退化问题

本文解读的是Kaiming He、Xiangyu Zhang、Shaoqing Ren和Jian Sun于2016年发表的里程碑论文《Deep Residual Learning for Image Recognition》,该论文提出的ResNet通过残差连接(Residual Connection)解决了深度网络的退化问题,将网络深度推到了前所未有的152层,在ImageNet上取得了3.57%的Top-5错误率,首次超越人类水平。ResNet不仅彻底改变了深度网络的设计范式,更为后续Transformer、生成模型等架构的残差连接奠定了理论基础。 “更深的网络应该至少不会比浅层网络更差。"——这是ResNet论文的核心洞察。在ResNet之前,深度网络面临一个悖论:理论上更深的网络应该能够学习更复杂的特征,但实际中更深的网络在训练集上的错误率反而更高。这不是过拟合,而是优化困难——网络无法有效学习恒等映射。 ResNet通过残差连接解决了这一根本问题。残差块定义为 $y = F(x) + x$,其中 $F(x)$ 是残差函数,$x$ 是恒等映射。如果最优映射是恒等映射 $H(x) = x$,传统网络需要学习 $H(x) = x$,而残差网络只需学习 $F(x) = 0$,后者显然更容易。这种设计使得网络可以非常深,性能可以持续提升。 在当今大模型时代,残差连接已经成为深度网络的标准组件:Transformer的残差连接、生成模型的跳跃连接(U-Net、StyleGAN)、大模型的深度扩展(GPT-3、PaLM等模型都依赖残差连接训练深层网络)。理解ResNet,就是理解深度网络设计的核心思想。 本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读ResNet,包含完整的数学推导、梯度流动分析和实验评估,并在文末提出开放性问题与未来研究方向。 深度网络的退化问题 问题一:网络深度与性能的悖论 理论上,更深的网络应该能够学习更复杂的特征表示,性能应该更好。但实际中,随着网络加深,出现了两个严重问题: 梯度消失问题:在深层网络中,梯度在反向传播过程中指数级衰减。对于Sigmoid激活函数,$\sigma’(x) \leq 0.25$,经过 $L$ 层后,梯度最多衰减到 $0.25^L$。当 $L$ 很大时,早期层的梯度接近0,无法有效更新参数。 退化问题(Degradation Problem):这是ResNet论文发现的新问题。实验显示,56层网络的训练误差比20层网络更高。这不是过拟合(因为训练误差也更高),而是优化困难——网络无法有效学习。 数学分析:假设最优映射是 $H(x) = x$(恒等映射),传统网络需要学习 $H(x) = x$,这需要所有层的权重矩阵都是单位矩阵,这在深层网络中很难实现。 问题二:恒等映射的学习困难 恒等映射 $H(x) = x$ 是最简单的映射,但在深层网络中学习恒等映射却非常困难。 ...

ZHANG.z | February 7, 2026 | 18 min | Shanghai

货币、黄金、比特币、人口与政权的底层逻辑

在金本位时代,稀缺的是黄金,锁死的是人类;在信用货币时代,稀缺的是人——合格、有未来、讲信用的借款人。政权可以驯化黄金、招安比特币,但无法驯化「谁才是真正的资产」这条逻辑。 本文是我最近刷到脑总的博客学习的, 真的信息量极大的一项思考盛宴. 我用记录的形式做自己的思考和汇总, 并且我也深思下我们作为普通人应该如何面对未来。本文主要线索是把货币 / 黄金 / 比特币 / 人口 / 政权五者的关系做一次系统梳理和深度解析,并在最后回答:普通人该怎么办——内卷与学校为何是「不得不做的入场券」,以及如何在系统之内突破个人天花板。同时本文也是我思考的汇总,我深思下我们作为普通人应该如何面对未来。 一、认知错位:为什么多数人用「大清逻辑」读现代金融 一个魔幻却常见的现象:今天的老中在理工科上已经很强——硅谷 AI 独角兽核心团队、国际奥赛领奖台,大量是华人——但在社会科学的认知,尤其是金融与货币上,很多人依然停留在「大清语境」里。 最典型的例子是宋鸿兵《货币战争》这类书:罗斯柴尔德家族控制世界、美联储是私人阴谋……地摊文学式的叙事,在国内卖了几百万册;《红色赌盘》里甚至提到,连王*山都非常推崇并推荐给省部级官员。王是社科院学者出身、长期担任金融口领导——这不是个人品味问题,而是整个精英阶层深层的防御性焦虑:在中国两千年历史语境里,从来没有独立的央行、也没有基于契约的现代金融系统。「知道」和「相信」是两回事——就像很多高知家庭依然用「上火、湿气」解释疾病,在金融领域,大家习惯用《资治通鉴》里的权谋逻辑,去解释《国富论》以后的现代经济运行:习惯找幕后大佬、信密室交易,却不愿承认现代金融的本质是制度与博弈。 这种错位,会直接导致:歧视金融、互联网、人文社科为「虚拟经济、不事生产」,只认看得见摸得着的工业产能;在货币问题上,则表现为对实物货币(金本位)的迷信——而这恰恰是理解「货币 / 黄金 / 比特币 / 人口 / 政权」的起点。 二、金本位:稀缺的是黄金,锁死的是人类 马克思的片面深刻性与金本位的死穴 马克思的理论有一定科学成分,否则不会俘获那么多高知。他用大白话推理「生产过剩」:假设一定时期内,工人创造的总商品价值是 10,000,总工资是 8,000,剩余价值 2,000 被资本家拿走;工人把 8,000 全用来消费,资本家再挥霍也只能花掉 1,000,那么社会总需求 9,000,总供给 10,000——生产过剩、消费不足。资本家可以把剩下 1,000 再投入生产(买设备也是商品),但这只是把过剩问题推迟,最终会让过剩更严重。马克思敏锐地抓住了「卖不出去」这个现象,但他的理论死穴在于:他是在金本位的框架下思考的。 在金本位时代,社会总财富在某种意义上被等同为社会总黄金。工业革命带来的是生产力的指数级爆发——以英国为例,1770–1850 年纺织业效率提高超过 200 倍、钢铁产量从每年 4 万吨到 225 万吨、铁路从无到全球数万公里——商品像雪崩一样被生产出来,但地球上的黄金开采速度是线性的。数学上的必然就是:商品增长率远大于黄金增长率,用有限的黄金去流通无限增长的商品,结局必然是价格崩塌、严重通缩。所以那个时代会不断爆发经济危机:生产过剩 → 价格暴跌 → 企业倒闭 → 工人失业,恶性循环。马克思据此预言资本主义必然灭亡;之所以没有发生,是因为不断有新金矿发现(加州、澳大利亚的「旧金山、新金山」)以及每次危机淘汰一部分低效产能,把问题一再推迟。 19 世纪的资本家 = 21 世纪的币圈 OG 用今天币圈的现象做类比,可以精准理解当时资本家的行为。在金本位下,企业家赚到利润后只要换成黄金囤起来,他占有的全球黄金比例就只增不减——全球黄金总量假设 10 万吨,他拥有 100 吨即 0.1%,只要不卖,就永远占全球总财富的 0.1%。黄金是超新星爆发的产物,不是地球能量层级能「生产」出来的;商品产出在疯狂增长,黄金购买力不断上升,囤金者的实际财富在被动增值。这像极了现在币圈早期元老:场外赚钱(挖矿或实业),全部换成比特币囤在冷钱包里打死不卖;比特币总量恒定 2100 万枚,还有人忘私钥导致有效总量越来越少——只要你囤住不卖,随着法币滥发和生产力提升,很难有任何实业投资能跑赢这种简单囤积策略。 ...

ZHANG.z" | February 4, 2026 | 49 min | Shanghai