H200发布:NVIDIA赢了性能战,但可能输了未来

今天早上收到加州朋友Mike的邮件,附件是NVIDIA H200的内部评测报告。他在NVIDIA做架构师,每次有新品都会偷偷给我发点料。我盯着性能测试图看了半小时,H200比H100提升了35%,但真正让我倒吸凉气的,不是性能数字,而是CUDA生态的数据。 “全球95%以上的AI训练任务都跑在CUDA上,“Mike在微信里说,“我们刚更新了CUDA 12.5,专门优化了H200。那些想用AMD或其他芯片的公司,光是迁移代码就得花半年。“我回他:“所以NVIDIA已经不是芯片公司了,是AI时代的Windows?“他发了个笑脸:“差不多吧。” 但我心里在想:Windows当年也以为自己无敌,结果被移动互联网时代抛弃了。NVIDIA的CUDA生态,会不会也面临同样的命运? 从表面看:性能数字背后的生态霸权 表面上看,这是"H200性能提升35%“的技术突破。但真正让NVIDIA无敌的,不是芯片性能,而是CUDA生态。 芯片性能可以追上——AMD的MI300X在某些场景已经接近H100,中国的昇腾910B在推理场景甚至超过H100。但生态壁垒一旦形成,几乎无法突破。全球95%的AI训练任务都跑在CUDA上,这意味着:即使你的芯片性能更强,开发者也不会用,因为迁移成本太高。 NVIDIA已经从一家芯片公司,变成了AI时代的Windows。Windows当年靠操作系统垄断PC市场,NVIDIA靠CUDA生态垄断AI市场。 关键洞察:这不是芯片战争,是生态战争。性能可以追赶,生态难以复制。 从深层看:中国芯片的差异化突围 想起上周去华为上海研究所拜访的场景。负责昇腾910B的李工带我参观实验室,指着一台堆满芯片的服务器说:“我们不跟NVIDIA在训练芯片正面死磕,昇腾910B专门优化推理场景。在智慧城市视频分析上,我们的性能已经超过了H100。” 不仅华为,寒武纪的思元590芯片正在给智能加油站做边缘计算,实时监控油枪状态、预测库存;地平线的征程6芯片在自动驾驶领域也有不错的表现。中国芯片公司选择了一条差异化的突围路径:不拼通用性能,而是深耕垂直场景,把特定领域的AI芯片做到极致。 去年在深圳参加AI峰会,看到一家创业公司用昇腾芯片做工业机器人实时控制,延迟比NVIDIA的方案低40%。美国的技术封锁反而成了中国芯片产业的催化剂——以前大家都觉得买NVIDIA的芯片就行,现在不得不自己搞研发。 翻出三年前的笔记,当时我判断"中国芯片10年内赶不上美国”。现在看来,我错了——不是赶不上,而是走了一条完全不同的路。NVIDIA在通用计算领域狂飙,中国芯片则在垂直场景深耕。 关键洞察:芯片战争的终局,不是谁的性能更强,而是谁能更好地服务用户。NVIDIA赢了通用性能,中国芯片可能赢了垂直场景。 从未来看:生态与场景的终极博弈 晚上刷朋友圈,看到Mike发了张NVIDIA总部的照片,配文:“H200发布,我们赢了。“我给他点了个赞,心里却在想:这场芯片战争,才刚刚开始。 NVIDIA赢了性能战,但可能输了未来。因为未来的AI应用,不是"一个模型跑遍所有场景”,而是"每个场景都有专属芯片”。当自动驾驶、智慧城市、工业机器人这些垂直场景成为主流时,NVIDIA的通用芯片优势还能保持多久? 2025年,我判断会看到更多融合:NVIDIA会加强垂直场景优化(比如推出专门的自动驾驶芯片),中国芯片会加强生态建设(比如推出自己的开发框架)。 芯片战争的终局,不是谁的性能更强,而是谁能更好地服务用户。NVIDIA赢了性能战,中国芯片却可能赢了未来的场景战。 2025年,我期待看到NVIDIA的场景化,也期待看到中国芯片的生态化。

ZHANG.z" | February 20, 2025 | 6 min | Shanghai

AI医疗:99%的准确率在实验室,95%的准确率在村寨

上周从杭州飞回上海,行李箱里装着阿里健康的AI乡村医生项目资料。前一天刚在北京参加完中美AI医疗研讨会,脑子里还在回放斯坦福教授和阿里工程师的发言。 晚上在酒店,Dr. Wang给我看他们团队最新的GPT-5驱动CT诊断系统:17种肺部疾病实时标注,连早期肺癌的微小结节都能揪出来,准确率超过99%,刚在Nature Medicine发了论文。“这技术太牛了!什么时候能临床应用?“我问他。他叹了口气:“至少等3年,FDA的审批流程你懂的。” 第二天,阿里健康的张工给我看了一组数据:他们的"AI乡村医生"已经覆盖了全国1.2万个偏远村落,累计看了超过1000万次门诊。“上个月我们在云南一个苗族村寨做调研,一个70多岁的老奶奶拉着我的手说,活了一辈子第一次能在家门口看专家,“张工的语气里带着自豪,“虽然我们的AI准确率只有95%左右,但解决了最基本的看病问题。” 我突然想起去年冬天陪外婆去县城医院看病的场景——凌晨三点就去排队挂号,上午十点才看上医生,结果还没说两句话就被打发走了。如果当时有AI乡村医生,外婆是不是就不用遭这份罪了? 从数字看:准确率的数字游戏 表面上看,这是"99% vs 95%“的准确率差距。斯坦福的CT诊断系统能识别17种肺部疾病,连微小结节都不放过;阿里的AI乡村医生只能做基础诊断,准确率还低了4个百分点。 但数字背后是完全不同的逻辑:一个在实验室里追求极致,一个在村寨里解决刚需。美国科学家说"我们需要更高的准确率”,中国工程师则说"我们需要更快的覆盖速度”。 关键洞察:这不是技术差距,是应用场景的错位。一个瞄准"未来5年的医疗突破”,一个瞄准"今天就能用的医疗服务”。 往深里想:医疗资源的时空错配 AI医疗的本质不是技术竞赛,而是资源分配。 斯坦福的技术代表了AI医疗的未来,准确率99%的CT诊断系统能拯救更多生命。但它的代价是:至少3年的审批周期,高昂的研发成本,只有顶级医院才能用得起。这是典型的"技术驱动"路径:先突破技术,再找应用。 阿里的AI乡村医生代表了AI医疗的现在,它已经在服务千万级的患者,解决了最迫切的医疗资源不均衡问题。虽然准确率只有95%,但它让偏远地区的老人不用凌晨三点去县城排队,让农村孩子也能看"专家门诊”。这是典型的"需求驱动"路径:先解决实际问题,再优化技术。 去年冬天陪外婆看病,我深刻体会到医疗资源不均衡的痛苦。如果当时有AI乡村医生,外婆是不是就不用遭这份罪了?这个问题,比"准确率能否再提升1%“更重要。 关键洞察:医疗资源的时空错配,比技术准确率更重要。一个在实验室里等待审批,一个在村寨里服务患者。 看未来:从实验室到田间地头的融合 今天刷朋友圈,看到Dr. Wang发了条动态:“刚和一家中国医疗科技公司签了合作协议,他们帮我们加速临床试验,我们提供技术支持。” 这个信号很明确:美国的技术突破和中国的落地速度,正在走向融合。斯坦福的99%准确率+中国的快速落地,或许能创造出真正普惠的AI医疗。 2025年的AI医疗,会是一场从"实验室到田间地头"的革命。不是技术替代技术,而是技术+场景的深度融合。 AI医疗的终极目标,从来不是发表Nature论文,而是让每个人都能享受到更好的医疗服务。99%的准确率在实验室,95%的准确率在村寨——但村寨里的95%,可能比实验室里的99%更有价值。 2025年,我期待看到斯坦福的技术走进村寨,也期待看到阿里的经验走向世界。

ZHANG.z" | January 15, 2025 | 6 min | Shanghai

OpenAI的12天发布会:生成式AI的终极形态,还是营销噱头?

OpenAI的12天发布会终于结束了,我全程追完了所有直播。当演示者用自然语言和视频交互时,我突然有种穿越到未来的感觉——这可能就是生成式AI的终极形态了。 表层:AI视频的技术突破 Sora的视频生成能力又提升了,现在能生成5分钟高清视频,连人物微表情都能模拟。视频交互模式也落地了,直接对视频内容提问,AI会实时回答。上周跟做内容创作的朋友聊天,他说:“以前拍短视频要2000块,现在用AI只要200块,效果还不差。“已经不用请摄影师了。 深层:中美视频AI的竞争格局 中美在生成式视频领域的竞争很激烈:谷歌发布了Veo 2大模型,腾讯也开源了视频大模型。美国在技术前沿领先,中国在落地应用更快——抖音已经在测试AI生成视频功能了。但冷静下来想,深度伪造的风险也不容忽视:生成的人物和真实几乎一模一样,要是用来制作虚假视频,后果不堪设想。 终局:GPT-o3的营销噱头? 最让我感慨的是OpenAI预测的GPT-o3,2025年发布,据说能实现真正的多模态交互,甚至理解人类情感。但这会不会是又一个营销噱头?毕竟,GPT-4o刚发布时,也有很多承诺没兑现。 生成式AI的终极形态到底是什么?是理解和创造任何内容的超级智能,还是人类想象力的延伸? 2025年的GPT-o3会给我们答案。但无论如何,OpenAI的12天发布会已经展示了AI的未来——更加智能、自然的人机交互时代。我已经迫不及待想看到那一天了。

ZHANG.z" | December 28, 2024 | 2 min | Shanghai

比特币白皮书读书笔记

摘要 一种完全的点对点电子货币应当允许在线支付从一方直接发送到另一方,而不需要通过一个金融机构。数字签名提供了部分解决方案,但如果仍需一个可信任的第三方来防止双重支付,那就失去了电子货币的主要优点。我们提出一种使用点对点网络解决双重支付问题的方案。该网络通过将交易哈希进一条持续增长的基于哈希的工作量证明链来给交易打上时间戳,形成一条除非重做工作量证明否则不能更改的记录。最长的链不仅是被见证事件序列的证据,而且也是它本身是由最大CPU算力池产生的证据。只要多数的CPU算力被不打算联合攻击网络的节点控制,这些节点就将生成最长的链并超过攻击者。这种网络本身只需极简的架构。信息将被尽力广播,节点可以随时离开和重新加入网络,只需接受最长的工作量证明链作为它们离开时发生事件的证据。 批注(是什么/为什么/如何) 是什么:核心是提出无第三方介入的点对点电子货币方案——以哈希加密、工作量证明(PoW)构建不可篡改的交易时间戳链,以“最长链”作为交易有效性核心依据,实现去信任的价值转移。 为什么: 传统电子支付依赖金融机构(信任第三方),存在交易不可撤销、仲裁成本高、小额交易不划算等固有缺陷; 单纯数字签名仅能验证所有权,无法解决“双重支付”(同一笔货币重复使用)痛点,保留第三方则丧失电子货币去中心化核心优势; 需构建“去信任”机制,让交易有效性依赖全网算力共识,而非单一机构。 如何: 交易通过哈希算法融入区块链,每个区块包含前一区块哈希,形成时间戳链条; 工作量证明要求区块哈希满足特定条件(如以多个0比特开头),确保修改区块需重做海量计算; 以“最长链”为共识结果,诚实节点控制多数算力时,攻击者无法追平最长链; 网络架构极简:信息全网广播,节点自由进出,回归时以最长链同步历史交易。 1. 简介 互联网贸易已经变得几乎完全依赖金融机构作为可信任的第三方来处理电子支付。尽管对于大部分交易这种系统运行得足够好,但仍需忍受基于信任模型这个固有缺点。由于金融机构不可避免的需要仲裁纠纷,完全不可撤销的交易实际是做不到的。仲裁成本增加了交易成本,限制了最小实际交易额度从而杜绝了日常小额交易的可能性,而且由于不支持不可撤销支付,对不可撤销服务进行支付将需要更大的成本。由于存在交易被撤销的可能性,对于信任的需求将更广泛。商家必须警惕他们的客户,麻烦他们提供更多他本不需要的信息。一定比例的欺诈被认为是不可避免的。虽可通过当面使用实物货币来避免这些成本及支付的不确定性,但不存在一个无可信任方而能在通信通道上进行支付的机制。 我们需要的是一个基于密码学原理而不是信任的电子支付系统,该系统允许任何有交易意愿的双方能直接交易而不需要一个可信任的第三方。交易在计算上的不可撤销将保护卖家不被欺诈,用来保护买家的程序化合约机制也应该较容易实现。在这篇论文中,我们提出一种使用点对点分布式时间戳服务器为基于时间的交易序列生成计算上的证据来解决双重支付问题的方案。只要诚实节点集体控制的CPU算力大于任何一个合作攻击节点群的CPU算力,这个系统就是安全的。 批注(是什么/为什么/如何) 是什么:先批判传统电子支付“信任第三方”模型的缺陷,再明确核心诉求——构建基于密码学的去信任、点对点电子支付系统,核心安全前提是“诚实节点算力占优”。 为什么: 传统模型的本质问题是“信任依赖”:金融机构作为中介需仲裁纠纷,导致交易不可撤销、成本高、小额交易不成立、欺诈风险不可避免; 实物货币可当面规避信任问题,但无法适配线上场景,线上缺乏无中介支付机制; 市场需要“计算上不可篡改”的交易模式:用密码学替代信任,既保护卖家(防欺诈),也为买家保护(可编程合约)预留空间。 如何: 核心思路:通过点对点网络构建分布式时间戳服务器,为交易序列生成不可篡改的计算证据,解决双重支付; 安全逻辑:不追求绝对无攻击,而是通过“算力门槛”提高攻击成本——诚实节点算力总和超过攻击节点群,系统即安全。 2. 交易 我们将一枚电子货币定义为一条数字签名链。每个拥有者都通过将上一次交易和下一个拥有者的公钥的哈希值的数字签名添加到此货币末尾的方式将这枚货币转移给下一个拥有者。收款人可以通过验证数字签名来证实其为该链的所有者。 这里的问题是收款人不能证实某个拥有者没有对此货币进行双重支付。通常的做法是引入一个可信任的中央机构或铸币厂来检查每笔交易是否存在双重支付。每笔交易之后,都需要将这枚货币退回铸币厂以换取发行一枚新的货币,只有由铸币厂直接发行的货币才能被确认没有被双重支付。这个方案的问题在于整个货币系统的命运都依赖于运营铸币厂的公司,每笔交易都需要经过它们,就像银行一样。 我们需要一种能让收款人知道上一个货币拥有者没有对任何更早的交易签名的方法。对我们来说,最早的那次交易是唯一有效的,所以我们不需要关心本次交易后面的双重支付尝试。唯一能确认一笔交易不存在的方法是知晓所有之前的交易。在铸币厂模型中,铸币厂知晓所有交易并能确定哪笔交易最先到达。在不引入一个可信任方的前提下要达到这个目的,所有交易就必须公开发布[1],而且需要一个能让所有参与者对交易收到顺序的单一历史达成共识的系统。收款人在每笔交易时,都需要多数节点认同此交易是最先收到的证据。 批注(是什么/为什么/如何) 是什么:明确比特币核心定义(数字签名链),点出传统电子货币“双重支付”痛点及中央铸币厂方案的缺陷,提出“交易公开+全网共识交易顺序”的去信任解决方案。 为什么: 数字签名链能解决“所有权验证”,但无法解决“双重支付”——收款人无法知晓该货币是否已被原所有者用于更早交易; 中央铸币厂方案虽能防双重支付,但存在“单点依赖”风险:货币系统命运绑定铸币厂,效率低且易被控制; 去信任场景下,“交易顺序”是核心:只有确定某笔交易是“最早有效交易”,才能杜绝双重支付,需全网对交易历史达成共识。 如何: 货币本质:每枚比特币是“上一交易+下一所有者公钥哈希+当前所有者签名”构成的链式结构,签名由私钥生成,确保所有权转移合法性; 双重支付解决方案: 交易全网公开:所有节点获取全部交易历史,避免信息不对称; 共识机制:设计系统让所有参与者对交易接收顺序达成统一历史记录,收款人通过“多数节点认同”确认交易“最早有效”。 3. 时间戳服务器 我们提出的方案从时间戳服务器开始。时间戳服务器计算包含多个需要被打时间戳的数据项的区块的哈希值并广泛地发布这个哈希值,就像在报纸或新闻组帖子里[2-5]。时间戳能证明要得到这个哈希值,显然这些数据当时一定是存在的。每个时间戳的哈希值都纳入了上一个时间戳,形成一条链,后面的时间戳进一步增强前一个时间戳。 批注(是什么/为什么/如何) 是什么:时间戳服务器是比特币交易历史不可篡改的基础组件——将多个交易打包成区块,计算区块哈希并全网发布,区块哈希包含前一区块哈希,形成链式结构,以哈希加密实现“交易存在性”和“历史连续性”证明。 为什么: 需解决“交易时间顺序可验证”问题:证明某笔交易在特定时间点已存在,为共识交易顺序提供依据; 哈希加密特性适配需求:哈希值是数据的唯一“数字指纹”,数据修改则哈希值巨变;前一区块哈希纳入当前区块,使历史形成“牵一发而动全身”的链条,确保不可篡改。 如何: 打包交易:将多个待验证交易整合为一个“区块”; 生成哈希:计算区块哈希(如SHA-256),哈希值包含区块内交易数据和上一区块哈希; 全网发布:将区块哈希广泛广播,所有节点均可获取; 链式增强:新区块哈希基于前一区块,形成持续增长的链,越靠后的区块越能强化前面区块的时间戳有效性。 4. 工作量证明 为了实现一个基于点对点的时间戳服务器,我们需要使用一个类似Adam Back提出的哈希货币[6]的工作量证明系统,而不是报纸或新闻组帖子那样。工作量证明采取搜索一个数,使得被哈希时(如使用SHA-256)得到的哈希值以数个0比特开始。平均所需工作量将随所需0比特呈指数级增长而验证却只需执行一次哈希。 对于我们的时间戳网络。我们通过在区块中加入一个随机数,直到使得区块的哈希值满足所需0比特的数被找到的方式实现工作量证明。一旦消耗了CPU算力使区块满足了工作量证明,那么除非重做这个工作否则就无法更改区块。由于后面的区块是链接在这个区块后面的,改变这个区块将需要重做所有后面的区块的工作量证明。 工作量证明同时解决了在多数决定中确定投票方式的问题。如果多数是按IP地址投票来决定,那么它将可能被能分配大量IP地址的人破坏。工作量证明本质上是按CPU投票。最长的链代表了多数决定,因为有最大的计算工作量证明的算力投入到这条链上。如果多数的CPU算力被诚实节点控制,诚实的链就会增长得最快并超过其他的竞争链。要修改过去的某区块,攻击者必须重做这个区块以及其后的所有区块的工作量证明,从而赶上并超过诚实节点的工作。我们后面会证明随着后续的区块被添加一个更慢的攻击者赶上诚实节点的概率将呈指数级递减。 为了抵消硬件运算速度的增加及平衡不同时期运行节点的利益,工作量证明的难度将由移动平均数法来确定每小时生成区块的平均数。如果区块生成得过快,那么生成的难度就会增加。 批注(是什么/为什么/如何) 是什么:工作量证明(PoW)是比特币网络的“算力共识机制”——通过要求节点消耗CPU算力寻找满足特定哈希条件的随机数,实现区块生成的“成本门槛”,以“最长链”为全网共识,解决投票公平性和历史不可篡改性问题,难度动态调整以稳定区块生成速度。 为什么: 点对点网络需公平投票机制:按IP投票易被多IP伪造攻击,需“难以伪造且成本可控”的投票方式; 时间戳链需“防篡改成本”:仅靠哈希链式结构不够,需增加修改历史的难度; 硬件算力提升会导致区块生成过快,需动态调整难度以平衡节点利益。 如何: 工作量证明实现: 规则:区块需包含随机数(Nonce),节点不断尝试随机数,直到区块哈希以指定数量0比特开头; ...

ZHANG.z" | December 23, 2024 | 37 min | Shanghai

从GE的"活力曲线"看杰克韦尔奇的管理智慧

杰克韦尔奇的“活力曲线”故事 通用电气(GE)在杰克韦尔奇时代推行的“活力曲线”(20-70-10)管理法,至今仍是企业管理的经典案例。 核心实践 韦尔奇将员工按绩效分为三类: 20%的顶尖员工:给予丰厚奖励和晋升机会 70%的中坚员工:提供培训和发展空间 10%的末位员工:给予改进机会或淘汰 背后逻辑 这一方法的核心是**“区别对待”**——承认员工贡献差异,通过差异化激励保持组织活力。韦尔奇认为: 平均主义会扼杀优秀员工的积极性 及时淘汰不适应的员工是对组织和员工的负责任 清晰的绩效标准能提升整体团队效率 反思与启示 “活力曲线”并非完美无缺,过度量化可能忽视团队协作和创新价值。但它提醒管理者: 绩效评估需要透明和客观 组织需要保持“新陈代谢”的能力 激励机制应与战略目标紧密结合 在快速变化的商业环境中,韦尔奇的管理智慧仍有借鉴意义——保持组织活力比追求短期稳定更重要。

ZHANG.z" | November 22, 2024 | 1 min | Shanghai