H200发布:NVIDIA赢了性能战,但可能输了未来

今天早上收到加州朋友Mike的邮件,附件是NVIDIA H200的内部评测报告。他在NVIDIA做架构师,每次有新品都会偷偷给我发点料。我盯着性能测试图看了半小时,H200比H100提升了35%,但真正让我倒吸凉气的,不是性能数字,而是CUDA生态的数据。 “全球95%以上的AI训练任务都跑在CUDA上,“Mike在微信里说,“我们刚更新了CUDA 12.5,专门优化了H200。那些想用AMD或其他芯片的公司,光是迁移代码就得花半年。“我回他:“所以NVIDIA已经不是芯片公司了,是AI时代的Windows?“他发了个笑脸:“差不多吧。” 但我心里在想:Windows当年也以为自己无敌,结果被移动互联网时代抛弃了。NVIDIA的CUDA生态,会不会也面临同样的命运? 从表面看:性能数字背后的生态霸权 表面上看,这是"H200性能提升35%“的技术突破。但真正让NVIDIA无敌的,不是芯片性能,而是CUDA生态。 芯片性能可以追上——AMD的MI300X在某些场景已经接近H100,中国的昇腾910B在推理场景甚至超过H100。但生态壁垒一旦形成,几乎无法突破。全球95%的AI训练任务都跑在CUDA上,这意味着:即使你的芯片性能更强,开发者也不会用,因为迁移成本太高。 NVIDIA已经从一家芯片公司,变成了AI时代的Windows。Windows当年靠操作系统垄断PC市场,NVIDIA靠CUDA生态垄断AI市场。 关键洞察:这不是芯片战争,是生态战争。性能可以追赶,生态难以复制。 从深层看:中国芯片的差异化突围 想起上周去华为上海研究所拜访的场景。负责昇腾910B的李工带我参观实验室,指着一台堆满芯片的服务器说:“我们不跟NVIDIA在训练芯片正面死磕,昇腾910B专门优化推理场景。在智慧城市视频分析上,我们的性能已经超过了H100。” 不仅华为,寒武纪的思元590芯片正在给智能加油站做边缘计算,实时监控油枪状态、预测库存;地平线的征程6芯片在自动驾驶领域也有不错的表现。中国芯片公司选择了一条差异化的突围路径:不拼通用性能,而是深耕垂直场景,把特定领域的AI芯片做到极致。 去年在深圳参加AI峰会,看到一家创业公司用昇腾芯片做工业机器人实时控制,延迟比NVIDIA的方案低40%。美国的技术封锁反而成了中国芯片产业的催化剂——以前大家都觉得买NVIDIA的芯片就行,现在不得不自己搞研发。 翻出三年前的笔记,当时我判断"中国芯片10年内赶不上美国”。现在看来,我错了——不是赶不上,而是走了一条完全不同的路。NVIDIA在通用计算领域狂飙,中国芯片则在垂直场景深耕。 关键洞察:芯片战争的终局,不是谁的性能更强,而是谁能更好地服务用户。NVIDIA赢了通用性能,中国芯片可能赢了垂直场景。 从未来看:生态与场景的终极博弈 晚上刷朋友圈,看到Mike发了张NVIDIA总部的照片,配文:“H200发布,我们赢了。“我给他点了个赞,心里却在想:这场芯片战争,才刚刚开始。 NVIDIA赢了性能战,但可能输了未来。因为未来的AI应用,不是"一个模型跑遍所有场景”,而是"每个场景都有专属芯片”。当自动驾驶、智慧城市、工业机器人这些垂直场景成为主流时,NVIDIA的通用芯片优势还能保持多久? 2025年,我判断会看到更多融合:NVIDIA会加强垂直场景优化(比如推出专门的自动驾驶芯片),中国芯片会加强生态建设(比如推出自己的开发框架)。 芯片战争的终局,不是谁的性能更强,而是谁能更好地服务用户。NVIDIA赢了性能战,中国芯片却可能赢了未来的场景战。 2025年,我期待看到NVIDIA的场景化,也期待看到中国芯片的生态化。

ZHANG.z" | February 20, 2025 | 6 min | Shanghai

马斯克的超级计算机:算力军备竞赛的开始?

马斯克的xAI团队只用四个月就建成全球最大超级计算机"巨像",这个消息让我下巴都掉了。传统超算建设周期至少2-3年,这速度太疯狂了。 表层:算力军备竞赛的加速 算力是AI发展的核心驱动力,这点我当然兴奋。但冷静下来想,这会不会引发全球算力军备竞赛?“巨像"用了3万多块H100 GPU,一年电费得多少钱?上周跟AI创业公司CTO聊天,他说算力成本占公司开支60%,“跑个大模型训练得等半个月排算力”。 深层:中美超算的技术博弈 中美在超算领域的竞争早已开始。中国的神威·太湖之光和天河二号多次登TOP500榜首,美国通过AMD、英伟达技术优势反超。马斯克这次直接用GPU堆出超算,绕过了传统超算的建设周期,是另一种路径突破。 终局:算力集中的隐忧 更让我担忧的是,高端算力正集中在少数科技巨头手中,中小企业根本用不起。而且,算力竞争会不会像核武器竞赛一样,最终变成资源浪费?毕竟,AI发展的瓶颈从来都不只是算力,还有算法和数据。 马斯克总喜欢搞大新闻,这次的超级计算机到底是进步利器,还是烧钱游戏? 算力不是AI的全部,就像核武器不是战争的全部。真正的AI革命,需要的是算力、算法和数据的平衡,而不是单一维度的军备竞赛。

ZHANG.z" | September 25, 2024 | 2 min | Shanghai

比特币挖矿基础原理

比特币挖矿的核心逻辑 比特币挖矿是维护网络安全与生成新币的关键机制。其本质是通过计算解决密码学难题,竞争区块记账权的过程。 工作原理 交易收集:矿工收集网络中的未确认交易,形成交易池 区块构建:选择交易打包成候选区块,包含前一区块哈希 工作量证明:通过哈希计算寻找满足条件的随机数(Nonce) 区块广播:找到有效Nonce后,向全网广播新区块 共识确认:其他节点验证后接受新区块,矿工获得奖励 安全机制 比特币网络的安全性依赖于算力分布。当多数算力由诚实节点控制时,攻击者无法篡改交易历史,因为需要重新计算所有后续区块的工作量证明。 激励模型 矿工的收益来自两部分:新发行的比特币和交易手续费。随着挖矿难度调整,网络保持约10分钟出一个区块的节奏,确保货币发行的可预测性。

ZHANG.z" | August 15, 2024 | 1 min | Shanghai

萝卜快跑武汉运营:无人驾驶的春天来了?

上周去武汉出差,特意体验了百度的萝卜快跑。在光谷马路上,看着方向盘自己转,油门刹车自己控制,感觉很科幻。 表层:无人驾驶的规模化突破 百度在武汉投放了上万辆无人驾驶车,覆盖主要交通区域。作为研究5年自动驾驶的人,我知道这意味着什么——无人驾驶从试点走向了规模化商业运营。实际体验下来,遇到闯红灯电动车会急刹车,复杂环岛反应有点慢,但总体比想象中稳定。 深层:中美自动驾驶的路径分歧 中美玩法截然不同:百度是"车路协同+Robotaxi",靠政府支持和基础设施建设;特斯拉是"纯视觉+私人汽车",靠算法和芯片。百度走得更快,但特斯拉的技术更通用。上周跟出租车司机聊天,他说武汉出租车生意已受影响:“无人驾驶越来越多,我们怎么办?” 终局:技术与就业的两难 特斯拉的擎天柱机器人发布了原型,能做简单动作,但成本太高,短期内难商业化。相比之下,自动驾驶的商业化路径更清晰,冲击也更直接。 技术进步总会淘汰职业,也会创造新机会。但淘汰是立竿见影的,创造机会却需要时间。 无人驾驶的春天来了,但不是每个人都能感受到温暖。技术的温度,取决于我们如何对待被它改变的人。

ZHANG.z" | July 22, 2024 | 2 min | Shanghai

Apple Intelligence:设备端AI的终局之战?

WWDC发布Apple Intelligence那天,我在加州咖啡馆写代码,旁边几个程序员看到演示时发出惊叹声。 表层:隐私优先的设备端革命 苹果把AI直接整合到iOS、iPadOS和macOS,主打设备端处理——数据不上传云端,隐私更安全。作为用了十年苹果的人,我知道它的生态闭环有多强:Apple Intelligence能在不同设备间无缝切换,这是谷歌微软做不到的。用iPhone 15 Pro测试了几个功能,确实比以前快,但复杂多模态任务还是会卡顿。 深层:中美设备端AI的路径博弈 中美路径截然不同:苹果是"设备端优先+云端协同",华为是"全栈自研+硬件软件一体化"。上周跟芯片设计师聊天,他说苹果神经引擎已迭代到第五代,算力提升10倍,但跑GPT-4级别模型还是吃力。华为的昇腾芯片则是从底层自研,走的是另一条路。 终局:设备端AI的融合未来 设备端AI的终局是什么?是每台设备有自己的AI大脑,还是云端大脑的延伸?我觉得是两者结合。苹果没说透的是,复杂任务还是需要云端协同——这才是真实的技术妥协。 隐私和性能,永远是AI的两难。苹果选择了先保隐私,再拼性能。 设备端AI的终极战场,不在参数表上,而在用户感知到的流畅度和安全感之间。

ZHANG.z" | June 15, 2024 | 2 min | Shanghai