Zhang's Blog

The Folding of Currency: 2036 Stablecoin Endgame & The Liquidity Caste

假设我站在了2036年，回望2020年代中期，无论是华尔街还是硅谷，都犯了一个战略性错误：他们将稳定币视为法币的"竞争者"。站在2036年复盘，真相残酷而简单：稳定币没有颠覆美元，它拯救了美元。过去十年，我们见证的不是去中心化革命，而是一场"铸币权的特许经营化"。美联储意识到，与其亲自下场做低效且侵犯隐私的CBDC（央行数字货币），不如将美元的"API接口"开放给私营部门。稳定币，最终成为了法币的"数字外骨骼"。现在的世界不再争论"中心化"与"去中心化"，因为货币体系已经完成了阶级固化。全球流动性被割裂为三个互不兼容、但垂直嵌套的平行世界。顶层是白区（White Zone），权力的延伸。形态是所谓"合规稳定币"（Gov-Coins），本质是可编程的政治工具。2028年《全球数字支付法案》通过后，Circle与Paxos类机构实质上成为了美联储的"数字分行"。这些货币具有极强的长臂管辖权。政府不再通过银行冻结账户，而是直接在智能合约层面实行"定点量化宽松"或"瞬间资产剥夺"。场景是纳税、政府采购、大宗合规贸易。它是清洁的，但它是带着镣铐的。中层是灰区（Grey Zone），帝国的暗渠。形态是离岸美元稳定币（Offshore-Coins），本质是全球贸易的润滑剂。尽管西方国家嘴上严厉监管，但从未真正封杀离岸稳定币（如Tether的后继者）。为什么？因为美国需要一个不受SWIFT制约的渠道，来吸纳亚非拉及制裁区的过剩流动性。只要这些稳定币继续购买美债，它们就被默许存在。这是2036年的"石油美元"变体——“算法美元”。它服务于那个不被官方承认、但真实存在的庞大地下经济体。底层是黑区（Dark Zone），熵的避难所。形态是纯原生算法货币（Crypto-Native），本质是数学与能量的货币化。真正的去中心化货币不再锚定美元（那是自寻死路），而是锚定"算力+能源"。在2032年算力危机后，一种基于零知识证明（ZK）和物理算力（PoW）混合的稳定币成为了DeFi的基石。它是唯一的"反脆弱"资产。当白区货币因通胀贬值、灰区货币因地缘政治被定向爆破时，黑区货币因其"不可篡改性"成为最后的价值存储。未来十年的核心博弈，在于抵押品（Collateral）的代际更替。2026-2030年是债务货币化阶段，稳定币发行商成为全球前三大美债持有者。稳定币收益率（Yield）成为全球无风险利率的基准。美元霸权以代码的形式完成了数字化殖民。2031-2036年是资产超主权化阶段，随着RWA（现实资产上链）的成熟，单一法币抵押显得风险过高。一篮子资产（黄金、比特币、AI算力指数、碳信用）组成的"合成SDR"（特别提款权）开始在链上自动生成。对于现在的布局者，请记住这条穿越者的公理：不要试图去发币挑战国家，而要成为国家无法拒绝的"基础设施"。未来的货币战争，不会有硝烟。白区属于政府，灰区属于财阀，黑区属于极客。不要选择立场，而是看清自己在哪个图层（Layer）上博弈。2036年的稳定币，不再是钱，它是流动的法律，是固化的阶级，是代码构建的利维坦。

Why did I study business in the AI era?：AI时代我为何选择再去读商科？

回望求学与创业的征程，我始终感恩大学时期选择理科的决定。我的本科是计算机科学与技术，严谨的理科训练，让我养成了以数据为依据、以结果为导向的实证思维。这种"凡事求有效、凡事讲逻辑"的认知底色，帮我搞定了职业过程中理性的思考问题。在工作过程中这种思维模版帮我解决很多问题，比如产品迭代、流程优化这些"硬骨头"。但真到了从生产到市场环节打拼才发现，光会解决技术问题远远不够。好几次，我周围很多创业者拿着看似完美的产品推向市场，要么找不到精准客户，要么定价不合理导致盈利微薄，甚至因为没摸清行业周期，在市场低谷时盲目投入，亏了不少钱。这种"懂技术却不懂经营"的迷茫，让我彻底明白：创业的核心是盈利，而盈利的关键在于经营思维。也正因如此，我在21年选择攻读MBA。这段学习历程不是对过往理科知识的否定，而是给我补上了"经营"这堂关键必修课，让我从"做事"的层面，真正升级到"做局"的层面，成为我创业路上扭转困局的核心支撑。又一次我的老板在闲聊时问我，我为什么选择要读MBA呢，以上也是我的回答。 MBA最让我受益的，是帮我升级了视野。用经营思维，真正看见市场里藏在表象下的获利机会点。以前做市场，我只会盯着竞品的价格和功能，跟着别人的节奏走，永远赚不到认知之外的钱。但通过MBA里的经济学和市场分析课程，我学会了从供需关系、行业周期、政策导向的全局视角看市场。比如在分析细分领域时，我不再只看当下的销量，而是用经济模型预判未来的需求趋势，结合成本结构算出"最优盈利区间"，最终找到一个被大公司忽略的小众需求点。就像去年，我通过分析区域消费升级的经济数据，发现本地中小企业对"低成本数字化转型"的需求迫切，但市场上的解决方案要么太贵要么太复杂，于是我针对性地推出轻量化产品，短短半年就实现了盈利翻倍。这种"从经济规律里找机会，用经营思维抓盈利"的能力，正是商科学习带给我的核心价值。同时，不同学科的碰撞也让我打通了认知：管理学让我明白，找到机会只是第一步，能把机会落地的组织能力才是关键。商业历史案例则提醒我，再优质的获利机会，也需要避开周期陷阱，这都是保证收益稳定的重要前提。 “一个人做不大"的想法，在MBA学习中不仅得到印证，更让我找到了"整合全局"的经营解法。从市场分析到组织制度，搭建全方位的经营策略，才能让盈利持续放大。以前我带团队，只会把任务分配下去，却忽略了"组织能力要匹配市场机会”。比如找到轻量化数字化转型的机会后，初期因为团队分工模糊、激励不到位，导致交付效率低，客户投诉多，明明是好机会，却差点因为组织问题错失收益。后来，我把MBA学到的组织设计、激励机制知识用在实践中：先根据市场需求拆分核心业务模块，再对应搭建销售、交付、售后团队，同时设计"基础薪资+盈利分成"的激励方案，让团队目标和公司盈利目标绑定。这样一来，团队效率直接提升了40%，客户复购率也从30%涨到了60%。更重要的是，MBA圈层里的精英伙伴，不仅帮我验证了市场机会的可行性，还为我对接了不少中小企业资源，让我的经营策略能更快落地。这让我深刻体会到，商业盈利从来不是"单点突破"，而是"全局协同"。用市场分析找机会，用组织制度保落地，再用团队协作放大收益，这就是商科教给我的完整经营逻辑。我曾反复琢磨"一人之公司的成长上限"，现在终于明白：个体的经营思维边界，就是盈利的上限。创业初期，我因为不懂经营，走了太多"赚小钱、丢大钱"的弯路。而MBA的学习，给我搭建起了从"找机会"到"稳盈利"的完整经营框架。比如用经济思维判断市场趋势，避免在周期低谷盲目投入。用成本收益模型优化定价策略，让每一笔订单都有合理利润。用战略规划思维布局长期业务，避免只盯着短期收益而错失长期机会。就像我现在做业务，会先通过市场分析锁定高毛利的细分领域，再根据行业周期调整投入节奏，同时用组织制度保障团队效率，最后通过客户关系管理提升复购率。这套流程下来，公司的盈利稳定性比以前提升了太多。这种"每一步决策都围绕经营盈利"的思维，是我以前靠理科思维永远悟不到的，也是商科学习带给我最宝贵的财富。如今回望MBA的学习历程，我满心都是感恩。这份感恩，不只是因为它帮我赚到了更多钱，更因为它彻底重塑了我的经营认知。让我从一个只会"做事"的理科生，变成了一个懂得"做局"的经营者。让我明白，市场里的盈利机会从来都不是靠运气，而是靠经营思维的精准判断。让我掌握了从市场分析到组织制度的全局经营策略，能更从容地应对创业中的各种挑战。这段历程，是知识的积累，更是思维的蜕变、视野的升级。未来，我会带着这份经营智慧继续深耕创业之路，也始终铭记：商业的核心是盈利，而支撑盈利的，永远是扎实的经营思维。这就是我要读MBA的终极意义。

【论文解读03】通过最小化权重描述长度简化神经网络

本文解读的是Geoffrey Hinton和Dirk van Camp于1993年发表的经典论文《Keeping Neural Networks Simple by Minimizing the Description Length of the Weights》，该论文将最小描述长度（MDL）原理直接应用于神经网络权重优化，开创了神经网络压缩和正则化的新范式。论文的核心思想是通过最小化权重的描述长度来自动找到既简单又有效的网络结构，这一思想在深度学习尚未兴起的年代就为现代模型压缩技术奠定了理论基础。 “最简单的神经网络往往是最好的神经网络。"——这是Hinton等人在1993年提出的深刻洞察。在深度学习尚未兴起的年代，他们就已经意识到：神经网络的复杂度不应该由参数数量衡量，而应该由描述这些参数所需的信息量决定。通过最小化权重的描述长度，可以自动找到既简单又有效的网络结构，避免过拟合，提高泛化能力。在当今大模型时代，这一思想显得更加重要。GPT-3有1750亿参数，但真正"有效"的参数可能远少于这个数字。如何识别和利用权重的稀疏性？如何量化模型的真实复杂度？如何在不损失性能的前提下简化模型？这些问题都可以从权重描述长度的角度重新审视。本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读这一经典工作，包含完整的数学推导、算法流程和复杂度分析，并在文末提出开放性问题与未来研究方向。神经网络复杂度的根本问题问题一：参数数量与模型复杂度的脱节传统观点认为，参数越多的神经网络越复杂，越容易过拟合。但这一观点过于简化。一个包含1000个参数的模型，如果这些参数高度相关或存在大量冗余，其真实复杂度可能远低于一个只有100个参数但彼此独立的模型。真实复杂度取决于权重的信息量：如果权重可以用简单的规则描述（如"所有权重都接近0"或"权重遵循某种规律”），那么即使参数数量很多，模型的真实复杂度也很低。相反，如果每个权重都需要独立编码，那么即使参数数量较少，模型的复杂度也很高。这种脱节导致了模型选择的困难：我们无法仅凭参数数量判断模型的真实复杂度，也无法预测模型的泛化能力。需要一种能够量化权重信息量的方法。问题二：过拟合的权重编码视角从信息论的角度看，过拟合的本质是模型"记住"了训练数据。如果一个神经网络能够完美拟合训练集，那么它的权重实际上包含了训练数据的编码信息。当权重的信息量接近或超过训练数据的信息量时，模型就失去了泛化能力。考虑一个极端例子：如果训练集有 $n$ 个样本，每个样本需要 $b$ 位编码，那么训练数据的总信息量约为 $nb$ 位。如果模型的权重需要 $nb$ 位或更多位来编码，那么模型实际上是在用权重"存储"训练数据，而不是学习数据的规律。 MDL原理告诉我们，最优模型应该能够用最少的信息描述数据。对于神经网络，这意味着权重的描述长度应该远小于数据的描述长度，这样才能保证模型捕捉的是数据的规律性，而不是随机性。问题三：权重分布的复杂性与编码效率不同的权重分布需要不同的编码长度。如果所有权重都接近0，可以用很少的位编码；如果权重均匀分布在某个区间，需要更多位编码；如果权重完全没有规律，需要最多的位编码。权重分布的熵决定了编码长度：对于连续权重，如果权重遵循某种先验分布（如高斯分布），可以使用该分布的负对数似然作为编码长度。权重的方差越小、越集中，编码长度越短。这一观察为权重正则化提供了理论基础：L2正则化（权重衰减）通过惩罚大权重，使权重分布更集中，从而减少描述长度；L1正则化通过鼓励稀疏性（大量权重为0），进一步减少描述长度。权重描述长度的核心机制信息论基础：权重的编码长度给定神经网络权重 $\mathbf{w} = (w_1, w_2, \ldots, w_k)$，描述这些权重所需的编码长度取决于权重的分布和精度。离散权重的编码：如果权重被量化为 $b$ 位精度，$k$ 个权重需要 $kb$ 位。但如果我们知道权重的分布，可以使用更高效的编码方案（如Huffman编码），编码长度为： $$ L(\mathbf{w}) = -\sum_{i=1}^{k} \log P(w_i) $$ ...

【论文解读02】最小描述长度原理教程：模型选择的理论基础

本文解读的是Jorma Rissanen于1978年发表的经典论文《Modeling by shortest data description》，该论文首次提出了最小描述长度（Minimum Description Length, MDL）原理，将模型选择问题转化为信息论中的数据压缩问题。MDL原理为奥卡姆剃刀提供了数学严谨的量化方法，连接了信息论、统计学和机器学习，成为现代AI模型选择、正则化和泛化理论的重要理论基础。 “最简单的解释往往是最好的解释。"——这是奥卡姆剃刀原理的经典表述。但在统计学和机器学习中，如何量化"简单”？如何平衡模型的复杂度和拟合能力？最小描述长度（Minimum Description Length, MDL）原理为这个问题提供了信息论层面的严谨答案。 MDL原理将模型选择问题转化为数据压缩问题：最好的模型是能够用最短编码描述数据的模型。这一思想不仅连接了信息论、统计学和机器学习，更为现代AI的模型选择、正则化和泛化理论奠定了理论基础。在深度学习时代，我们面临的核心挑战是：如何从无数可能的模型架构中选择最优的？如何避免过拟合？如何理解模型的泛化能力？MDL原理告诉我们，模型的复杂度不是由参数数量决定的，而是由描述数据所需的信息量决定的。一个能够用更少信息描述数据的模型，往往具有更好的泛化能力。本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读MDL原理，包含完整的数学推导、算法流程和复杂度分析，面向专业读者提供系统化的技术总结。模型选择的根本困境问题一：奥卡姆剃刀的量化难题奥卡姆剃刀原理告诉我们"如无必要，勿增实体"，但在实际应用中，如何量化"简单"和"必要"？传统方法面临三个核心问题：复杂度度量不统一（参数数量、模型结构、计算复杂度等不同维度难以比较）、拟合能力与复杂度难以平衡（简单模型可能欠拟合，复杂模型可能过拟合）、缺乏理论依据（经验性规则缺乏数学严谨性）。在统计学习中，我们经常遇到这样的困境：一个包含1000个参数的模型在训练集上表现完美，但在测试集上表现糟糕；另一个只有10个参数的模型在训练集上表现一般，但在测试集上表现更好。哪个模型更好？直觉告诉我们选择后者，但为什么？MDL原理提供了信息论层面的答案。问题二：过拟合与欠拟合的权衡模型选择的核心是在过拟合和欠拟合之间找到平衡点。过拟合模型能够完美拟合训练数据，但无法泛化到新数据；欠拟合模型过于简单，无法捕捉数据中的模式。传统方法（如交叉验证、正则化）虽然有效，但缺乏统一的理论框架。信息论视角下的过拟合问题可以这样理解：如果一个模型能够"记住"训练数据的每一个细节，那么它实际上是在用模型参数编码训练数据。当模型参数的数量接近或超过数据的有效信息量时，模型就失去了泛化能力。MDL原理通过描述长度这一统一度量，将模型复杂度和数据拟合能力放在同一个尺度上比较。问题三：模型复杂度的多维度性模型复杂度可以从多个维度衡量：参数数量（参数越多，模型越复杂）、函数表达能力（能够表示的函数空间越大，模型越复杂）、计算复杂度（训练和推理的计算成本）、结构复杂度（网络深度、宽度、连接方式等）。这些维度往往相互关联，但又不完全一致。 MDL原理通过编码长度统一了这些维度：一个模型的复杂度等于描述该模型本身所需的编码长度，加上使用该模型描述数据所需的编码长度。这种统一的度量方式使得不同类型的模型可以在同一框架下比较。 MDL原理的核心机制信息论基础：编码与描述长度 MDL原理建立在信息论的基础上。给定一个数据集 $D$ 和模型 $M$，描述数据的总长度包括两部分： $$ L(D, M) = L(M) + L(D|M) $$ 其中 $L(M)$ 是描述模型本身所需的编码长度，$L(D|M)$ 是使用模型 $M$ 描述数据 $D$ 所需的编码长度（即数据的负对数似然，加上模型参数的编码）。 MDL原理的核心思想是：选择使总描述长度 $L(D, M)$ 最小的模型。这等价于在模型复杂度和数据拟合能力之间找到最优平衡点。两阶段编码：模型与数据 MDL原理采用两阶段编码方案。第一阶段编码模型 $M$，包括模型结构、参数值等；第二阶段编码数据 $D$，使用模型 $M$ 的预测分布。 ...

【论文/课程01】CS231n：卷积神经网络与视觉识别课程

“视觉不仅是智能的一部分，更是智能的基石。解开视觉智能的奥秘，就是解开智能的奥秘。"——这是李飞飞教授在CS231n课程开篇时说的话。 2012年，当AlexNet在ImageNet挑战赛上以压倒性优势夺冠时，整个计算机视觉领域被彻底颠覆。在此之前，传统方法在ImageNet上的错误率接近30%，而AlexNet将Top-5错误率降到了15.3%——这不是渐进式改进，而是范式革命。斯坦福大学的CS231n课程（Convolutional Neural Networks for Visual Recognition，卷积神经网络与视觉识别）正是这场革命的系统化总结。作为Ilya Sutskever推荐的30u30权威清单中的第一项，CS231n不仅是深度学习入门的必修课，更是理解现代AI视觉理解能力的基石。在深度学习成为主流之前，计算机视觉面临三个核心问题：特征工程瓶颈（依赖手工设计的特征如SIFT、HOG）、层次化表示缺失（无法像人类视觉系统那样从边缘到物体地理解图像）、端到端学习不可行（特征提取和分类分离，无法联合优化）。CNN通过端到端学习，自动从数据中提取特征，彻底改变了视觉识别的游戏规则。本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读CS231n，包含完整的数学推导、算法流程和复杂度分析，面向专业读者提供系统化的技术总结。传统计算机视觉的局限问题一：特征工程的手工设计瓶颈传统计算机视觉方法依赖手工设计的特征描述符（如SIFT、HOG、LBP），将图像转换为固定维度的特征向量，然后使用传统机器学习算法（如SVM、随机森林）进行分类。这种方法的根本问题在于：特征设计需要大量领域专家知识，不同任务需要不同的特征描述符；手工特征在训练集上表现良好，但在新场景、新数据上往往失效；难以捕捉图像中的复杂模式和高层语义信息；每增加一个新任务，都需要重新设计特征。在2010-2011年的ImageNet挑战赛中，最佳方法使用SIFT特征和Fisher Vector编码，Top-5错误率接近30%，而人类错误率约为3%。当数据规模从数千张增长到数百万张时，传统方法的性能提升微乎其微，说明手工特征无法充分利用大规模数据的潜力。这正是李飞飞教授和她的学生在2000年代初期意识到的问题：数据的重要性被严重低估了。问题二：空间不变性和层次化表示的缺失图像中的物体可能出现在任意位置、任意尺度、任意角度。人类视觉系统具有天然的层次化结构：从边缘、纹理等底层特征，到形状、部件等中层特征，再到物体类别等高层语义。传统方法通常只能捕捉单一层次的特征，难以构建层次化表示。需要滑动窗口、数据增强、多尺度特征金字塔等方法，计算成本高昂，且难以端到端优化。传统方法可以捕捉底层特征（边缘、角点、纹理），但难以捕捉中层特征（形状、部件、局部模式），几乎无法捕捉高层语义（物体类别、场景理解）。这种单一层次的表示限制了传统方法在复杂视觉任务上的表现。问题三：端到端学习不可行在传统流程中，特征提取器（如SIFT）是固定的，不随任务变化；分类器（如SVM）在固定特征上训练；两者无法联合优化。这种分离带来的问题是：特征提取器可能提取了对当前任务不重要的特征，而重要的特征可能被忽略；同一套特征难以适应不同任务（如分类、检测、分割）；无法通过反向传播优化整个系统。深度学习（CNN）通过端到端学习解决了这个问题：从原始图像像素到分类结果，中间所有层都可以通过反向传播联合优化，特征自动适应任务需求。这种端到端的学习方式彻底改变了视觉识别的范式。卷积神经网络的核心机制卷积操作：局部感受野与参数共享卷积操作是CNN的基础构建块，通过局部感受野（Local Receptive Field）捕捉图像的局部模式。给定输入特征图 $I$ 和卷积核 $K$，卷积操作在图像上滑动，在每个位置计算局部区域的加权和。传统全连接网络面临两个根本性问题：参数爆炸（对于224×224×3的图像，全连接层需要千万级参数）和空间结构丢失（将2D图像展平为1D向量，丢失了像素间的空间关系）。卷积通过局部连接（每个输出神经元只连接局部区域）和参数共享（同一卷积核在整个特征图上共享）解决了这两个问题。卷积操作的数学定义为： $$ (I * K)[i, j, f] = \sum_{c=0}^{C-1} \sum_{m=0}^{k-1} \sum_{n=0}^{k-1} I[i \cdot s + m - p, j \cdot s + n - p, c] \cdot K[m, n, c, f] + b[f] $$ ...