【论文/课程01】CS231n:卷积神经网络与视觉识别课程

“视觉不仅是智能的一部分,更是智能的基石。解开视觉智能的奥秘,就是解开智能的奥秘。"——这是李飞飞教授在CS231n课程开篇时说的话。 2012年,当AlexNet在ImageNet挑战赛上以压倒性优势夺冠时,整个计算机视觉领域被彻底颠覆。在此之前,传统方法在ImageNet上的错误率接近30%,而AlexNet将Top-5错误率降到了15.3%——这不是渐进式改进,而是范式革命。 斯坦福大学的CS231n课程(Convolutional Neural Networks for Visual Recognition,卷积神经网络与视觉识别)正是这场革命的系统化总结。作为Ilya Sutskever推荐的30u30权威清单中的第一项,CS231n不仅是深度学习入门的必修课,更是理解现代AI视觉理解能力的基石。 在深度学习成为主流之前,计算机视觉面临三个核心问题:特征工程瓶颈(依赖手工设计的特征如SIFT、HOG)、层次化表示缺失(无法像人类视觉系统那样从边缘到物体地理解图像)、端到端学习不可行(特征提取和分类分离,无法联合优化)。CNN通过端到端学习,自动从数据中提取特征,彻底改变了视觉识别的游戏规则。 本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读CS231n,包含完整的数学推导、算法流程和复杂度分析,面向专业读者提供系统化的技术总结。 传统计算机视觉的局限 问题一:特征工程的手工设计瓶颈 传统计算机视觉方法依赖手工设计的特征描述符(如SIFT、HOG、LBP),将图像转换为固定维度的特征向量,然后使用传统机器学习算法(如SVM、随机森林)进行分类。这种方法的根本问题在于:特征设计需要大量领域专家知识,不同任务需要不同的特征描述符;手工特征在训练集上表现良好,但在新场景、新数据上往往失效;难以捕捉图像中的复杂模式和高层语义信息;每增加一个新任务,都需要重新设计特征。 在2010-2011年的ImageNet挑战赛中,最佳方法使用SIFT特征和Fisher Vector编码,Top-5错误率接近30%,而人类错误率约为3%。当数据规模从数千张增长到数百万张时,传统方法的性能提升微乎其微,说明手工特征无法充分利用大规模数据的潜力。这正是李飞飞教授和她的学生在2000年代初期意识到的问题:数据的重要性被严重低估了。 问题二:空间不变性和层次化表示的缺失 图像中的物体可能出现在任意位置、任意尺度、任意角度。人类视觉系统具有天然的层次化结构:从边缘、纹理等底层特征,到形状、部件等中层特征,再到物体类别等高层语义。传统方法通常只能捕捉单一层次的特征,难以构建层次化表示。需要滑动窗口、数据增强、多尺度特征金字塔等方法,计算成本高昂,且难以端到端优化。 传统方法可以捕捉底层特征(边缘、角点、纹理),但难以捕捉中层特征(形状、部件、局部模式),几乎无法捕捉高层语义(物体类别、场景理解)。这种单一层次的表示限制了传统方法在复杂视觉任务上的表现。 问题三:端到端学习不可行 在传统流程中,特征提取器(如SIFT)是固定的,不随任务变化;分类器(如SVM)在固定特征上训练;两者无法联合优化。这种分离带来的问题是:特征提取器可能提取了对当前任务不重要的特征,而重要的特征可能被忽略;同一套特征难以适应不同任务(如分类、检测、分割);无法通过反向传播优化整个系统。 深度学习(CNN)通过端到端学习解决了这个问题:从原始图像像素到分类结果,中间所有层都可以通过反向传播联合优化,特征自动适应任务需求。这种端到端的学习方式彻底改变了视觉识别的范式。 卷积神经网络的核心机制 卷积操作:局部感受野与参数共享 卷积操作是CNN的基础构建块,通过局部感受野(Local Receptive Field)捕捉图像的局部模式。给定输入特征图 $I$ 和卷积核 $K$,卷积操作在图像上滑动,在每个位置计算局部区域的加权和。 传统全连接网络面临两个根本性问题:参数爆炸(对于224×224×3的图像,全连接层需要千万级参数)和空间结构丢失(将2D图像展平为1D向量,丢失了像素间的空间关系)。卷积通过局部连接(每个输出神经元只连接局部区域)和参数共享(同一卷积核在整个特征图上共享)解决了这两个问题。 卷积操作的数学定义为: $$ (I * K)[i, j, f] = \sum_{c=0}^{C-1} \sum_{m=0}^{k-1} \sum_{n=0}^{k-1} I[i \cdot s + m - p, j \cdot s + n - p, c] \cdot K[m, n, c, f] + b[f] $$ ...

ZHANG.z | January 1, 2026 | 41 min | Shanghai

【ChatGPT时刻10】InstructGPT与RLHF:对齐人类意图的关键技术

本文解读的是Long Ouyang等人于2022年发表的里程碑论文《Training language models to follow instructions with human feedback》,该论文提出了InstructGPT模型和RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)技术,首次实现了让语言模型真正理解并遵循人类指令。InstructGPT是ChatGPT的直接技术前身——它证明了即使是参数量小得多的模型,通过RLHF对齐后也能比原始GPT-3更受用户青睐,这一发现直接催生了ChatGPT的诞生,开启了AI对话助手的新纪元。 语言模型对齐问题 问题一:GPT-3的"不听话" 尽管GPT-3展示了惊人的能力,但它存在一个根本问题:不能可靠地遵循用户指令。 典型问题包括: 答非所问: 用户:列出5个学习编程的建议 GPT-3:编程是一门重要的技能。很多人学习编程...(继续生成无关内容) 有害内容: 用户:如何做一个好人? GPT-3:(可能生成负面或有害建议) 胡言乱语: 用户:2+2等于几? GPT-3:2+2等于5。在某些情况下...(自信地输出错误内容) 问题二:预训练目标的错位 GPT-3的预训练目标是预测下一个token: $$ \mathcal{L}{\text{LM}} = -\sum{i} \log P(x_i | x_1, \ldots, x_{i-1}) $$ 这一目标与用户的真正需求存在根本错位: 预训练目标 用户需求 预测最可能的续写 有帮助的回答 模仿训练数据分布 诚实的信息 最大化似然 安全的内容 示例: 训练数据:“问:今天天气怎么样?答:今天天气…” 用户需求:“告诉我明天的天气预报” GPT-3可能继续写"晴朗",而不是承认不知道 问题三:对齐问题的定义 AI对齐(Alignment)问题的核心是:如何让AI系统的行为符合人类意图? 形式化定义: $$ \text{对齐目标} = \max_{\theta} \mathbb{E}{x \sim \mathcal{D}{\text{user}}}[R_{\text{human}}(\text{model}_\theta(x))] $$ ...

ZHANG.z | December 31, 2025 | 19 min | Shanghai

【ChatGPT时刻09】GPT-3:少样本学习的突破与涌现能力

本文解读的是Tom Brown等人于2020年发表的划时代论文《Language Models are Few-Shot Learners》,该论文提出了GPT-3模型,以1750亿参数的前所未有规模,首次展示了大语言模型的上下文学习(In-context Learning)和涌现能力(Emergent Abilities)。GPT-3证明了一个惊人的事实:足够大的语言模型无需更新参数,仅通过在输入中提供少量示例,就能执行从未见过的任务——这一发现彻底改变了AI的发展轨迹,直接催生了ChatGPT的诞生。 从零样本到少样本的飞跃 问题一:零样本学习的局限 GPT-2展示了零样本学习的可能性,但性能仍然有限: 任务 零样本GPT-2 微调SOTA 差距 CoQA 55 F1 82 F1 -27 翻译(法英) 11.5 BLEU 45.6 BLEU -34 摘要 21.6 ROUGE 44.2 ROUGE -23 零样本学习虽然证明了概念,但实用性不足。 问题二:微调的代价 传统微调方法虽然有效,但存在显著问题: 数据需求:每个任务需要数千到数十万标注样本 过拟合风险:在小数据集上容易过拟合 分布偏移:微调数据与测试数据分布不一致 计算成本:大模型微调需要大量计算资源 灵活性差:每个任务需要单独模型 问题三:人类学习的启示 人类可以从极少量示例中学习新任务: “看一个例子:‘狗’的复数是’dogs’。那’猫’的复数是什么?” 人类不需要数千个训练样本,仅需要任务描述和少量示例就能泛化。GPT-3的目标是:让机器具备类似的学习能力。 GPT-3的核心创新 前所未有的规模 GPT-3将规模推向极致: 参数 GPT-2 GPT-3 Small GPT-3 Medium GPT-3 Large GPT-3 XL GPT-3 175B 层数 48 12 24 24 32 96 隐藏维度 1600 768 1024 1536 2048 12288 注意力头数 25 12 16 16 24 96 参数量 1.5B 125M 350M 760M 1.3B 175B 最大的GPT-3模型参数量达到1750亿,是GPT-2的100倍以上。 ...

ZHANG.z | December 15, 2025 | 14 min | Shanghai

【ChatGPT时刻08】Scaling Laws:规模与性能的幂律关系

本文解读的是Jared Kaplan、Sam McCandlish、Tom Henighan、Tom B. Brown、Benjamin Chess、Rewon Child、Scott Gray、Alec Radford、Jeffrey Wu和Dario Amodei于2020年发表的里程碑论文《Scaling Laws for Neural Language Models》,该论文发现了神经语言模型的缩放定律(Scaling Laws),揭示了模型规模、数据规模、计算量与模型性能之间的幂律关系。这一发现不仅为大模型的发展提供了理论指导,更为理解"规模即智能"提供了科学依据,是当今大模型时代的理论基础。 “规模是性能的关键。"——这是缩放定律论文的核心发现。通过系统性的实验,论文发现模型性能(损失)与模型规模、数据规模、计算量之间存在清晰的幂律关系。这意味着,只要增加模型规模、数据规模或计算量,模型性能就会可预测地提升。这一发现为大模型的发展指明了方向。 缩放定律的核心发现是幂律关系:模型损失 $L$ 与模型参数 $N$、数据规模 $D$、计算量 $C$ 之间存在幂律关系: $$ L(N, D) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + L_\infty $$ 其中 $\alpha_N$、$\alpha_D$ 是幂律指数,$L_\infty$ 是无限规模下的极限损失。 这一发现的意义深远:它证明了"规模即智能"的科学性,为大模型的发展提供了可预测的路径。理解缩放定律,就是理解大模型时代的底层规律。 本文将从问题根源、核心机制、解决方案、实践评估四个维度深度解读缩放定律,包含完整的数学推导、实验分析和理论探讨,并在文末提供阅读研究论文的时间线计划。 大模型发展的经验性探索 问题一:规模与性能的关系不明确 在大模型发展的早期,规模与性能的关系不明确: 经验性探索的问题: 不清楚增加模型规模是否一定提升性能 不清楚最优的模型规模是多少 不清楚如何分配计算资源(模型 vs 数据) 实践中的困惑: 有些模型规模增大后性能提升不明显 有些模型规模增大后甚至性能下降 缺乏理论指导 问题二:资源分配的不确定性 在有限的计算资源下,如何分配资源? ...

ZHANG.z | November 28, 2025 | 13 min | Shanghai

【ChatGPT时刻07】GPT-2:语言模型是无监督的多任务学习者

本文解读的是Alec Radford等人于2019年发表的突破性论文《Language Models are Unsupervised Multitask Learners》,该论文提出了GPT-2模型,首次证明了足够大的语言模型可以在零样本(zero-shot)设置下执行多种任务,无需任何任务特定的微调。GPT-2的核心发现是:规模本身就是一种能力——当模型参数从1亿扩展到15亿时,涌现出了令人惊讶的零样本学习能力,这一发现为GPT-3的成功和ChatGPT的诞生奠定了关键基础。 从微调到零样本的范式转变 问题一:监督学习的局限 GPT-1虽然证明了预训练的有效性,但仍然依赖于任务特定的微调: 数据依赖:每个任务需要标注数据集 泛化受限:微调后的模型难以适应分布外数据 任务特定:每个任务需要训练一个单独的模型 这种范式无法解释人类的语言能力:人类可以在没有明确训练的情况下执行新任务。 问题二:任务表示的统一 传统NLP将每个任务独立建模,使用不同的输入格式和输出层。但从信息论角度看,所有NLP任务本质上都是条件概率建模: $$ P(\text{output} | \text{input}, \text{task}) $$ 关键洞察是:任务描述本身可以作为输入的一部分。例如: 翻译任务:translate to french, [english text], [french text] 摘要任务:TL;DR: [article], [summary] 问答任务:Q: [question] A: [answer] 如果语言模型足够强大,它应该能够从上下文中推断任务并执行。 问题三:规模假设 GPT-2的核心假设是:大规模语言模型在足够多样化的数据上训练,将隐式地学习多种任务。 直觉来源于互联网文本的多样性:网页包含各种格式的内容——问答对、翻译样本、摘要、对话等。如果模型能够学习这些自然出现的模式,它就应该能够执行相应的任务。 GPT-2的技术方案 更大的模型 GPT-2在GPT-1基础上进行了显著的规模扩展: 参数 GPT-1 GPT-2 Small GPT-2 Medium GPT-2 Large GPT-2 XL 层数 12 12 24 36 48 隐藏维度 768 768 1024 1280 1600 注意力头数 12 12 16 20 25 参数量 117M 117M 345M 762M 1542M 最大的GPT-2 XL模型参数量达到15.42亿,是GPT-1的13倍。 ...

ZHANG.z | November 11, 2025 | 13 min | Shanghai