Paper Read

本文解读的是Tomas Mikolov等人于2013年发表的开创性论文《Efficient Estimation of Word Representations in Vector Space》，该论文提出了Word2Vec模型，首次实现了高效、大规模的词向量学习，将词语表示从稀疏的one-hot编码转变为稠密的分布式向量表示。Word2Vec不仅是自然语言处理的里程碑，更是从传统NLP到现代大语言模型演进的起点——它证明了语义可以通过向量空间中的几何关系来表达，为后续的Seq2Seq、Transformer乃至GPT系列奠定了基础。语言理解的根本挑战问题一：词语表示的离散性困境在传统NLP中，词语通常用one-hot编码表示。对于一个包含 $V$ 个词的词表，每个词被表示为一个 $V$ 维向量，只有对应位置为1，其余为0。这种表示方法存在三个根本问题：维度灾难：词表规模通常在万到百万级别，导致向量维度极高稀疏性：每个向量只有一个非零元素，绝大多数信息为0 语义缺失：任意两个词的向量正交，无法表达语义相似性例如，“king"和"queen"虽然语义相近，但在one-hot表示下： $$ \text{sim}(\text{king}, \text{queen}) = \text{king}^\top \cdot \text{queen} = 0 $$ 向量的内积为0，完全无法捕捉它们的语义关联。问题二：分布式假设与向量空间语言学中的分布式假设（Distributional Hypothesis）指出：“一个词的含义由其上下文决定”（You shall know a word by the company it keeps）。这一假设为词向量学习提供了理论基础。如果我们能够将词映射到一个连续的向量空间，使得语义相似的词在空间中距离相近，那么：词之间的语义关系可以通过向量运算表达模型可以泛化到未见过的词组合下游任务可以利用预学习的语义知识问题是：如何高效地学习这样的词向量？问题三：计算效率的瓶颈在Word2Vec之前，已有一些词向量学习方法（如神经网络语言模型NNLM），但它们面临严重的计算瓶颈： $$ \text{时间复杂度} = O(V \times H + H \times H) \times E \times T $$ ...