科学家发现AI真正理解语言的时刻

当今人工智能系统的语言能力令人惊叹。我们现在可以与 ChatGPT、Gemini 等系统进行自然对话，其流利程度几乎与人类相当。然而，我们对这些网络中导致如此显著结果的内部过程仍然知之甚少。

发表在《统计力学杂志：理论与实验》（JSTAT）上的一项新研究揭示了这个谜团的一部分。它表明当使用少量数据进行训练时，神经网络最初依赖于单词在句子中的位置。但是，当系统接触到足够的数据时，它会根据单词的含义过渡到新的策略。研究发现，一旦超过关键数据阈值，这种转变就会突然发生，这与物理系统中的相变非常相似。这些发现为理解这些模型的运作提供了有价值的见解。

就像个孩子一样学习阅读，神经网络首先根据单词的位置理解句子：根据单词在句子中的位置，网络可以推断它们的关系（它们是主语、动词还是宾语？然而，随着训练的继续 -- 网络 “继续上学” -- 发生了一个转变：词义成为信息的主要来源。

这项新研究解释说，这就是自我注意机制的简化模型——一个核心transformer 语言模型的构建块，就像我们每天使用的模型（ChatGPT、Gemini、Claude 等）。转换器是一种神经网络架构，旨在处理数据序列（如文本），它构成了许多现代语言模型的支柱。 Transformers 擅长理解序列中的关系，并使用自我注意机制来评估每个单词相对于其他单词的重要性。

“评估单词之间的关系，”解释道哈佛大学博士后研究员、该研究的第一作者 Hugo Cui 表示，“网络可以使用两种策略，其中一种是利用单词的位置。例如，在像英语这样的语言中，主语通常位于动词之前，而动词又位于宾语之前。 “Mary eats the apple” 是这个序列的一个简单例子。

“这是在训练网络时自然而然出现的第一个策略，”Cui 解释说。 “然而，在我们的研究中，我们观察到如果训练继续并且网络接收到足够的数据，那么在某个时间点——一旦超过阈值——策略就会突然改变：网络开始依赖意义。

“当我们设计这项工作时，我们只是想研究网络将采用哪些策略或策略组合。但我们发现的情况有些令人惊讶：低于某个阈值时，网络完全依赖于位置，而高于该阈值时，仅依赖于意义。

Cui 将这种转变描述为相变，借用了物理学的概念。统计物理学通过统计描述大量粒子（如原子或分子）的集体行为来研究由它们组成的系统。同样，神经网络（这些 AI 系统的基础）由大量“节点”或神经元（类比人脑命名）组成，每个节点都连接到许多其他节点并执行简单的作。系统的智能来自这些神经元，一种可以用统计方法描述的现象。

这就是为什么我们可以将网络行为的突然变化称为相变，类似于水在某些温度和压力条件下从液体变为气体的方式。

“从理论角度理解战略转变以这种方式发生很重要，”Cui 强调说。 “与人们每天接触的复杂模型相比，我们的网络得到了简化，但它们可以给我们提示，让我们开始了解导致模型稳定在一种或另一种策略上的条件。这些理论知识有望在未来用于使神经网络的使用更加高效、更安全。

Hugo Cui、Freya Behrens、Florent Krzakala 和 Lenka Zdeborová 的研究题为“点积注意力可解决模型中位置学习和语义学习之间的相变”，作为机器学习 2025 的一部分发表在 JSTAT 上特刊，并收录在 NeurIPS 2024 会议的论文集中。

网站 Banner

热点推荐