科学家发现AI真正理解语言的时刻
当今人工智能系统的语言能力令人惊叹。 我们现在可以与 ChatGPT、Gemini 等系统进行自然对话,其流利程度几乎与人类相当。 然而,我们对这些网络中导致如此显著结果的内部过程仍然知之甚少。 发表在《统计力学杂志:理论与实验》(JSTAT) 上的一项新研究揭示了这个谜团的一部分。 它表明当使用少量数据进行训练时,神经网络最初依赖于单词在句子中的位置。 但是,当系统接触到足够的数据时,它会根据单词的含义过渡到新的策略。 研究发现,一旦超过关键数据阈值,这种转变就会突然发生,这与物理系统中的相变非常相似。 这些发现为理解这些模型的运作提供了有价值的见解。 就像个孩子一样学习阅读,神经网络首先根据单词的位置理解句子:根据单词在句子中的位置,网络可以推断它们的关系(它们是主语、动词还是宾语? 然而,随着训练的继续 -- 网络 “继续上学” -- 发生了一个转变:词义成为信息的主要来源。 这项新研究解释说,这就是自我注意机制的简化模型——一个核心transformer 语言模型的构建块,就像我们每天使用的模型(ChatGPT、Gemini、Claude 等)。 转换器是一种神经网络架构,旨在处理数据序列(如文本),它构成了许多现代语言模型的支柱。 Transformers 擅长理解序列中的关系,并使用自我注意机制来评估每个单词相对于其他单词的重要性。 “评估单词之间的关系,”解释道哈佛大学博士后研究员、该研究的第一作者 Hugo Cui 表示,“网络可以使用两种策略,其中一种是利用单词的位置。 例如,在像英语这样的语言中,主语通常位于动词之前,而动词又位于宾语之前。 “Mary eats the apple” 是这个序列的一个简单例子。 “这是在训练网络时自然而然出现的第一个策略,”Cui 解释说。 “然而,在我们的研究中,我们观察到如果训练继续并且网络接收到足够的数据,那么在某个时间点——一旦超过阈值——策略就会突然改变:网络开始依赖意义。 “当我们设计这项工作时,我们只是想研究网络将采用哪些策略或策略组合。 但我们发现的情况有些令人惊讶:低于某个阈值时,网络完全依赖于位置,而高于该阈值时,仅依赖于意义。 Cui 将这种转变描述为相变,借用了物理学的概念。 统计物理学通过统计描述大量粒子(如原子或分子)的集体行为来研究由它们组成的系统。 同样,神经网络(这些 AI 系统的基础)由大量“节点”或神经元(类比人脑命名)组成,每个节点都连接到许多其他节点并执行简单的作。 系统的智能来自这些神经元,一种可以用统计方法描述的现象。 这就是为什么我们可以将网络行为的突然变化称为相变,类似于水在某些温度和压力条件下从液体变为气体的方式。 “从理论角度理解战略转变以这种方式发生很重要,”Cui 强调说。 “与人们每天接触的复杂模型相比,我们的网络得到了简化,但它们可以给我们提示,让我们开始了解导致模型稳定在一种或另一种策略上的条件。 这些理论知识有望在未来用于使神经网络的使用更加高效、更安全。 Hugo Cui、Freya Behrens、Florent Krzakala 和 Lenka Zdeborová 的研究题为“点积注意力可解决模型中位置学习和语义学习之间的相变”,作为机器学习 2025 的一部分发表在 JSTAT 上特刊,并收录在 NeurIPS 2024 会议的论文集中。