当人工智能停止阅读并开始理解时
当今人工智能系统的语言能力令人惊叹。 我们现在可以与 ChatGPT、Gemini 等系统进行自然对话,其流畅程度几乎可以与人类相媲美。 然而,我们对这些网络中导致如此显着结果的内部过程仍然知之甚少。 发表在统计力学杂志:理论与实验(JSTAT)上的一项新研究揭示了这个谜团的一部分。 它表明当使用少量数据进行训练时,神经网络最初依赖于单词在句子中的位置。 然而,当系统接触到足够的数据时,它会根据单词的含义过渡到新的策略。 研究发现,一旦超过关键数据阈值,这种转变就会突然发生——就像物理系统中的相变一样。 这些发现为理解这些模型的工作原理提供了宝贵的见解。 就像一个孩子学习阅读,神经网络首先根据单词的位置来理解句子:根据单词在句子中的位置,网络可以推断出它们的关系(它们是主语、动词、宾语? 然而,随着培训的继续——网络“继续上学”——发生了转变:词义成为信息的主要来源。 这项新研究解释说,这就是在自我注意力机制的简化模型中发生的事情——一个核心transformer 语言模型的构建块,就像我们每天使用的模型(ChatGPT、Gemini、Claude 等)。 转换器是一种神经网络架构,旨在处理数据序列,例如文本,它构成了许多现代语言模型的支柱。 Transformer 专注于理解序列中的关系,并使用自注意力机制来评估每个单词相对于其他单词的重要性。 “评估单词之间的关系,”解释道哈佛大学博士后研究员、该研究的第一作者Hugo Cui表示,“网络可以使用两种策略,其中一种是利用词语的位置。 例如,在英语这样的语言中,主语通常位于动词之前,而动词又位于宾语之前。 “玛丽吃苹果”就是这个序列的一个简单例子。 “这是网络训练时自发出现的第一个策略,”崔解释道。 “然而,在我们的研究中,我们观察到如果训练继续进行并且网络接收到足够的数据,那么在某个点——一旦超过阈值——策略就会突然转变:网络开始依赖意义。 “当我们设计这项工作时,我们只是想研究网络将采用哪些策略或策略组合。 但我们发现的有点令人惊讶:低于某个阈值,网络完全依赖于位置,而高于某个阈值,则仅依赖于意义。 Cui 将这种转变描述为相变,借用物理学的概念。 统计物理学通过统计描述它们的集体行为来研究由大量粒子(如原子或分子)组成的系统。 同样,神经网络——这些人工智能系统的基础——由大量“节点”或神经元(类比人脑命名)组成,每个节点都连接到许多其他节点并执行简单的作。 系统的智能来自这些相互作用神经元,一种可以用统计方法描述的现象。 这就是为什么我们可以将网络行为的突然变化称为相变,类似于水在某些温度和压力条件下从液体转变为气体。 “从理论角度理解战略转变以这种方式发生很重要,”崔强调。 “与人们日常互动的复杂模型相比,我们的网络被简化了,但他们可以为我们提供提示,让我们开始了解导致模型在一种或另一种策略上稳定下来的条件。 这些理论知识有望在未来用于使神经网络的使用更加高效和安全。 Hugo Cui、Freya Behrens、Florent Krzakala 和 Lenka Zdeborová 的研究题为“点积注意力可解模型中位置学习和语义学习之间的相变”,作为机器学习 2025 的一部分发表在 JSTAT 上特刊,并收录在 NeurIPS 2024 会议论文集中。