架构瓶颈原则：用注意力probe估计神经网络组件提供多少句法信息

2023-02-28

信息注意力句法

预训练语言模型在各种自然语言处理任务上的惊人表现，引起了人们对其分析的兴趣。Probing是进行此类分析所采用的最普遍的方法之一。在典型的probing研究中，probing是一个插在中间层的浅层神经网络，通常是一个分类器层。其有助于探查不同层捕获的信息。使用辅助任务对probing进行训练和验证，

预训练语言模型在各种自然语言处理任务上的惊人表现，引起了人们对其分析的兴趣。Probing 是进行此类分析所采用的最普遍的方法之一。在典型的 probing 研究中，probing 是一个插在中间层的浅层神经网络，通常是一个分类器层。其有助于探查不同层捕获的信息。使用辅助任务对 probing 进行训练和验证，以发现是否捕获了此类辅助信息。

一般来讲，研究者首先冻结模型的权重，然后在模型的上下文表示的基础上训练probe，从而预测输入句子的属性，例如句法解析（其对句子结构进行分析，理清句子中词汇之间的连接规则）。不幸的是，关于如何设计此类 probe 的最佳实践仍然存在争议。

一方面，有研究者倾向于使用简单的 probe，这样就可以将 probe 与 NLP 任务区分开来；另一方面，一些人认为需要复杂的 probe 才能从表示中提取相关信息。此外，还有一些人考虑折中的方法，主张将复杂性 - 准确性帕累托曲线上的 probe 考虑在内。

本文中，来自剑桥大学、苏黎世联邦理工学院的研究者提出架构瓶颈原则 (ABP，architectural bottleneck principle) 作为构建有用 probe 的指南，并试图测量神经网络中的一个组件可以从馈送到它的表示中提取多少信息。为了估计给定组件可以提取多少信息，该研究发现 probe 应该与组件完全相同。根据这一原理，该研究通过注意力 probe 来估计有多少句法信息可用于 transformer。

论文地址：https://arxiv.org/pdf/2211.06420.pdf

举例来说，该研究假设 transformer 的注意力头是其使用句法信息的瓶颈，因为这是 transformer 中唯一可以同时访问多个 token 的组件。根据 ABP，该研究提出注意力 probe，就像注意力头一样。该 probe 回答了这样一个问题：transformer 在计算其注意力权重时可以使用多少句法信息？

结果表明，大多数（尽管不是全部）句法信息都可以通过这种简单的注意力头架构提取：英语句子平均包含 31.2 bit 的句法树结构信息，而注意力 probe 可以提取 28.0 bits 信息。更进一步，在 BERT、ALBERT 和 RoBERTa 语言模型上，一个句子的语法树大部分是可以被 probe 提取的，这表明这些模型在组成上下文表示时可以访问句法信息。然而，这些模型是否真的使用了这些信息，仍然是一个悬而未决的问题。

注意力 Probe

目前，有许多方法用来设计有效的 probe，分类原则大致包括：线性原则、最大信息原则、易提取原则，此外还包括本文提出的 ABP 原则。

可以说 ABP 将前三个原则联系起来。最重要的是，ABP 泛化了线性原则、最大信息原则，此外，ABP 还通过限制 probe 的容量来隐式控信息制提取的难易程度。

该研究重点关注 transformer 注意力机制。此前研究人员曾断言，在计算注意力权重时，transformer 会使用句法信息。此外，注意力头是 transformer 中唯一可以同时访问多个单词的组件。因此，在注意力头的背景下探索 ABP 是一个自然的起点。具体而言，根据 ABP，我们可以研究 transformer 的注意力头可以从输入表示中提取多少信息。

实验结果

对于数据，研究者使用了通用依赖（UD）树库。他们分析了四种不同类型的语言，包括巴斯克语、英语、泰米尔语和土耳其语。此外，研究者将分析重点放在未标记的依赖树上，并注意到 UD 使用特定的句法形式，这可能会对结果造成影响。

对于模型，研究者探讨了以上四种语言的多语言 BERT 以及仅支持英语的 RoBERTa 和 ALBERT。根据 ABP，他们保持 probe 的隐藏层大小与 probed 架构中的相同。最后，他们还将一个具有与 BERT 相同架构的未训练 transformer 模型作为基线。

下图 1 展示了主要结果。首先，研究者的 probe 估计大多数句法信息可以在中间层提取。其次，大量句法信息在馈入注意力头的表示中进行编码。虽然他们估计使用英语、泰米尔语和巴斯克语句子编码的信息接近 31 bits，但使用土耳其句子编码的信息约为 15 bits。研究者怀疑这是因为土耳其语在语料库中的句子最短。

研究者还发现，句子中的几乎所有句法信息都可用于考虑中的基于 transformer 的模型。例如在英语中，他们发现信息量最大的层在 BERT、RoBERTa 和 ALBERT 中的 V 系数分别为 90%、82% 和 89%，具体如下表 1 所示。这意味着这些模型可以访问一个句子中约 85% 的句法信息。不过未训练的 BERT 表示并不适合这种情况。