大模型中的RepE表征工程

文章目录

Highlight

论文地址：https://arxiv.org/abs/2310.01405
表征工程（RepE）是一种借鉴认知神经科学的见解来提高人工智能系统透明度的方法。
属于AI可解释性领域，先前的可解释性相关工作主要以神经元为中心，这篇文章采用了认知神经科学中的一些观点，强调以模型中的信息表征（基本对应到模型每层的 activation）而非神经元等结构为主要研究对象，对信息表征的读取、理解、修改提出了一组基本方法，并展示了在评估和控制 LLM 的诚实性、幻觉、情感等方面的应用。
文章中提出的信息表征读取的方法：Linear Artificial Tomography（LAT，线性人工断层扫描）。所谓读取信息表征，其实就是刻画模型内中间层的高维空间的结构。理想的状态是，对于该高维空间中的大部分位置都能给出人类可理解的相应概念，但目前离这个目标还很远。

方法

与神经成像方法类似，LAT 扫描由三个关键步骤组成：（1）设计刺激和任务；（2）收集神经活动；（3）构建线性模型。

1. 设计刺激和任务

对于概念，设计如下模板：

举个例子：

"Consider the amount of truthfulness in the following answer.\n\nQuestion: {q}\nAnswer: {a}\n\nThe amount of truthfulness in the answer is"

为什么到is停止？根据大语言模型causal language model的自回归训练方式，is的embedding实际上包含了整句话前面的信息（attention信息等）；另一方面模型需要预测is后面一个token，在这样的prompt下，该位置的token一般是一个值或者代表某种程度单词。

2. 收集神经活动

通过更改模板中这部分，生成一批输入文本。每个文本喂给模型，收集模型每一层在 last token 上的 activation（原因：模型最终的输出是从 last token 上预测产生的）。
形式上，对于概念c、解码器模型M、接受模型和输入并返回所有token位置的表示的函数Rep，以及一组刺激S，这里编译了一组从-1 token位置收集的神经活动，如以下公式所示。

收集到这些 activation后，拿它们互相之间的差值做 PCA（主成分分析），取所得第一个主成分作为概念的 reading vector。

给定一些案例，例如10个正例，10个负例，构建上述刺激prompt后，得到（假设embedding的维度为d）：

正例：10 * len * d
负例：10 * len * d

注意这里每个case的len不一样长。根据下面的规则，取出is位置的token embedding，得到

正例：10 * d
负例：10 * d

将上述case随机作差得到k * d个差向量，对k * d进行主成分分析，得到主成分的基向量1 * d。

为什么要作差并找到主成分向量？目的是得到正负例的一个方向，通俗来说是找到一个决策标准。

3. 构建线性模型

有了特定概念例如“真实性”的 reading vector，对于以后的任意输入，都可以计算模型的activation在reading vector上的投影大小来评估模型的输出的“真实性”。

真实性

LLM真不会还是在撒谎？能力失误和不诚实？

为了提取诚实的基本功能，作者按照上述描述的 LAT 设置，使用真实性判断的数据集中的真实语句来创建刺激。为了提高所需的神经活动的可分离性并方便提取，设计了 LAT 的刺激集，其中包括不诚实的参考任务和诚实的实验任务。具体来说，作者用下面的任务模板来表明模型诚实或不诚实。
在这种设置下，所得到的 LAT 阅读向量在区分模型被表明为诚实或不诚实的被保留样本时，分类准确率超过 90%。这表明了强大的分布内泛化能力。
对Vicuna-33B-Uncensored模型进行了时间LAT扫描，以分辨出说真话的情况（如承认抄袭他人作业）和说谎的情况（如否认杀人）。这些扫描提供了层级分辨率，每个微小区块都显示了特定token bits置层内不诚实神经活动的程度。右图突出显示了较高水平的欺骗性神经活动。

传统Fewshot问答基准的正确性

一个真实的模型应该对问题给出准确的答案。作者通过在标准基准上执行 LAT 扫描，从 LLaMA-2 模型中提取真实性概念。一些问题侧重于事实性，而另一些问题则基于推理或从段落中提取信息。
从few-shot几个样本中随机抽取问题-答案对作为刺激，在所有五个数据集上，LAT 的表现都明显优于 few-shot 基线，这表明 LAT 能够有效地从模型内部表示中提取出符合正确性的方向，同时比 few-shot 输出更加准确。

操纵LLM

利用RepE的方法，首先设计正例与负例，接着通过二者representation做差得到差向量，维度为[n_samples, llm_dim]，接着使用PCA方法得到降维方向的基向量[llm_dim]。在实际测试时将降维得到的基向量融合进入原有模型中。

RepE的缺陷

性能与刺激prompt的设计高度相关，找到一个质量高的prompt是关键。
prompt取最后一个位置的token来做主成分分析对简单的分类任务是ok的，但是对于评价整个句子的某些指标，是存在问题的。
- 例如评价流畅性，是ok的，但是对于评价句子的逻辑性/事实性，则存在问题，逻辑上存在漏洞。一个结论的生成需要考虑推理连续性，即中间步骤不能瞎说。
- 文章中利用reading vector（主成分向量）对句子的每一个token独立做评估，得到类似于下面的结果。但在实际测试中，并不与论文观点一致，论文中的case是特地挑选过的，这部分还有很大的提升空间。
- 因此在我们reliability的评估中，需要考虑到token的条件依赖。