跳转至

Safety Alignment Should Be Made More Than Just a Few Tokens Deep

原文 Safety Alignment Should Be Made More Than Just a Few Tokens Deep
会议 ICLR
时间 2025
更新 2025-08-12 9:08:59
状态 Done

作者在文章中给出了三个贡献

  • 当前LLM的安全对齐主要集中在前几个token,导致模型易受攻击,若模型的初始输出标记偏离常规安全前缀(无论是偶然发生还是通过对抗性诱导),其生成内容可能会灾难性地滑向有害轨迹。

  • 提出了深度安全对齐:设计了一种数据增强方法,通过训练模型虽然有害前缀后但可以恢复到拒绝,从而构建“深度安全对齐”

  • 抗微调攻击的优化目标:设计了一种约束性微调优化目标,通过限制初始token的分布变化,使安全对齐更加持久

Safety-aligned language models的一个公认特征是它们可以有效拒绝有害指令。这些安全相应通常以一些refusal tokens (e.g., ”I cannot“, “I apologize”,”I am unable”)开头。

作者提到尽管这些严格的拒绝前缀(refusal prefix)看起来微不足道,但它们实际上在浅层安全对齐方案中发挥着重要作用。

表1: 安全模式的捷径:即使是未对齐模型,有害性比率也会在解码时预填充拒绝前缀\(s\)后降低,即\(y \sim \pi_\theta(\cdot|x, s)\)

Note

未对齐模型缺乏系统性的安全对齐训练,仅通过初始token的强制修改无法改变其后续生成分布的倾向性。论文提出的深层安全对齐(Deep Safety Alignment)正是为了解决这一问题,通过训练模型在更长的token序列中保持安全行为,从而提升整体鲁棒性。

Contribution1: 浅层安全对齐

Q1: 为什么安全对齐会呈现“浅层”的特征

  • 微调(SFT)过程中,模型被训练以模仿人类的回答,但是数据很少会存在以有害前缀开头(如: “好的,我来教你如何...”),随后变为拒绝的实例。

Note

这种训练数据的特性导致模型只学会在初始token上生成安全拒绝,而没有学习如何在有害前缀后恢复到安全状态。

  • 人类反馈强化学习(RLHF)中,模型奖励基于自身的回答,如果模型已经学会为有害指令生成拒绝前缀,那么生成有害前缀的概率就非常低了。

Note

因此,模型几乎不会因为生成有害前缀而受到惩罚,也就不会学习如何处理有害前缀后的安全恢复。这使得模型倾向于利用“安全模式捷径”(只在初始token上保持安全)。

Q2: 浅层安全对齐可能是诸多安全漏洞的根源

图1: 对齐模型与非对齐模型在有害HEx-PHI数据上的逐token KL散度。

如图1中KL散度所示,与未对齐模型相比,浅层对齐模型在生成后续有害token时的分布基本不受影响。

图2:ASR与预填充有害标记数量的关系,其中\(\hat{y} \sim \pi_{\theta}(\cdot|x, y_{\leq k})\)作用于Harmful HEx-PHI数据集。

通过将前\(k\)个token预先填充了非拒绝前缀,可以看出对齐模型生成有害内容的可能性从接近零迅速增加到\(50\%\)以上。

作者在第三节中表明,如果能够扩展安全性,从shallow到deep,那么模型就可以对这三种类型的漏洞得到改善。

Note

三种类型漏洞:

  1. 预填充攻击: 一种简单的利用方法是在推理开始时用非拒绝前缀预填充前几个token。

  2. 后缀攻击

  3. 简单随机采样攻击: 采用适当解码超参数的随机采样可能会使初始拒绝标记发生偏移,从而落入非拒绝轨迹,最终绕过这种浅层安全对齐机制。

Q3: 微调攻击可以快速破坏safety alignment

  1. 仅在几个有害数据点上进行微调就可以撤销LLM中的安全对齐

  2. 即使是良性下游数据集微调对齐的LLM也可能导致问题

微调攻击之所以能够快速破坏安全对齐,是因为安全对齐主要集中在初始token的生成分布,作者分别从交叉熵损失、梯度幅度、KL散度逐token分析

  1. 在微调过程,较高的损失表明模型在该位置的预测与目标有害回答差距较大

  2. 在微调过程,衡量微调过程中每个token位置的损失对模型参数\(\theta\)的更新贡献。较大的梯度幅度表明该token位置对模型行为的变化有更大影响

  3. 在安全基准数据集上,衡量微调模型\(\pi_\theta\)与初始对齐模型\(\pi_\text{aligned}\)在每个token位置\(t\)的生成分布差异。较高的KL散度表明微调显著改变了该位置的生成行为

可以看出微调主要影响初始token的分布,而后续token的分布变化较小。

Contribution2: 加深安全对齐

作者希望通过这些增强的数据引导模型回到拒绝相应的轨道上,即使最初生成的几个token偏离了有害前缀,但是模型后续仍然可以抑制有害内容。

接下来作者使用256个安全恢复示例\(D_H\)(使模型具有深层安全对齐)加良性数据集\(D_B\)(保证模型保持原有的效用)进行模型微调。

$$$$

图4:数据增强导致有害回答后半部分token上的有害HEx-PHI(第2.2节)KL散度增大。

微调之后的模型在所有的token上都保持的较高的KL散度,证明使用安全恢复实例微调对模型会影响到每个token上

作者提到shallow safety alignment时诸多安全漏洞的来源,因此需要验证deep safety alignment在减轻这些漏洞方面是否具有优势。

表3:Llama-2-7B-Chat初始模型(Initial)及其增强版本(Augmented)的对抗成功率(ASR)。预填充攻击采用Harmful HEx-PHI数据集进行评估(与图2相同)。针对另外两种攻击方式,ASR结果同时报告了HEx-PHI基准测试和原论文采用的评估数据集——GCG攻击对应AdvBench[29],解码参数攻击对应MaliciousInstruct[24]。所有数据以三次实验的(均值±标准差)形式呈现。

Contribution3: 约束性微调优化目标

如果最初几个输出令牌对模型的安全对齐起到决定性作用,那么通过简单的约束来确保这些初始令牌的生成分布不会显著偏离,就应该能在微调过程中保护对齐不被破坏。

\[\min_{\theta}\left\{\quad\operatorname*{\mathbb{E}}_{(x,y)\sim D}-\sum_{t=1}^{|y|}\frac{2}{\beta_t}\log\left[\sigma\left(\beta_t\log\frac{\pi_\theta(y_t|x,y_{<t})}{\pi_{\mathrm{aligned}}(y_t|x,y_{<t})}\right)\right]\right\},\]

为什么上述公式可以控制每个token位置生成分布的偏差,将微调目标函数重写为

\[\min_{\theta}\left\{\sum_{t\geq1}\mathbb{E}_{(x,y)\sim D}\left[\mathbb{1}_{\{t\leq|y|\}}\cdot\frac{2}{\beta_{t}}S\left[\beta_{t}\left(\underbrace{\log\pi_{\mathrm{aligned}}\left(y_{t}|x,y_{<t}\right)-\log\pi_{\theta}\left(y_{t}|x,y_{<t}\right)}_{=:\Delta_{t}(x,y_{<t},y_{t})}\right)\right]\right\},(4)\right.\]

Note

具体公式性质的推导暂时按下不表

作者想测试该目标能否实现两个目的: 即安全对齐适应下游数据集