关于《Towards Transferable Adversarial Attacks with Centralized Perturbation》的论文笔记

发表去向

论文最终被AAAI2024接收

预备知识

YCbCr色彩空间

本论文的主要操作都基于将彩色图像RGB矩阵转换为YCrCb矩阵，并针对不同通道进行处理。YCrCb色彩空间常用于数码视频成像系统，其中的Y通道代表图像的明亮度（luma），Cb和Cb通道则反映图像的色度（chroma）信息。

00d10b652a6f6818acd38a6894f23312 — 图1. RGB与YCrCb色彩空间展示

由RGB至YCC的色彩空间转换可分为模拟信号转换和数字信号转换，在此只关注后者的转换关系。根据标准ITU-R BT.601，对应的转换公式如下：

图像DCT变换

论文的主要创新点在于将对图像的扰动施加过程转换到频率域中进行，同时作者使用了离散余弦变换（DCT）而非离散傅里叶变换（DFT）来实现此过程。与傅里叶变换相比DCT只使用了实数进行变换，一个N=8的变换矩阵图如下图所示。该矩阵是实矩阵，有正交且不对称的特性。DCT被应用于JPEG压缩编码当中，可图像视觉信息损失较少的有损压缩。

DCT的变换公式如下所示：

$s(x,u) = \alpha(u)cos(\frac{(2x+1)u\pi}{2N})$ $\alpha(u) = \begin{cases} \sqrt{1/N} & & \text{if } u = 0 \\ \sqrt{2/N} & & \text{if } u =1,2,...,N-1 \end{cases}$

对于二维离散图像矩阵，由灰度矩阵转换为频率矩阵的转换公式如下：

$T(u,v) = \sum_{x=0}^{N-1}\sum_{y=0}^{N-1}f(x,y)s(x,y,u,v)$ $s(x,y,u,v) = s_1(x,u) s_2(y,v)$

摘要总结

当前的主流对抗样本会在图像灰度矩阵上施加全局扰动，往往导致对抗样本对梯度来源模型的过拟合而降低对抗样本的可迁移性。向主要的图像目标区域加入模型相关性弱的扰动是提升对抗有效性的关键，但在空域中限制扰动范围被证明对对抗样本的迁移性提升不足。对于上述情况，论文作者提出了基于频率域的梯度扰动优化对抗样本设计，使产生的对抗扰动可以降低对来源模型的过拟合，提升对抗样本的迁移性能并可以扰动多种模型防御方法，最大限度地保留攻击有效性。

作者的主要创新点如下：

设计了基于DCT的共享频率分解算法，通过频域系数的量化处理消除多余扰动，使频率域的扰动限定在中心频率当中，从而避免对梯度源模型的过拟合。
实现了量化处理矩阵的并行优化，确保了与每一步模型预测结果的对齐。

主要方法

频率分解（Frequency Decomposition）

假定输入图像为8bit的（3，224，224）图像X，首先将RGB图像转换为YCC图像，然后对每个channel进行DCT频率变换；接着进行block化操作将图像矩阵转化为多个8*8的blocks，将（B，C，W，H）的图像转化为（B，C，W，H/64，8，8）；然后对每一个频率矩阵进行量化操作（quantization），引入量化矩阵Qs来除去多余的频率系数；最后进行blocks的合并，使输入矩阵变为原始维度，然后进行IDCT操作获取分解后的图像X。完成以上流程后即实现对图像的频率分解，对应流程图如下所示。

对于上述的量化矩阵Qs，以Y通道为例其量化处理过程如下：

$B_Y = blockify(DCT(Y))$ $B_Y^{'} = B_Y\odot Q_Y$

不同于JPEG压缩过程中的量化矩阵，本文的量化矩阵定义如下：

$Q = (q_{ij}) \subseteq \{0，1\}^{m\times m}$

Q矩阵初始化为单位向量1，在每一轮的量化过程中不重要的频率参数均被自动清楚，使得扰动主要添加在DNN预测中更加关键的区域。对于扰动矩阵$\delta_t$，通过下式的优化过程可以将其进行中心化产生新的扰动$\delta_t^{‘}$。

$\delta_t^{'} = \mathcal{K}(\delta_t;Q_t)$

上式中的$\mathcal{K}$即为频率分解和量化过程，每一轮迭代的Qt在该过程固定。

优化量化矩阵Qt

施加扰动产生对抗样本的整体流程如上图所示。在stage2中完成对Qt的更新过程。更新的主要思想是将该轮次的对抗样本输出到源模型中，通过设计的loss损失函数实现Qt的更新。更新的主要思路是利用源模型输出梯度矩阵的变换程度，矩阵Q在每一轮优化$x_t^{adv}$后应当使得模型输出真实标签置信度降低。对应的损失函数公式如下：

$\arg\max_{Q_t}\mathcal{J}(\mathcal{K}(x_t^{adv};Q_t),y)$

其中的损失$\mathcal{J}$是模型输出的交叉熵损失。作者认为Qt的更新过程一方面使Qt始终准确反映频率参数矩阵对模型预测准确性的影响；另一方面源模型的梯度矩阵在更新过程中会不断累加，从而提升泛化性能。模型算法流程如下所示。

在更新Qt的反向传播过程中，优化结果用m*m的矩阵P表示，对于YCC三通道每个通道有不同的P和相应的优化系数$0\leq r\leq 1$，对于Y，Cr，Cb分别对应为（0.9，0.05，0.05）。更新公式如下所示。

$Q = R(P;r) = \begin{cases} 1, & \text{where } P_{ij} \geq \rho \\ 0 & \text{otherwise } \end{cases}$

上式中$\rho$为相应通道矩阵的1-r分位数。此外，作者使用了直通估计器（STE）避免了二值化矩阵Qt的非连续性导致的梯度消失。

结合上述更新过程可以看出，作者在更新量化矩阵部分主要保留了Y通道的信息，而略去了大部分的Cr和Cb通道的图像信息，即认为图像的明亮度信息会对模型准确判别的影响更大，且在不同模型之间具备通用性。

实验结果

实验准备

论文使用NIPS2017的Adversarial Learning Challenge数据集，包含1000张ImageNet的图像；训练了ResNet50，VGG-19和Inception-v3作为source model；采用了不同基于梯度的FGSM类攻击方法作为基准攻击方法，包括MI、DI、TI、VMI和SI-NI-FGSM；最后作者还额外设计模型防御和对抗训练等场景验证扰动矩阵的泛化攻击鲁棒性。

攻击迁移性结果

在黑盒场景下对于ResNet、VGG和Dense等架构的模型本论文方法对生成扰动的攻击迁移性提升起到了一定的促进作用，但对于ConvNeXt和ViT架构模型，原始FGSM方法的攻击效果和相应的迁移性提升表现都不理想。

对防御方法的攻击效果

对于以JPEG和Bit-depth reduction为代表的滤波器防御方法，本文方法的攻击结果如下。

对于对抗训练的防御方法，对应结果如下。

总结

本论文提出了基于频率域的迁移攻击增强方法，搭建了完整的频率域攻击和优化流程，并在FGSM为代表的梯度攻击方法上实现了理想的攻击效果，后续可以借鉴该论文的思路进一步探索频率域的攻击手段。

Boremycin's Blog

论文笔记：《Towards Transferable Adversarial Attacks with Centralized Perturbation》