0%

论文笔记:SARATRX

关于《SARATR-X: Towards Building A Foundation Model for SAR Target Recognition》的论文笔记

发表去向

论文最终被TIP2025接收

主要内容

论文摘要总结

论文从SAR-ATR任务的基座模型(foundation models,FMs)缺失这一现状出发,提出了融合现有光学图像模型(HiViT),加入针对SAR图像任务优化的pre-train方法,通过无标签的自监督学习方式(self supervise learning,SSL)实现了较为理想的ATR性能。文中的ATR任务包括了SAR图像分类和SAR目标检测两大主流任务。此外,论文的另一主要贡献是整理了当前主流的SAR分类和检测数据集来作为基座模型SSL训练的预训练数据集(预训练过程不加入标签),并进行了大量的实验验证了多个主流模型的相应性能。

个人理解的论文不足之处在于没有对模型本身有任何创新,大部分的贡献在于光学光学前沿方法的调研、整合和针对SAR图像downstream任务的微调。

在模型规模仍与光学基座大模型有较大差距,模型微调过程中SAR训练数据量明显不足等问题外,该论文仍然是SAR基座大模型的第一篇相关研究,同时也成功实现了通过一个模型解决分类和检测两个SAR-ATR任务。

pre-train方法

自监督学习

设计针对SAR图像的SSL方法的难度要比针对光学图像更高,主要的原因是SAR图像成像过程中会受到斑点噪声(speckle noise)的影响,该噪声会导致图像中纹理和边缘信息的失真;此外SAR图像的语义信息也远不及光学图像丰富和独立。因此,作者提出SAR图像的SSL预训练的首要任务是提高图像质量。

此外,针对ViT模型,做作者使用MIM(Masked Image Modeling)作为SSL方法。MIM通过对输入图像进行部分遮掩(mask),要求模型从未遮掩的部分中学习和推断被遮掩部分的信息,以此捕获图像的深层特征。MIM中模型被要求重建的内容被称为目标特征(Target Features),可以设置为原始的输入图像像素值,也可根据下游任务的特点与属性设置更高级特征。引导信号(Guided Signal)由目标特征生成,用于指导模型优化。

在MIM中引导信号的选择上以往的论文已经由较为充分的研究和比较,主要的目标特征包括了CannyEdge、HOG、Haar-like,SAR-HOG和SAR-SIFT。本文作者则在以往工作SAR-JEPA的基础上,选择了较为简单的MGFs(Mutil-scale Gradient Features)来抑制斑点噪声与提取目标信息。

由于SAR的成像机理,图像中的目标会包含乘性散点噪声(multiplicative speckle noise),导致目标,尤其是金属目标,周围会出现不同方向的强弱间纹理。因此,在特定区域中施加梯度比率(gradient ratio)可以提升模型的稳定性。

数据集准备

对于预训练过程,作者进行实验对比了只使用SAR数据集进行预训练与在光学大规模数据集开源数据集ImageNet上预训练后的权重基础之上在基于SAR数据集进行预训练两种情况。实验表明后者会有更好的表现。鉴于作者选用的基础模型为Transformer架构,使用ImageNet(包含约140万张图像,场景和类别相较于作者构建的SAR图像数据集都更加丰富)预训练权重来初始化可以实现注意力head分布更加分散,使模型的bottom layer学习的到信息更加多元并避免SAR图像中的斑点噪声对模型早期训练的影响。

36b1b01fea8e48a46797142bca56c208

论文中列举的SAR数据集

MGF方法说明

34f876795c0d2fb37da23878d995cb6f

论文二阶段预训练示意图

论文中采用的MGF方式是独立的数字图像处理方法,与HiViT模型没有任何关系,只挖掘了SAR图像中的信息。其中 $G_{mi}$ 之间的区别是对应的scale-kernel的大小 $\tau$ 不同,分别为9,13,17。从图中最左侧可以看出,选取 $M_i(1)$ 会提取横向信息;选取 $M_i(3)$ 会提取纵向信息,同理2,4会提取不同对角线方向的信息。M下标值只是说明从图像的不同起点构建卷积核。通过输入图像和4张固定的卷积核就能够获取图像中的梯度信息(不是图像在模型中的梯度信息!)

假定输入的图像为单通道图像且进行填零操作,对于整个图像矩阵(不放设为m*n)而言,每个像素点坐标(a,b)都有对应的 $M_i(j)$ ,因此矩阵R、G大小均为均为m*n。

即便MGF的思想和方法出现时间较早,其仍在论文中实现了满意的效果。

部分实验结果

这里主要关注实验中的分类任务结果。对于分类任务,论文作者进行了1-shot,2-shot和5-shot等小样本实验,同时进行了SOC和EOC等操作来验证模型的泛化性能。

论文中列举的SAR数据集
实验结果1
论文二阶段预训练示意图
实验结果2

实验结果显示文中的FM已经有了较好的SAR图像分类泛化性能