如今大多数医学图像分割网络只学习空间域的特征,而忽略了频域中丰富的全局信息。这篇论文提到了频域,先拓展一下空间域和频域。
空间域特征:包含了局部的纹理、边缘和形状信息。
频域特征:包含了全局的结构模式和周期性变化,提供了额外的上下文信息。
本文主要提出了两个模块,如下:
MPCA模块-多尺度渐进通道注意力
这里简单描述一下流程(字母有不对应的能看懂就行,部分数学符号懒得改了),F1和F2表示不同尺度的特征 。1、全局平均池化(GAP),得到全局特征,在经过1×1卷积层进行维度压缩和特征提取 。2、两个特征图进行通道维度上的拼接,再经过一个1x1的卷积,得到多尺度通道注意力图 ?,然后再分割出与之前F1和F2大小一样的A1和A2 。3、F1和F2分别与对应的注意力图与A1和A2进行元素级别的乘法操作,得到两个加权特征图F2再进行一次上采样,尺寸和F1一样了,然后进行元素级别的加法操作,实现特征融合。
公式展示:
FSA模块——频域-空间注意力模块
1、输入特征图 F1通过二维离散傅里叶变换, 得到频域特征图f1 。2、将f1分割成高频成分和低频成分,然后使用两个掩码Mhigh和Mlow分割频率成分,低频掩码中心是1,高频掩码中心是0。 3、这个低频成分会进行学习滤波器 ?的自适应调整,得到的结构再与高频成分融合,生产频域特征图 。 4、对融合后的频域特征图进行二维逆离散傅里叶变换,再恢复成空间域特征图。 5、将频域分支和空间分支的输出特征图进行融合。
公式展示:
整体结构——多尺度和双域特征
1、四个编码器块,得到四个尺度的特征图。 2、每一级的MPCA模块接收相邻两个尺度的特征图,进行多尺度特征融合,输出跨尺度的通道注意力特征图。 3、经过FSA模块进行频域和空间域的特征学习再与解码器融合。
实验数据集:
ISIC-2018数据集(皮肤病变) 2594张训练图像、100张验证图像、1000张测试图像。
SF-UNet生成的分割结果边界最平滑和清晰,接近于真实标签,其他网络则显示出纹理细节丢失或边界混乱的问题。
BUSI数据集(乳腺超声图像) 647张图像(437张良性肿瘤,210张恶性肿瘤) 训练集487张,验证集80张,测试集80张 。
SF-UNet的分割结果边界更准确和清晰,其他网络则存在边界缺失或过度平滑等问题。、
NKUT数据集(儿童下颌智齿胚芽3D CBCT) 133次CBCT扫描。
SF-UNet能够有效地区分MWT、SM和AB,边界清晰,其他网络则显示出缺失牙齿、模糊边界
总结一下
多尺度渐进通道注意力(MPCA)模块: 多尺度特征融合:MPCA模块通过逐步融合相邻尺度的特征图,实现了对多尺度信息的有效捕捉。 通道注意力机制:通过通道注意力机制,MPCA模块能够动态调整特征图通道的重要性,增强网络对关键特征的关注,减少冗余信息。
频域-空间注意力(FSA)模块: 频域信息处理:FSA模块将特征图转换到频域,通过2D离散傅里叶变换(2D-DFT)分离高频和低频成分,实现全局特征学习。 高频信息保留:FSA模块有效保留了图像中的高频细节和边界信息。 空间域特征学习:在频域特征处理的基础上,FSA模块进一步在空间域进行特征学习,结合两者的优势,提高了分割精度。