2026-05-14 医学图像分割论文精读:FEFormer 与 USEMA

503611908 发布于 11 小时前 12 次阅读


今日医学图像分割最新论文精读追踪

今日结论

今天检索到 2026-05-11 至 2026-05-12 arXiv 上多篇医学图像分割新稿,其中最值得关注的两篇分别代表两个趋势:一是把频域建模系统性嵌入 3D/volumetric Transformer 分割框架,二是把 Mamba-like/linear attention 的局部-全局机制嵌入 U-Net。两篇均为 2026 年 arXiv preprint,尚未确认顶会/顶刊接收;但都直接面向医学图像分割主干设计,且有完整 PDF 与实验表格,因此适合今日精读。

检索说明

检索范围覆盖 arXiv 2026-05-01 至 2026-05-14 的 medical image segmentationMamba medical image segmentationU-Net medical image segmentationvolumetric medical image segmentation 等关键词,并检查了历史定时任务输出。所有入选论文均为 2025 年及以后;今天未发现已正式标注为 MICCAI/CVPR/MedIA/TMI 等顶会顶刊接收的全新论文,因此优先选择最新且方法贡献较明确的 arXiv preprint。已检查历史推荐记录并排除了重复论文;历史已推荐并跳过的重复候选包括 Geometry-aware Prototype Learning for Cross-domain Few-shot Medical Image SegmentationXTinyU-Net: Training-Free U-Net Scaling via Initialization-Time Sensitivity

WordPress 发布

  • WordPress 文章链接:<待发布后填写>
  • WordPress Post ID:<待发布后填写>

论文 1:FEFormer: Frequency-enhanced Vision Transformer for Generic Knowledge Extraction and Adaptive Feature Fusion in Volumetric Medical Image Segmentation

基本信息

  • 标题:FEFormer: Frequency-enhanced Vision Transformer for Generic Knowledge Extraction and Adaptive Feature Fusion in Volumetric Medical Image Segmentation
  • 作者 / 第一作者:Jin Yang, Xiaobing Yu, Peijie Qiu / 第一作者 Jin Yang
  • 时间:2026-05-12
  • 来源:arXiv preprint, arXiv:2605.11434v1
  • 论文页面链接:https://arxiv.org/abs/2605.11434
  • PDF 文件 / PDF 链接:https://arxiv.org/pdf/2605.11434v1 (已下载:MEDIA:/tmp/medseg_daily_20260514/feformer.pdf)
  • 代码链接:未获取 / 未在 arXiv 页面或 PDF 正文中确认官方代码
  • 任务:3D / volumetric medical image segmentation,包括多器官、肝血管/肿瘤、脑肿瘤、腹部器官分割
  • 数据集:MICCAI 2022 AMOS CT(300 例,15 类器官)、MSD Hepatic Vessel Tumor CT(303 例,vessel/tumor)、MSD Brain Tumor multimodal MRI(484 例,ED/ET/NET)、FLARE CT(361 例,4 类腹部器官)
  • 方法类型:Transformer-based segmentation;frequency-domain attention;wavelet-based feature fusion;3D medical image segmentation framework

paper-deep-reader 精读结果

1. 一句话结论

FEFormer 的主要价值在于把 “高频边界/细节 + 低频全局结构” 这个医学分割中常被口头提到的需求,具体落到 3D Transformer block、MLP、skip fusion 与 stem bridge 四个位置,并在 4 个体积分割数据集上给出较系统的精度、HD95、复杂度和消融证据。

2. 研究背景与核心问题

论文研究 volumetric medical image segmentation:在 CT/MRI 体数据中分割器官、血管、肿瘤和脑肿瘤亚区。核心问题是:CNN/U-Net 擅长局部边界但长程上下文不足;ViT/UNETR/nnFormer/Swin-UNETR 擅长全局依赖但容易弱化高频细节,且普通 encoder-decoder 的 skip concatenation 难以处理浅层细节与深层语义之间的频率和语义错配。

paper map 可概括为:论文研究 3D 医学图像分割中的全局-局部和频域信息整合;主动作是构建 FEFormer,把 FDSA、FGMLP、WAFF、FCSB 分别插入 attention、MLP、decoder fusion 与 stem bridge;作者声称它在 AMOS、Hepatic Vessel Tumor、Brain Tumor、FLARE 上优于 VNet、nnU-Net、nnFormer、UNETR、Swin UNETR、MedNeXt、VSmTrans、MixUNETR 等;证据主要来自 5-fold cross-validation、DSC/HD95、Wilcoxon 检验、复杂度表和模块消融;关键失败风险是频域模块较多,若对照实现或训练 recipe 不完全一致,提升可能部分来自工程配置而非频域机制本身。

3. 现有方法不足

作者认为现有方法有四类不足:

  1. CNN / U-Net / nnU-Net:卷积局部性强,能捕捉边缘和纹理,但对跨器官、跨切片、全局解剖关系的长程依赖建模不足。
  2. ViT / UNETR / nnFormer 类模型:self-attention 全局聚合偏向低频语义,可能削弱边界、小结构、细管状结构等高频信息。
  3. 标准 MLP block:缺少显式空间结构保持机制,无法主动区分低频语义和高频边界。
  4. 普通 skip connection / concatenation:把 encoder 浅层特征和 decoder 深层特征直接拼接,未处理二者的语义差距和频率成分差异,可能导致融合不稳。

这套问题定义与医学图像分割较契合,尤其适用于胰腺、肾上腺、肝血管、脑肿瘤增强区等小目标、边界弱、形态变化大的结构。

4. 方法总览

路线记录:Primary adapter = method-algorithm;Secondary adapter = 无;Evidence packs = general、experimental-eval、ablation-and-mechanism-isolation、reproducibility-and-compute;Route confidence = 高。选择该路线是因为论文主要贡献是新网络结构,证据负载集中在跨数据集实验、消融和复杂度比较。

FEFormer 的整体流程如下:

  1. 输入为 3D patch,论文统一使用 96 × 96 × 96 patch。
  2. 编码器采用 hierarchical ViT 风格结构,但把标准 self-attention 替换为 Frequency-enhanced Dynamic Self-Attention(FDSA)
  3. 每个 Transformer block 中的普通 MLP 替换为 Frequency-decomposed Gating MLP(FGMLP)
  4. decoder 中的 skip fusion 不使用简单 concat,而使用 Wavelet-guided Adaptive Feature Fusion(WAFF),通过 DWT/wavelet 子带对 encoder/decoder 特征做频域对齐与融合。
  5. 在 encoder stem 与 decoder 之间加入 Frequency-enabled Cross-scale Stem Bridge(FCSB),让浅层低级细节跨尺度传递到解码侧。
  6. 训练损失为 cross-entropy loss + Dice loss,优化器 AdamW,1000 epochs,5-fold cross-validation,指标为 DSC 和 HD95。

5. 核心模块拆解

  • FDSA(Frequency-enhanced Dynamic Self-Attention):输入为 token/feature map,输出为融合局部卷积偏置和频域 attention 的特征。它先用 large-kernel depthwise convolution 引入局部结构,再通过 FFT 后的频域 attention 建模长程依赖,并用 multi-frequency dynamic mechanism 建模不同频段的重要性。解决的问题是标准 attention 对细节不敏感、对 channel/frequency 关系建模不足。创新点较明确,但工程复杂度高。

  • FGMLP(Frequency-decomposed Gating MLP):输入为 Transformer block 内特征,输出为经频率分解和 gating 后的特征。其作用是把低频全局语义与高频局部细节分别调制,而不是让 MLP 作为纯 channel mixing。它适合迁移到 Swin-UNETR、UNETR、甚至 Mamba block 后的 feed-forward 部分。

  • WAFF(Wavelet-guided Adaptive Feature Fusion):输入为 encoder skip feature 与 decoder upsampled feature,输出为频域对齐后的融合特征。DWT 把特征拆成低频和高频子带,在对应子带上做 adaptive fusion,再回到空间域。该模块对 U-Net 类结构最有迁移价值,因为它直接替代 skip concatenation,适合尝试在 U-Net、nnU-Net、TransUNet、UNetR、DAMamba decoder 中作为 feature fusion block。

  • FCSB(Frequency-enabled Cross-scale Stem Bridge):输入为浅层 stem features 和更深层/decoder features,输出为加强的低级细节传播。它尝试解决体积分割中下采样导致的细节丢失,特别是小器官、血管和边界。对 3D segmentation 更有意义;对 2D polyp segmentation 也可借鉴为 shallow feature bridge。

  • 是否适合 polyp segmentation / 3D segmentation:FEFormer 本身是 3D 体积分割框架,对 3D CT/MRI 更直接;对 polyp segmentation,最值得迁移的是 WAFF 与 FGMLP,而不是整套 3D ViT。息肉边界弱、颜色/纹理相似,高频子带与 wavelet skip fusion 可能有价值,但需要控制模型复杂度,避免在小数据集上过拟合。

6. 实验设计与结果

实验覆盖四个数据集和多种 baseline:VNet、Attention U-Net、nnU-Net、nnFormer、SegFormer、TransBTS、UNETR、Swin UNETR、UX-Net、MedNeXt、TransHRNet、VSmTrans、MixUNETR。

关键结果如下:

  • AMOS 2022 multi-organ CT:FEFormer mean DSC 90.11±10.60,mean HD95 1.78±2.04 mm,高于 nnU-Net 的 88.21±14.31 DSC 和 2.02±2.69 HD95;表中 15 个器官均报告 FEFormer 最优,且 Wilcoxon p<0.01
  • MSD Hepatic Vessel Tumor:FEFormer mean DSC 67.97±20.08,mean HD95 9.94±8.98;高于 nnU-Net 的 65.96±20.94 和 nnFormer 的 66.26±20.55。类别层面 vessel DSC 64.96,tumor DSC 70.98。
  • FLARE Abdomen Organ:FEFormer mean DSC 95.02±5.96,mean HD95 1.40±1.05;四个器官 liver/kidney/spleen/pancreas 分别为 98.65、97.25、98.42、85.74。
  • Brain Tumor:正文报告 mean DSC 74.97%、mean HD95 5.01 mm,并称 ET、ED、NET 三个亚区均取得最高 DSC,且 HD95>100mm 的 failure rate 为 0。
  • 复杂度:FEFormer 参数 18.54M、FLOPs 39.13G,低于 nnU-Net 68.38M/357.13G、nnFormer 149.33M/284.28G、VSmTrans 50.39M/358.21G;但高于极轻量 SegFormer 4.50M/5.02G。
  • 消融:plain ViT baseline 在 AMOS 上 mean DSC 84.08、HD95 2.86;加入 FDSA 后 86.32;加入 FGMLP 后 86.21;FDSA+FGMLP 为 87.56;再加 WAFF 为 88.98;完整 FEFormer 为 90.11、HD95 1.78。这个阶梯式消融支持四个模块均有贡献。

7. 实验可信度判断

可信之处:数据集覆盖 CT、MRI、多器官、肿瘤、管状结构;baseline 较全,包含 CNN、ViT、hybrid 和现代 MedNeXt/MixUNETR;报告 DSC、HD95、参数、FLOPs、5-fold cross-validation 和 Wilcoxon 检验;消融不是只删一个模块,而是逐步验证 FDSA、FGMLP、WAFF、FCSB。

需要谨慎之处:第一,论文为 arXiv preprint,未确认代码,复现门槛较高;第二,模块很多,频域 attention、frequency MLP、wavelet fusion、stem bridge 同时出现,可能带来“组合工程”而非单一机制清晰性;第三,虽然有统计检验,但未看到外部测试集或跨中心泛化实验;第四,比较是否完全复现同一训练 recipe 需要代码确认;第五,和 nnU-Net 的公平性仍需谨慎,因为 nnU-Net 通常依赖自动配置和强工程细节,而论文统一 patch/epoch 设置不一定等同于最佳 nnU-Net pipeline。

8. 与主流医学图像分割框架的关系

  • U-Net / nnU-Net:FEFormer 不是 nnU-Net recipe 改进,而是更复杂的 Transformer-style encoder-decoder。对 U-Net 最可复用的是 WAFF skip fusion 和 FCSB shallow bridge。
  • MedNeXt / CNN segmentation:论文把 MedNeXt 作为强 CNN-like baseline;FEFormer 说明频域全局建模可在复杂器官上超过大 kernel CNN,但需要进一步验证计算代价与训练稳定性。
  • UNETR / Swin-UNETR / TransUNet / TransFuse:FEFormer 属于这一谱系的 frequency-enhanced 变体,主要改 attention、MLP 和 feature fusion。若做 Transformer-based segmentation related work,应重点引用它的“frequency-aware Transformer for 3D segmentation”定位。
  • Mamba / VMamba / SegMamba / DAMamba:FEFormer 不使用 SSM/Mamba,但频域模块与 Mamba 是正交思路。对 DAMamba,可借鉴 WAFF 或 FGMLP,把 Mamba long-range modeling 与 frequency-aware skip fusion 组合。
  • Foundation model segmentation:论文不走 SAM/MedSAM 路线,也未验证 promptable/foundation model 场景;它更像专用 3D segmentation backbone。

9. 对我课题的价值

对 polyp segmentation,FEFormer 不是最直接 baseline,因为它主要是 3D volumetric 框架,参数和训练成本也高于常规 2D polyp 模型。但其 WAFF wavelet skip fusion 非常值得拆出来做轻量实验:在 U-Net、PraNet、TransFuse、DAMamba decoder 中替换 concat/add skip,观察边界 Dice、HD95、mIoU、S-measure 是否改善。对 DAMamba 改造,FEFormer 提醒我们:如果只强调 Mamba 的长程依赖,可能忽视高频边界;可以尝试“DAMamba encoder + wavelet/frequency-aware decoder fusion”。

10. 阅读建议

建议精读,但优先读方法图、FDSA/WAFF 和消融表。 若当前目标是 3D CT/MRI 多器官或肿瘤分割,可深入复现;若目标是 2D polyp segmentation,则不建议整模型复现,建议抽取 WAFF/FCSB 作为可控模块加入现有 U-Net/DAMamba 框架。


论文 2:USEMA: a Scalable Efficient Mamba Like Attention for Medical Image Segmentation

基本信息

  • 标题:USEMA: a Scalable Efficient Mamba Like Attention for Medical Image Segmentation
  • 作者 / 第一作者:Elisha Dayag, Nhat Thanh Tran, Jack Xin / 第一作者 Elisha Dayag
  • 时间:2026-05-11
  • 来源:arXiv preprint, arXiv:2605.11131v1
  • 论文页面链接:https://arxiv.org/abs/2605.11131
  • PDF 文件 / PDF 链接:https://arxiv.org/pdf/2605.11131v1 (已下载:MEDIA:/tmp/medseg_daily_20260514/usema.pdf)
  • 代码链接:未获取 / GitHub API 未检索到明确官方 USEMA 仓库
  • 任务:2D medical image segmentation;腹部 MRI 多器官、内镜手术器械、显微细胞实例分割
  • 数据集:MICCAI 2022 AMOS Abdomen MRI(60 scans/5615 slices train,50 scans/3357 slices test,13 organs)、MICCAI 2017 Endovis(1800 train,1200 test,7 类手术器械)、NeurIPS 2022 Cell Segmentation Challenge(1000 train,101 test)
  • 方法类型:U-Net hybrid architecture;Mamba-like efficient attention;local window attention + global averaging approximation;2D segmentation backbone

paper-deep-reader 精读结果

1. 一句话结论

USEMA 的价值在于给出一个比“直接把 Mamba block 塞进 U-Net”更清晰的局部-全局注意力解释:用 window attention 保持局部选择性,用全局 value 平均近似长序列 self-attention 的均匀化趋势,再通过 Mamba-like gating 放入 U-Net encoder。

2. 研究背景与核心问题

论文研究 2D 医学图像分割中如何同时捕获局部细节和全局上下文。Transformer full self-attention 有全局感受野,但复杂度为 O(n^2),在大尺寸内镜、显微或高分辨率医学图像中昂贵;Mamba/SSM 有线性复杂度,但其序列化和递归机制是否最适合医学分割仍需验证。论文的核心问题是:能否保留 attention 的局部选择性与全局信息,同时避免 full attention 的二次复杂度和长序列 attention dispersion?

paper map 可概括为:论文研究 2D medical image segmentation 中的高效全局建模;主动作是把 SEMA attention 嵌入 U-Net encoder,形成 USEMA;作者声称 USEMA 在 Abdomen MRI、Endovis、Microscopy 上优于 UNETR/SwinUNETR/nnFormer 和 U-Mamba/Mamba UNet/Swin-UMamba/MLLA-UNet;证据主要来自 3 个公开数据集的 DSC/NSD/F1 对比和去掉 global averaging 的消融;关键失败风险是实验规模和消融较少,且缺少代码、FLOPs/速度、统计显著性与更强 nnU-Net/CNN baseline。

3. 现有方法不足

作者指出两个不足:

  1. Transformer full self-attention:复杂度随 token 数二次增长;当序列很长时,softmax attention matrix 的元素趋近 1/n,注意力分数接近均匀,选择关键 token 的能力下降。论文在 UNETR + Endovis 大分辨率 patch 上可视化 attention matrix,显示分数集中在 1/seq_len 附近。
  2. Mamba / Mamba-like segmentation:Mamba 提供线性复杂度和动态权重,但其因果递归可被理解为带指数遗忘的 unnormalized attention;医学图像分割仍需要局部空间聚焦与全局上下文结合,而不是单纯长序列扫描。

因此 USEMA 试图走中间路线:局部部分用 window attention,避免分散并保持 focus;全局部分用 arithmetic average,作为长序列 full attention 近似均匀时的低成本全局项。

4. 方法总览

路线记录:Primary adapter = method-algorithm;Secondary adapter = 无;Evidence packs = general、experimental-eval、ablation-and-mechanism-isolation、reproducibility-and-compute;Route confidence = 中-高。选择该路线是因为论文贡献是网络结构和 attention 近似;但实验证据较 FEFormer 更薄。

USEMA 方法步骤如下:

  1. 从普通 U-Net 出发,保留 symmetric encoder-decoder 和 skip connection。
  2. 每个 encoder building block 包含两个 residual convolution blocks,然后接一个 SEMA block。
  3. residual block 为 convolution + instance normalization + LeakyReLU。
  4. feature 从 (B, C, H, W) reshape 为 (B, C, HW) 后进入 SEMA block。
  5. SEMA block 先加 conditional positional embedding 和 layer normalization。
  6. 特征分为两支:一支 linear + SiLU 作为 Mamba-like gating;另一支 linear + depthwise convolution 后进入 SEMA attention。
  7. SEMA attention 定义为 SEMA(Q,K,V)=A_w(Q,K,V)+broadcast(1/n Σ_j v_j):前者是 window attention,后者是全局 arithmetic averaging。
  8. 两支通过 Hadamard product 合并,再加 positional encoding 和 feed-forward network。
  9. bottleneck 处空间维度已压缩,作者使用 full self-attention;decoder 只包含 residual blocks 和 transposed convolutions,通过 concat skip 连接恢复分辨率。
  10. 使用 nnUNet framework 做预处理,训练 1000 epochs,AdamW,Dice + CE loss,deep supervision。

5. 核心模块拆解

  • Attention dispersion argument:作者引用并复述了长序列 softmax attention 在一定条件下每个元素落在 C1/nC2/n 的结论,认为长序列 full attention 会趋近均匀。这是 USEMA 选择 “window attention + global average” 的理论动机。它比单纯说 full attention 太贵更有机制性。

  • Window attention A_w:输入 Q/K/V,输出每个 token 在局部窗口内聚合的 value。它解决局部选择性问题,避免全局 softmax 在超长序列上稀释注意力。对医学分割中的边界、器械、细胞局部结构有意义。

  • Global arithmetic averaging:输入所有 value token,输出 1/n Σ v_j 并广播到所有 token。它是对长序列 full attention 均匀化趋势的低成本近似。优点是简单、线性、稳定;缺点是全局项过于粗糙,无法表达器官之间的结构化关系或远距离特定依赖。

  • Mamba-like gating branch:linear + SiLU 后与 attention branch 做 Hadamard product,类似 Mamba 的 selective gating。它让模型能够对局部-全局混合信息做动态筛选,而不只是加法融合。

  • U-Net integration:SEMA 只放在 encoder block 后;decoder 保持 residual + transposed conv。这使 USEMA 比完整 Transformer decoder 更轻,也更接近可迁移的 U-Net 插件。

  • 是否适合 polyp segmentation / 3D segmentation:对 polyp segmentation 有直接可试价值,因为它是 2D U-Net 风格,且内镜 Endovis 实验说明它能处理高分辨率 endoscopic scene;但 Endovis 是手术器械,不是息肉,边界/颜色/形态差异仍需验证。对 3D segmentation,SEMA 可扩展为 3D window attention + global average,但 memory、窗口划分和 3D positional encoding 需要重新设计。

6. 实验设计与结果

论文在三个数据集上比较 Transformer 和 Mamba 系列 baseline:UNETR、SwinUNETR、nnFormer、U-Mamba Enc、Mamba UNet、Swin-UMamba、MLLA-UNet。

关键结果:

  • AMOS Abdomen MRI 2D slice setting:USEMA DSC 0.7704、NSD 0.8345、参数 52M;略高于 U-Mamba Enc 的 0.7625/0.8327(67M),高于 Mamba UNet 0.7496/0.8178、Swin-UMamba 0.7054/0.7647、nnFormer 0.7279/0.7963。
  • Endovis 2017 instrument segmentation:USEMA DSC 0.6463、NSD 0.6621、参数 52M;高于 Swin-UMamba 0.6402/0.6547、U-Mamba Enc 0.6303/0.6451、Mamba UNet 0.6256/0.6370、nnFormer 0.6135/0.6228。
  • NeurIPS 2022 Cell Segmentation:USEMA F1 0.5791、参数 52M;高于 U-Mamba Enc 0.5607(92M)、nnFormer 0.5332、Mamba UNet 0.5215、MLLA-UNet 0.4857。
  • Ablation of global averaging:去掉 attention approximation 后,Abdomen MRI 从 0.7704/0.8345 降到 0.7574/0.8214;Endovis 从 0.6463/0.6621 降到 0.6218/0.6367;Microscopy F1 从 0.5791 降到 0.5443。该消融说明 global average 项不是装饰,确实贡献了性能。

7. 实验可信度判断

可信之处:论文的动机较清晰,有 attention dispersion 的理论/可视化支撑;数据集覆盖 MRI、内镜、显微,分辨率和任务类型多样;与多种 Transformer/Mamba baseline 比较;global average 消融直接验证核心设计。

不足之处:第一,未获取官方代码,复现性暂时有限;第二,未报告 FLOPs、吞吐、显存或训练时间,因此“efficient”主要由结构复杂度推断,证据不完整;第三,缺少统计显著性、多次运行均值方差和外部泛化;第四,baseline 中没有普通 nnU-Net/UNet++/PraNet 等强 CNN 或息肉专用模型,无法说明它一定优于强 U-Net recipe;第五,Microscopy 是 instance segmentation,但论文只报告 F1,任务适配细节不够充分;第六,性能提升相对 U-Mamba Enc 在 Abdomen MRI 上较小(0.7704 vs 0.7625),应避免过度宣传。

8. 与主流医学图像分割框架的关系

  • U-Net / nnU-Net:USEMA 是 U-Net encoder 插件化改造,预处理使用 nnUNet framework,但不是完整 nnU-Net recipe。它的 SEMA block 可作为 U-Net bottleneck/encoder block 替代模块。
  • MedNeXt / CNN segmentation:论文没有直接比较 MedNeXt。若用于严肃实验,需要补 MedNeXt 或强 CNN baseline,避免只证明比部分 Mamba/Transformer 好。
  • UNETR / Swin-UNet / TransUNet / TransFuse:USEMA 与这些方法同属 hybrid CNN-attention 分割框架,但它用 window attention + global averaging 代替 full attention,重点解决长序列复杂度和 attention dispersion。
  • Mamba / VMamba / SegMamba / DAMamba:USEMA 不是标准 SSM 扫描,而是 Mamba-like attention:借鉴 Mamba 的 gating 和指数遗忘直觉,但主体仍是 attention approximation。对 DAMamba 有直接参考意义:可以把全局平均项或局部窗口项作为 DAMamba scan 的补充,尤其用于减少序列扫描方向偏置。
  • Foundation model segmentation:与 SAM/MedSAM 无直接关系;它是专用小/中型网络路线。

9. 对我课题的价值

对 polyp segmentation 和 DAMamba,USEMA 的价值较高但需要谨慎复现。它给 DAMamba 改造提供一个清楚方向:不要只比较 CNN vs Mamba,也可以设计 local window selection + cheap global context + gating 的混合模块。对息肉分割,可在 CVC-ClinicDB、Kvasir-SEG、CVC-ColonDB、ETIS、EndoScene 上测试:把 SEMA block 放在 encoder 高层或 bottleneck,比较 U-Net、TransFuse、VM-UNet、DAMamba,并额外报告 FPS/FLOPs/Params。由于 USEMA 参数 52M,不算轻量,若用户目标是实时 polyp,应做通道缩放或只在低分辨率层使用。

10. 阅读建议

建议精读方法部分,实验部分可带着质疑读。 它的理论动机和模块设计对 DAMamba/efficient attention 很有启发;但由于缺少代码、速度指标、统计显著性和强 CNN/polyp baseline,不建议直接把它当作已充分验证的 SOTA,只建议作为可改造模块和 related work 候选。


今日推荐优先级

  1. FEFormer:更适合 3D medical image segmentation、Transformer-based segmentation、frequency-aware feature fusion 方向;实验更系统,消融更完整,适合深入读全文并拆解 WAFF/FDSA。
  2. USEMA:更适合 DAMamba / Mamba-like efficient attention / U-Net 插件改造方向;方法思想清楚,但实验证据较薄,建议作为模块启发优先于作为强 SOTA baseline。

今日 PDF 获取情况

  • 论文 1:已附 PDF / 提供 PDF 链接:MEDIA:/tmp/medseg_daily_20260514/feformer.pdf;https://arxiv.org/pdf/2605.11434v1
  • 论文 2:已附 PDF / 提供 PDF 链接:MEDIA:/tmp/medseg_daily_20260514/usema.pdf;https://arxiv.org/pdf/2605.11131v1

今日可执行建议

  1. 若你近期做 DAMamba 或 polyp segmentation,优先从 USEMA 抽取 “window attention + global average + gating” 思路,在 DAMamba bottleneck 或 encoder 高层做一个轻量替换实验,同时补充 FLOPs/FPS,避免只比较 Dice。
  2. 若你关注 边界质量和 skip fusion,从 FEFormer 复现一个简化版 WAFF:只替换 U-Net/DAMamba 的 skip concat,用 wavelet low/high-frequency 子带做融合,观察 HD95、boundary F-score、mIoU 是否改善。
  3. related work 写作中可把 FEFormer 放在 frequency-aware Transformer / 3D volumetric segmentation,把 USEMA 放在 Mamba-like efficient attention / hybrid U-Net;两者均标注为 arXiv preprint,避免写成已接收顶会/顶刊论文。
此作者没有提供个人介绍。
最后更新于 2026-05-14