今日医学图像分割最新论文精读追踪

今日结论

今天检索到 2026-05-11 至 2026-05-12 arXiv 上多篇医学图像分割新稿，其中最值得关注的两篇分别代表两个趋势：一是把频域建模系统性嵌入 3D/volumetric Transformer 分割框架，二是把 Mamba-like/linear attention 的局部-全局机制嵌入 U-Net。两篇均为 2026 年 arXiv preprint，尚未确认顶会/顶刊接收；但都直接面向医学图像分割主干设计，且有完整 PDF 与实验表格，因此适合今日精读。

检索说明

检索范围覆盖 arXiv 2026-05-01 至 2026-05-14 的 medical image segmentation、Mamba medical image segmentation、U-Net medical image segmentation、volumetric medical image segmentation 等关键词，并检查了历史定时任务输出。所有入选论文均为 2025 年及以后；今天未发现已正式标注为 MICCAI/CVPR/MedIA/TMI 等顶会顶刊接收的全新论文，因此优先选择最新且方法贡献较明确的 arXiv preprint。已检查历史推荐记录并排除了重复论文；历史已推荐并跳过的重复候选包括 Geometry-aware Prototype Learning for Cross-domain Few-shot Medical Image Segmentation 与 XTinyU-Net: Training-Free U-Net Scaling via Initialization-Time Sensitivity。

WordPress 发布

WordPress 文章链接：<待发布后填写>
WordPress Post ID：<待发布后填写>

论文 1：FEFormer: Frequency-enhanced Vision Transformer for Generic Knowledge Extraction and Adaptive Feature Fusion in Volumetric Medical Image Segmentation

基本信息

标题：FEFormer: Frequency-enhanced Vision Transformer for Generic Knowledge Extraction and Adaptive Feature Fusion in Volumetric Medical Image Segmentation
作者 / 第一作者：Jin Yang, Xiaobing Yu, Peijie Qiu / 第一作者 Jin Yang
时间：2026-05-12
来源：arXiv preprint, arXiv:2605.11434v1
论文页面链接：https://arxiv.org/abs/2605.11434
PDF 文件 / PDF 链接：https://arxiv.org/pdf/2605.11434v1 （已下载：MEDIA:/tmp/medseg_daily_20260514/feformer.pdf）
代码链接：未获取 / 未在 arXiv 页面或 PDF 正文中确认官方代码
任务：3D / volumetric medical image segmentation，包括多器官、肝血管/肿瘤、脑肿瘤、腹部器官分割
数据集：MICCAI 2022 AMOS CT（300 例，15 类器官）、MSD Hepatic Vessel Tumor CT（303 例，vessel/tumor）、MSD Brain Tumor multimodal MRI（484 例，ED/ET/NET）、FLARE CT（361 例，4 类腹部器官）
方法类型：Transformer-based segmentation；frequency-domain attention；wavelet-based feature fusion；3D medical image segmentation framework

paper-deep-reader 精读结果

1. 一句话结论

FEFormer 的主要价值在于把 “高频边界/细节 + 低频全局结构” 这个医学分割中常被口头提到的需求，具体落到 3D Transformer block、MLP、skip fusion 与 stem bridge 四个位置，并在 4 个体积分割数据集上给出较系统的精度、HD95、复杂度和消融证据。

2. 研究背景与核心问题

论文研究 volumetric medical image segmentation：在 CT/MRI 体数据中分割器官、血管、肿瘤和脑肿瘤亚区。核心问题是：CNN/U-Net 擅长局部边界但长程上下文不足；ViT/UNETR/nnFormer/Swin-UNETR 擅长全局依赖但容易弱化高频细节，且普通 encoder-decoder 的 skip concatenation 难以处理浅层细节与深层语义之间的频率和语义错配。

paper map 可概括为：论文研究 3D 医学图像分割中的全局-局部和频域信息整合；主动作是构建 FEFormer，把 FDSA、FGMLP、WAFF、FCSB 分别插入 attention、MLP、decoder fusion 与 stem bridge；作者声称它在 AMOS、Hepatic Vessel Tumor、Brain Tumor、FLARE 上优于 VNet、nnU-Net、nnFormer、UNETR、Swin UNETR、MedNeXt、VSmTrans、MixUNETR 等；证据主要来自 5-fold cross-validation、DSC/HD95、Wilcoxon 检验、复杂度表和模块消融；关键失败风险是频域模块较多，若对照实现或训练 recipe 不完全一致，提升可能部分来自工程配置而非频域机制本身。

3. 现有方法不足

作者认为现有方法有四类不足：

CNN / U-Net / nnU-Net：卷积局部性强，能捕捉边缘和纹理，但对跨器官、跨切片、全局解剖关系的长程依赖建模不足。
ViT / UNETR / nnFormer 类模型：self-attention 全局聚合偏向低频语义，可能削弱边界、小结构、细管状结构等高频信息。
标准 MLP block：缺少显式空间结构保持机制，无法主动区分低频语义和高频边界。
普通 skip connection / concatenation：把 encoder 浅层特征和 decoder 深层特征直接拼接，未处理二者的语义差距和频率成分差异，可能导致融合不稳。

这套问题定义与医学图像分割较契合，尤其适用于胰腺、肾上腺、肝血管、脑肿瘤增强区等小目标、边界弱、形态变化大的结构。

4. 方法总览

路线记录：Primary adapter = method-algorithm；Secondary adapter = 无；Evidence packs = general、experimental-eval、ablation-and-mechanism-isolation、reproducibility-and-compute；Route confidence = 高。选择该路线是因为论文主要贡献是新网络结构，证据负载集中在跨数据集实验、消融和复杂度比较。

FEFormer 的整体流程如下：

输入为 3D patch，论文统一使用 96 × 96 × 96 patch。
编码器采用 hierarchical ViT 风格结构，但把标准 self-attention 替换为 Frequency-enhanced Dynamic Self-Attention（FDSA）。
每个 Transformer block 中的普通 MLP 替换为 Frequency-decomposed Gating MLP（FGMLP）。
decoder 中的 skip fusion 不使用简单 concat，而使用 Wavelet-guided Adaptive Feature Fusion（WAFF），通过 DWT/wavelet 子带对 encoder/decoder 特征做频域对齐与融合。
在 encoder stem 与 decoder 之间加入 Frequency-enabled Cross-scale Stem Bridge（FCSB），让浅层低级细节跨尺度传递到解码侧。
训练损失为 cross-entropy loss + Dice loss，优化器 AdamW，1000 epochs，5-fold cross-validation，指标为 DSC 和 HD95。

5. 核心模块拆解

FDSA（Frequency-enhanced Dynamic Self-Attention）：输入为 token/feature map，输出为融合局部卷积偏置和频域 attention 的特征。它先用 large-kernel depthwise convolution 引入局部结构，再通过 FFT 后的频域 attention 建模长程依赖，并用 multi-frequency dynamic mechanism 建模不同频段的重要性。解决的问题是标准 attention 对细节不敏感、对 channel/frequency 关系建模不足。创新点较明确，但工程复杂度高。
FGMLP（Frequency-decomposed Gating MLP）：输入为 Transformer block 内特征，输出为经频率分解和 gating 后的特征。其作用是把低频全局语义与高频局部细节分别调制，而不是让 MLP 作为纯 channel mixing。它适合迁移到 Swin-UNETR、UNETR、甚至 Mamba block 后的 feed-forward 部分。
WAFF（Wavelet-guided Adaptive Feature Fusion）：输入为 encoder skip feature 与 decoder upsampled feature，输出为频域对齐后的融合特征。DWT 把特征拆成低频和高频子带，在对应子带上做 adaptive fusion，再回到空间域。该模块对 U-Net 类结构最有迁移价值，因为它直接替代 skip concatenation，适合尝试在 U-Net、nnU-Net、TransUNet、UNetR、DAMamba decoder 中作为 feature fusion block。
FCSB（Frequency-enabled Cross-scale Stem Bridge）：输入为浅层 stem features 和更深层/decoder features，输出为加强的低级细节传播。它尝试解决体积分割中下采样导致的细节丢失，特别是小器官、血管和边界。对 3D segmentation 更有意义；对 2D polyp segmentation 也可借鉴为 shallow feature bridge。
是否适合 polyp segmentation / 3D segmentation：FEFormer 本身是 3D 体积分割框架，对 3D CT/MRI 更直接；对 polyp segmentation，最值得迁移的是 WAFF 与 FGMLP，而不是整套 3D ViT。息肉边界弱、颜色/纹理相似，高频子带与 wavelet skip fusion 可能有价值，但需要控制模型复杂度，避免在小数据集上过拟合。

6. 实验设计与结果

实验覆盖四个数据集和多种 baseline：VNet、Attention U-Net、nnU-Net、nnFormer、SegFormer、TransBTS、UNETR、Swin UNETR、UX-Net、MedNeXt、TransHRNet、VSmTrans、MixUNETR。

关键结果如下：

AMOS 2022 multi-organ CT：FEFormer mean DSC 90.11±10.60，mean HD95 1.78±2.04 mm，高于 nnU-Net 的 88.21±14.31 DSC 和 2.02±2.69 HD95；表中 15 个器官均报告 FEFormer 最优，且 Wilcoxon p<0.01。
MSD Hepatic Vessel Tumor：FEFormer mean DSC 67.97±20.08，mean HD95 9.94±8.98；高于 nnU-Net 的 65.96±20.94 和 nnFormer 的 66.26±20.55。类别层面 vessel DSC 64.96，tumor DSC 70.98。
FLARE Abdomen Organ：FEFormer mean DSC 95.02±5.96，mean HD95 1.40±1.05；四个器官 liver/kidney/spleen/pancreas 分别为 98.65、97.25、98.42、85.74。
Brain Tumor：正文报告 mean DSC 74.97%、mean HD95 5.01 mm，并称 ET、ED、NET 三个亚区均取得最高 DSC，且 HD95>100mm 的 failure rate 为 0。
复杂度：FEFormer 参数 18.54M、FLOPs 39.13G，低于 nnU-Net 68.38M/357.13G、nnFormer 149.33M/284.28G、VSmTrans 50.39M/358.21G；但高于极轻量 SegFormer 4.50M/5.02G。
消融：plain ViT baseline 在 AMOS 上 mean DSC 84.08、HD95 2.86；加入 FDSA 后 86.32；加入 FGMLP 后 86.21；FDSA+FGMLP 为 87.56；再加 WAFF 为 88.98；完整 FEFormer 为 90.11、HD95 1.78。这个阶梯式消融支持四个模块均有贡献。

7. 实验可信度判断

可信之处：数据集覆盖 CT、MRI、多器官、肿瘤、管状结构；baseline 较全，包含 CNN、ViT、hybrid 和现代 MedNeXt/MixUNETR；报告 DSC、HD95、参数、FLOPs、5-fold cross-validation 和 Wilcoxon 检验；消融不是只删一个模块，而是逐步验证 FDSA、FGMLP、WAFF、FCSB。

需要谨慎之处：第一，论文为 arXiv preprint，未确认代码，复现门槛较高；第二，模块很多，频域 attention、frequency MLP、wavelet fusion、stem bridge 同时出现，可能带来“组合工程”而非单一机制清晰性；第三，虽然有统计检验，但未看到外部测试集或跨中心泛化实验；第四，比较是否完全复现同一训练 recipe 需要代码确认；第五，和 nnU-Net 的公平性仍需谨慎，因为 nnU-Net 通常依赖自动配置和强工程细节，而论文统一 patch/epoch 设置不一定等同于最佳 nnU-Net pipeline。

8. 与主流医学图像分割框架的关系

U-Net / nnU-Net：FEFormer 不是 nnU-Net recipe 改进，而是更复杂的 Transformer-style encoder-decoder。对 U-Net 最可复用的是 WAFF skip fusion 和 FCSB shallow bridge。
MedNeXt / CNN segmentation：论文把 MedNeXt 作为强 CNN-like baseline；FEFormer 说明频域全局建模可在复杂器官上超过大 kernel CNN，但需要进一步验证计算代价与训练稳定性。
UNETR / Swin-UNETR / TransUNet / TransFuse：FEFormer 属于这一谱系的 frequency-enhanced 变体，主要改 attention、MLP 和 feature fusion。若做 Transformer-based segmentation related work，应重点引用它的“frequency-aware Transformer for 3D segmentation”定位。
Mamba / VMamba / SegMamba / DAMamba：FEFormer 不使用 SSM/Mamba，但频域模块与 Mamba 是正交思路。对 DAMamba，可借鉴 WAFF 或 FGMLP，把 Mamba long-range modeling 与 frequency-aware skip fusion 组合。
Foundation model segmentation：论文不走 SAM/MedSAM 路线，也未验证 promptable/foundation model 场景；它更像专用 3D segmentation backbone。

9. 对我课题的价值

对 polyp segmentation，FEFormer 不是最直接 baseline，因为它主要是 3D volumetric 框架，参数和训练成本也高于常规 2D polyp 模型。但其 WAFF wavelet skip fusion 非常值得拆出来做轻量实验：在 U-Net、PraNet、TransFuse、DAMamba decoder 中替换 concat/add skip，观察边界 Dice、HD95、mIoU、S-measure 是否改善。对 DAMamba 改造，FEFormer 提醒我们：如果只强调 Mamba 的长程依赖，可能忽视高频边界；可以尝试“DAMamba encoder + wavelet/frequency-aware decoder fusion”。

10. 阅读建议

建议精读，但优先读方法图、FDSA/WAFF 和消融表。 若当前目标是 3D CT/MRI 多器官或肿瘤分割，可深入复现；若目标是 2D polyp segmentation，则不建议整模型复现，建议抽取 WAFF/FCSB 作为可控模块加入现有 U-Net/DAMamba 框架。

论文 2：USEMA: a Scalable Efficient Mamba Like Attention for Medical Image Segmentation

基本信息

标题：USEMA: a Scalable Efficient Mamba Like Attention for Medical Image Segmentation
作者 / 第一作者：Elisha Dayag, Nhat Thanh Tran, Jack Xin / 第一作者 Elisha Dayag
时间：2026-05-11
来源：arXiv preprint, arXiv:2605.11131v1
论文页面链接：https://arxiv.org/abs/2605.11131
PDF 文件 / PDF 链接：https://arxiv.org/pdf/2605.11131v1 （已下载：MEDIA:/tmp/medseg_daily_20260514/usema.pdf）
代码链接：未获取 / GitHub API 未检索到明确官方 USEMA 仓库
任务：2D medical image segmentation；腹部 MRI 多器官、内镜手术器械、显微细胞实例分割
数据集：MICCAI 2022 AMOS Abdomen MRI（60 scans/5615 slices train，50 scans/3357 slices test，13 organs）、MICCAI 2017 Endovis（1800 train，1200 test，7 类手术器械）、NeurIPS 2022 Cell Segmentation Challenge（1000 train，101 test）
方法类型：U-Net hybrid architecture；Mamba-like efficient attention；local window attention + global averaging approximation；2D segmentation backbone

paper-deep-reader 精读结果

1. 一句话结论

USEMA 的价值在于给出一个比“直接把 Mamba block 塞进 U-Net”更清晰的局部-全局注意力解释：用 window attention 保持局部选择性，用全局 value 平均近似长序列 self-attention 的均匀化趋势，再通过 Mamba-like gating 放入 U-Net encoder。

2. 研究背景与核心问题

论文研究 2D 医学图像分割中如何同时捕获局部细节和全局上下文。Transformer full self-attention 有全局感受野，但复杂度为 O(n^2)，在大尺寸内镜、显微或高分辨率医学图像中昂贵；Mamba/SSM 有线性复杂度，但其序列化和递归机制是否最适合医学分割仍需验证。论文的核心问题是：能否保留 attention 的局部选择性与全局信息，同时避免 full attention 的二次复杂度和长序列 attention dispersion？

paper map 可概括为：论文研究 2D medical image segmentation 中的高效全局建模；主动作是把 SEMA attention 嵌入 U-Net encoder，形成 USEMA；作者声称 USEMA 在 Abdomen MRI、Endovis、Microscopy 上优于 UNETR/SwinUNETR/nnFormer 和 U-Mamba/Mamba UNet/Swin-UMamba/MLLA-UNet；证据主要来自 3 个公开数据集的 DSC/NSD/F1 对比和去掉 global averaging 的消融；关键失败风险是实验规模和消融较少，且缺少代码、FLOPs/速度、统计显著性与更强 nnU-Net/CNN baseline。

3. 现有方法不足

作者指出两个不足：

Transformer full self-attention：复杂度随 token 数二次增长；当序列很长时，softmax attention matrix 的元素趋近 1/n，注意力分数接近均匀，选择关键 token 的能力下降。论文在 UNETR + Endovis 大分辨率 patch 上可视化 attention matrix，显示分数集中在 1/seq_len 附近。
Mamba / Mamba-like segmentation：Mamba 提供线性复杂度和动态权重，但其因果递归可被理解为带指数遗忘的 unnormalized attention；医学图像分割仍需要局部空间聚焦与全局上下文结合，而不是单纯长序列扫描。

因此 USEMA 试图走中间路线：局部部分用 window attention，避免分散并保持 focus；全局部分用 arithmetic average，作为长序列 full attention 近似均匀时的低成本全局项。

4. 方法总览

路线记录：Primary adapter = method-algorithm；Secondary adapter = 无；Evidence packs = general、experimental-eval、ablation-and-mechanism-isolation、reproducibility-and-compute；Route confidence = 中-高。选择该路线是因为论文贡献是网络结构和 attention 近似；但实验证据较 FEFormer 更薄。

USEMA 方法步骤如下：

从普通 U-Net 出发，保留 symmetric encoder-decoder 和 skip connection。
每个 encoder building block 包含两个 residual convolution blocks，然后接一个 SEMA block。
residual block 为 convolution + instance normalization + LeakyReLU。
feature 从 (B, C, H, W) reshape 为 (B, C, HW) 后进入 SEMA block。
SEMA block 先加 conditional positional embedding 和 layer normalization。
特征分为两支：一支 linear + SiLU 作为 Mamba-like gating；另一支 linear + depthwise convolution 后进入 SEMA attention。
SEMA attention 定义为 SEMA(Q,K,V)=A_w(Q,K,V)+broadcast(1/n Σ_j v_j)：前者是 window attention，后者是全局 arithmetic averaging。
两支通过 Hadamard product 合并，再加 positional encoding 和 feed-forward network。
bottleneck 处空间维度已压缩，作者使用 full self-attention；decoder 只包含 residual blocks 和 transposed convolutions，通过 concat skip 连接恢复分辨率。
使用 nnUNet framework 做预处理，训练 1000 epochs，AdamW，Dice + CE loss，deep supervision。

5. 核心模块拆解

Attention dispersion argument：作者引用并复述了长序列 softmax attention 在一定条件下每个元素落在 C1/n 到 C2/n 的结论，认为长序列 full attention 会趋近均匀。这是 USEMA 选择 “window attention + global average” 的理论动机。它比单纯说 full attention 太贵更有机制性。
Window attention A_w：输入 Q/K/V，输出每个 token 在局部窗口内聚合的 value。它解决局部选择性问题，避免全局 softmax 在超长序列上稀释注意力。对医学分割中的边界、器械、细胞局部结构有意义。
Global arithmetic averaging：输入所有 value token，输出 1/n Σ v_j 并广播到所有 token。它是对长序列 full attention 均匀化趋势的低成本近似。优点是简单、线性、稳定；缺点是全局项过于粗糙，无法表达器官之间的结构化关系或远距离特定依赖。
Mamba-like gating branch：linear + SiLU 后与 attention branch 做 Hadamard product，类似 Mamba 的 selective gating。它让模型能够对局部-全局混合信息做动态筛选，而不只是加法融合。
U-Net integration：SEMA 只放在 encoder block 后；decoder 保持 residual + transposed conv。这使 USEMA 比完整 Transformer decoder 更轻，也更接近可迁移的 U-Net 插件。
是否适合 polyp segmentation / 3D segmentation：对 polyp segmentation 有直接可试价值，因为它是 2D U-Net 风格，且内镜 Endovis 实验说明它能处理高分辨率 endoscopic scene；但 Endovis 是手术器械，不是息肉，边界/颜色/形态差异仍需验证。对 3D segmentation，SEMA 可扩展为 3D window attention + global average，但 memory、窗口划分和 3D positional encoding 需要重新设计。

6. 实验设计与结果

论文在三个数据集上比较 Transformer 和 Mamba 系列 baseline：UNETR、SwinUNETR、nnFormer、U-Mamba Enc、Mamba UNet、Swin-UMamba、MLLA-UNet。

关键结果：

AMOS Abdomen MRI 2D slice setting：USEMA DSC 0.7704、NSD 0.8345、参数 52M；略高于 U-Mamba Enc 的 0.7625/0.8327（67M），高于 Mamba UNet 0.7496/0.8178、Swin-UMamba 0.7054/0.7647、nnFormer 0.7279/0.7963。
Endovis 2017 instrument segmentation：USEMA DSC 0.6463、NSD 0.6621、参数 52M；高于 Swin-UMamba 0.6402/0.6547、U-Mamba Enc 0.6303/0.6451、Mamba UNet 0.6256/0.6370、nnFormer 0.6135/0.6228。
NeurIPS 2022 Cell Segmentation：USEMA F1 0.5791、参数 52M；高于 U-Mamba Enc 0.5607（92M）、nnFormer 0.5332、Mamba UNet 0.5215、MLLA-UNet 0.4857。
Ablation of global averaging：去掉 attention approximation 后，Abdomen MRI 从 0.7704/0.8345 降到 0.7574/0.8214；Endovis 从 0.6463/0.6621 降到 0.6218/0.6367；Microscopy F1 从 0.5791 降到 0.5443。该消融说明 global average 项不是装饰，确实贡献了性能。

7. 实验可信度判断

可信之处：论文的动机较清晰，有 attention dispersion 的理论/可视化支撑；数据集覆盖 MRI、内镜、显微，分辨率和任务类型多样；与多种 Transformer/Mamba baseline 比较；global average 消融直接验证核心设计。

不足之处：第一，未获取官方代码，复现性暂时有限；第二，未报告 FLOPs、吞吐、显存或训练时间，因此“efficient”主要由结构复杂度推断，证据不完整；第三，缺少统计显著性、多次运行均值方差和外部泛化；第四，baseline 中没有普通 nnU-Net/UNet++/PraNet 等强 CNN 或息肉专用模型，无法说明它一定优于强 U-Net recipe；第五，Microscopy 是 instance segmentation，但论文只报告 F1，任务适配细节不够充分；第六，性能提升相对 U-Mamba Enc 在 Abdomen MRI 上较小（0.7704 vs 0.7625），应避免过度宣传。

8. 与主流医学图像分割框架的关系

U-Net / nnU-Net：USEMA 是 U-Net encoder 插件化改造，预处理使用 nnUNet framework，但不是完整 nnU-Net recipe。它的 SEMA block 可作为 U-Net bottleneck/encoder block 替代模块。
MedNeXt / CNN segmentation：论文没有直接比较 MedNeXt。若用于严肃实验，需要补 MedNeXt 或强 CNN baseline，避免只证明比部分 Mamba/Transformer 好。
UNETR / Swin-UNet / TransUNet / TransFuse：USEMA 与这些方法同属 hybrid CNN-attention 分割框架，但它用 window attention + global averaging 代替 full attention，重点解决长序列复杂度和 attention dispersion。
Mamba / VMamba / SegMamba / DAMamba：USEMA 不是标准 SSM 扫描，而是 Mamba-like attention：借鉴 Mamba 的 gating 和指数遗忘直觉，但主体仍是 attention approximation。对 DAMamba 有直接参考意义：可以把全局平均项或局部窗口项作为 DAMamba scan 的补充，尤其用于减少序列扫描方向偏置。
Foundation model segmentation：与 SAM/MedSAM 无直接关系；它是专用小/中型网络路线。

9. 对我课题的价值

对 polyp segmentation 和 DAMamba，USEMA 的价值较高但需要谨慎复现。它给 DAMamba 改造提供一个清楚方向：不要只比较 CNN vs Mamba，也可以设计 local window selection + cheap global context + gating 的混合模块。对息肉分割，可在 CVC-ClinicDB、Kvasir-SEG、CVC-ColonDB、ETIS、EndoScene 上测试：把 SEMA block 放在 encoder 高层或 bottleneck，比较 U-Net、TransFuse、VM-UNet、DAMamba，并额外报告 FPS/FLOPs/Params。由于 USEMA 参数 52M，不算轻量，若用户目标是实时 polyp，应做通道缩放或只在低分辨率层使用。

10. 阅读建议

建议精读方法部分，实验部分可带着质疑读。 它的理论动机和模块设计对 DAMamba/efficient attention 很有启发；但由于缺少代码、速度指标、统计显著性和强 CNN/polyp baseline，不建议直接把它当作已充分验证的 SOTA，只建议作为可改造模块和 related work 候选。

今日推荐优先级

FEFormer：更适合 3D medical image segmentation、Transformer-based segmentation、frequency-aware feature fusion 方向；实验更系统，消融更完整，适合深入读全文并拆解 WAFF/FDSA。
USEMA：更适合 DAMamba / Mamba-like efficient attention / U-Net 插件改造方向；方法思想清楚，但实验证据较薄，建议作为模块启发优先于作为强 SOTA baseline。

今日 PDF 获取情况

论文 1：已附 PDF / 提供 PDF 链接：MEDIA:/tmp/medseg_daily_20260514/feformer.pdf；https://arxiv.org/pdf/2605.11434v1
论文 2：已附 PDF / 提供 PDF 链接：MEDIA:/tmp/medseg_daily_20260514/usema.pdf；https://arxiv.org/pdf/2605.11131v1

今日可执行建议

若你近期做 DAMamba 或 polyp segmentation，优先从 USEMA 抽取 “window attention + global average + gating” 思路，在 DAMamba bottleneck 或 encoder 高层做一个轻量替换实验，同时补充 FLOPs/FPS，避免只比较 Dice。
若你关注 边界质量和 skip fusion，从 FEFormer 复现一个简化版 WAFF：只替换 U-Net/DAMamba 的 skip concat，用 wavelet low/high-frequency 子带做融合，观察 HD95、boundary F-score、mIoU 是否改善。
related work 写作中可把 FEFormer 放在 frequency-aware Transformer / 3D volumetric segmentation，把 USEMA 放在 Mamba-like efficient attention / hybrid U-Net；两者均标注为 arXiv preprint，避免写成已接收顶会/顶刊论文。