2026-05-23 医学图像分割论文精读:DepthPolyp 与 Patch-MoE Mamba

503611908 发布于 18 小时前 16 次阅读


今日医学图像分割最新论文精读追踪

今日结论

今天从 2026 年 5 月中下旬的 arXiv 医学图像分割新稿中筛到 2 篇值得关注的论文:一篇是 Mamba/VM-UNet 系列的结构改造(Patch-MoE Mamba),另一篇是面向真实内镜退化与移动端部署的轻量级息肉分割框架(DepthPolyp)。整体趋势很明确:医学图像分割方法不再只追求 clean benchmark 上的 Dice,而是在往“状态空间/长程依赖 + 局部结构保持”“真实退化鲁棒性 + 低算力部署”两个方向推进。

检索说明

检索范围覆盖 arXiv 2025 年以来与 medical image segmentation、Mamba、U-Net、universal medical image segmentation、polyp segmentation 相关的最新论文,并优先检查近期 2026-05 附近的可公开下载 PDF。今天入选的两篇论文均为 2025 年以后论文,且目前均为 arXiv preprint;未发现它们已经有 MICCAI/CVPR/TMI/MedIA 等正式接收信息。已检查本地历史推荐记录与可用 cron/session 文件路径,但当前环境未检出既往输出记录;因此按标题、arXiv ID 与 PDF 链接对本次候选做去重,排除了重复论文。候选中还检查过 USEMA、Deco-Mamba、CT body composition class-imbalance sampling 等论文;最终优先选择与用户关注的 polyp segmentation、Mamba/U-Net 改造、轻量部署和可复现实验更相关的两篇。

WordPress 发布

  • WordPress 文章链接:待发布后填写
  • WordPress Post ID:待发布后填写

论文 1:Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation

基本信息

  • 标题:Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation
  • 作者 / 第一作者:Diego Adame et al.
  • 时间:2026-05-18
  • 来源:arXiv preprint
  • 论文页面链接:https://arxiv.org/abs/2605.17719
  • PDF 文件 / PDF 链接:MEDIA:/root/papers_medseg_2026-05-23/2605.17719.pdf ;https://arxiv.org/pdf/2605.17719
  • 代码链接:未获取 / 论文正文未给出明确官方代码链接
  • 任务:2D 医学图像分割;主要是 polyp segmentation,附加 skin lesion segmentation
  • 数据集:Kvasir-SEG、CVC-ClinicDB、ColonDB、ETIS、CVC-300;ISIC 2017、ISIC 2018
  • 方法类型:U-Net-style / VM-UNetV2-based / Mamba-based segmentation / patch-ordered scanning / MoE directional fusion

paper-deep-reader 精读结果

1. 一句话结论

这篇论文最有价值的地方不是“又一个 Mamba-UNet”,而是把 Vision Mamba 中容易破坏 2D 局部邻域的扫描顺序显式改成 patch-ordered scanning,并用 MoE 让多方向扫描输出按空间位置自适应融合;但代价是参数和 FLOPs 明显增加,方法创新值得借鉴,工程性价比需要谨慎看待。

2. 研究背景与核心问题

论文研究的是 Mamba/state space model 在医学图像分割中的空间建模问题。医学图像分割尤其是息肉、皮损等任务既需要局部边界细节,也需要较大范围上下文。CNN 强在局部纹理但长程依赖有限;Transformer 能建模全局关系但注意力复杂度高、对数据规模和显存更敏感;Mamba 类模型用线性序列复杂度建模长程依赖,近两年被大量用于 VM-UNet、SegMamba 等医学分割框架。

作者指出现有 Vision Mamba 分割模型有两个核心问题:第一,常见 raster/pixel-wise 扫描把二维特征图展平成一维序列,会让垂直相邻或局部相邻像素在序列中相距很远,破坏 dense prediction 所需的局部空间相干性;第二,多方向扫描输出通常简单求和,默认所有方向、所有尺度在每个位置同等重要,不能适应息肉/皮损目标大小、形状、边界复杂度的变化。

3. 现有方法不足

作者对现有方法的批评集中在 Mamba 分割模型,而不是泛泛批评 U-Net:

  • U-Net / U-Net v2:skip connection 和 encoder-decoder 结构有效,但本身没有解决全局依赖建模问题。
  • Transformer / Swin-UNet / TransUNet 类方法:全局建模能力强,但自注意力的二次复杂度和训练数据需求在医学场景中不理想。
  • VM-UNet / VM-UNetV2 / Vision Mamba:能线性复杂度建模长程依赖,但把 2D feature map 直接线性扫描会损害局部 2D 几何;多方向扫描结果的固定求和不够自适应。
  • 普通多尺度融合:如果只是堆卷积或固定求和,难以根据局部病灶形态选择合适方向和尺度。

4. 方法总览

Patch-MoE Mamba 采用 U-Net-style 架构,由三部分组成:

  1. Mamba-based encoder:以 VM-UNetV2 为基础,把原来的 VSS block 替换为 Patch-MoE VSS block。
  2. SDI 模块:采用 U-Net v2 的 Semantics and Detail Infusion,通过高层语义与低层细节的 Hadamard product 融合增强多尺度特征。
  3. Decoder:基本保留 VM-UNetV2 的 decoder 设计。

技术核心在 encoder 的 Patch-MoE VSS block:

  • 对输入特征图 (X_l \in \mathbb{R}^{C_l \times H_l \times W_l}),不直接 raster flatten,而是先划分为非重叠 patch,再在每个 patch 内按局部顺序枚举像素,形成 patch-ordered permutation。
  • 使用多个 patch size 构造层次化扫描序列,让早期/不同方向可以使用较粗或较细粒度的局部连续序列。
  • 四个方向扫描:forward、reverse、WH forward、WH reverse。每个方向可对应不同 patch granularity。
  • 四个方向输出 (Y_l^{(1)},\dots,Y_l^{(4)}) 不再简单相加,而是作为专家,外加一个 concat expert;通过 spatial-aware router 生成每个位置的 expert 权重。
  • 最终输出为 MoE 加权融合加上原始方向输出 residual sum:

[
\tilde{Y}l = \sum \odot E_e,
\quad
Z_l = \tilde{Y}}^{5} w_{l,el + \sum.
]}^{4} Y_l^{(i)

这使该 block 保留 VMamba/VSS 的长程建模,同时强化局部相干和方向自适应。

5. 核心模块拆解

模块 A:Patch-Ordered Scanning
输入是 stage (l) 的 feature map (X_l)。给定 patch size (p),将空间网格划分为 (\lceil H_l/p\rceil \times \lceil W_l/p\rceil) 个 patch,每个 patch 内按 row-major 枚举,然后再访问下一个 patch。输出是长度为 (H_lW_l) 的 permutation sequence。它不做 pooling、不降分辨率,只改变 token visiting order。其作用是让 patch 内像素在序列中连续,缓解 raster scanning 下局部邻域被打散的问题。

创新性判断:这是一个清晰、可迁移的设计点。它不改变 Mamba 算子本身,但改变 2D-to-1D 序列化方式,适合迁移到 VM-UNet、VM-UNetV2、SegMamba 或 DAMamba 类框架中。对 polyp segmentation 的边界和小目标较有意义;对 3D medical image segmentation 也有启发,但 3D 中需要扩展为 block-ordered / plane-aware / anisotropic scan,否则直接套用 2D patch 规则不够。

模块 B:Hierarchical Patch Sizes
作者设置不同层或方向的 patch size,例如实验中比较 8844/8844/8844/8844、8844/1111/1111/1111 等组合。直觉是浅层/不同方向可以用较粗 patch 捕获区域结构,深层或边界敏感处用更细粒度扫描保留细节。

创新性判断:更像是实用设计和超参数策略,而不是独立理论贡献。Table IV 显示 patch-size 组合影响平均 Dice,但搜索空间有限,未证明最优性。

模块 C:MoE-Based Directional Fusion
四个方向输出先经 GroupNorm 得到四个 directional experts:(E_1,\dots,E_4)。再把四个方向 concat 后用 (1\times1) conv + BN + ReLU 投影为第五个 concat expert:(E_{concat})。router 由 local descriptor 和 global descriptor 混合驱动:

[
F_{local}=DWConv_{3\times3}\left(\sum_iY_l^{(i)}\right),
\quad
F_{global}=GAP\left(\sum_iY_l^{(i)}\right),
]

[
F_l=\alpha F_{local}+(1-\alpha)F_{global},
\quad
w_l=Softmax(Router(F_l)).
]

输出是五个专家的空间位置自适应加权和。

创新性判断:比固定求和更灵活,适合病灶形态变化大的分割任务。但 concat expert 和 router 带来显著参数/FLOPs 增长;该模块是否比更轻量的 attention/gating 更划算,论文没有充分比较。

模块 D:Residual Directional Aggregation
最终输出加回四个 raw directional outputs:(Z_l=\tilde{Y}_l+\sum_iY_l^{(i)})。作用是防止 router 训练早期退化,并保留固定方向信号。

迁移价值:对 DAMamba 或 VM-UNet 类结构很实用。若用户后续做 DAMamba 改造,可以先只迁移 patch-ordered scanning,再考虑用轻量 gating 替代完整 MoE,以避免复杂度爆炸。

6. 实验设计与结果

实验包含两个任务族:

  • Polyp segmentation:Kvasir-SEG、ClinicDB、ColonDB、ETIS、CVC-300。训练协议沿用 U-Net v2:Kvasir-SEG 900 张 + ClinicDB 550 张训练;测试包含 CVC-300 60、ColonDB 380、ETIS 196、Kvasir 100、ClinicDB 62。
  • Skin lesion segmentation:ISIC 2017、ISIC 2018,采用 U-Net v2 的 split。

训练设置:PyTorch,NVIDIA Tesla A100 80GB,AdamW,lr=1e-3,batch size=80,输入 256×256,300 epochs,cosine annealing,VMamba-S pretrained initialization,标准随机翻转/旋转增强。每个实验运行 5 个随机种子。

主要结果:

  • 在 5 个息肉数据集上,Patch-MoE Mamba 的 Dice 均为最高或接近最高。相对 VM-UNetV2,Kvasir-SEG 提升很小(90.82→90.90),ClinicDB 提升较明显(90.52→91.32),ColonDB 提升(76.62→77.94),ETIS 提升(72.56→74.04),CVC-300 提升(86.80→87.31)。
  • 在 ISIC 2017/2018 上,Patch-MoE Mamba 也优于 U-Net、U-Net v2、VM-UNet、VM-UNetV2;例如 ISIC 2018 Dice 由 VM-UNetV2 的 88.36 提升到 89.34。
  • Ablation:VM-UNetV2 平均 Dice 83.46;加入 patch-ordered scanning 后 84.02;再加入 MoE fusion 后 84.30。说明两个核心组件都有增益,但 MoE 的额外平均收益约 +0.28 Dice。
  • 复杂度:U-Net v2 为 25.15M / 5.58G FLOPs,VM-UNetV2 为 22.77M / 5.31G;Patch-MoE Mamba 为 70.06M / 28.18G。复杂度增加非常明显。

7. 实验可信度判断

可信点:

  • 论文不是只报单次结果,而是 Table I 明确每个实验运行 5 个随机种子,并报告均值/方差。
  • baseline 覆盖 U-Net、U-Net v2、VM-UNet、VM-UNetV2,和论文方法的血缘关系比较直接。
  • 有跨任务验证:息肉 + ISIC 皮损。
  • 有核心组件消融:patch-ordered scanning 与 MoE fusion 分别加入。

主要风险:

  • 论文只有 5 页,实验与实现细节相对压缩;没有更大规模、多中心 3D 医学分割验证。
  • 相比 VM-UNetV2,性能提升通常是 0.x 到 1.x Dice,但参数从 22.77M 增至 70.06M、FLOPs 从 5.31G 增至 28.18G;如果强调“efficient Mamba”,这个复杂度代价会削弱说服力。
  • MoE fusion 的收益相对其开销不算大:Table III 中 patch scanning 已带来主要提升,MoE 只从 84.02 到 84.30。
  • 没有与更强或更新的 polyp segmentation SOTA(例如专门面向 PolypGen、真实退化、foundation model adaptation 的方法)全面比较。
  • 没有统计显著性检验,虽有 seed 方差,但未说明差异是否显著。

8. 与主流医学图像分割框架的关系

  • U-Net / nnU-Net:整体仍是 encoder-decoder + skip/fusion 思路,不能替代 nnU-Net 的完整 pipeline;更像是可插入某类 U-Net encoder 的序列建模模块。
  • U-Net v2 / MedNeXt:借用了 U-Net v2 的 SDI 模块;与 MedNeXt 这类纯 ConvNeXt/large-kernel CNN 路线相比,它更强调 Mamba 的长程依赖。
  • UNetR / Swin-UNet / TransUNet / TransFuse:解决 Transformer 高复杂度与数据需求问题,使用 state space scan 替代 attention;但 Patch-MoE 本身的 MoE/concat 又带来较高 FLOPs。
  • Mamba / VMamba / VM-UNet / VM-UNetV2 / SegMamba / DAMamba:这是最直接相关路线。论文对 VM-UNetV2 的改造点很明确:扫描顺序 + 多方向融合方式。对 DAMamba 改造尤其值得借鉴 patch-ordered scan。
  • Foundation model for medical segmentation:基本无直接关系;没有使用 SAM/MedSAM/通用 prompt segmentation。

9. 对我课题的价值

对 polyp segmentation:价值较高。论文直接在 5 个息肉分割数据集评估,并在 ETIS、ColonDB 这种更难数据集上有相对更明显提升。patch-ordered scanning 对小目标、低对比、边界不规则病灶有合理归纳偏置。

对 DAMamba 改造:价值很高。建议优先复现/借鉴 patch-ordered scanning,因为它简单、解释清楚、对复杂度影响小;MoE fusion 可以作为第二阶段探索,但应设计 lightweight router 或去掉 concat expert 以控制 FLOPs。

对 3D medical image segmentation:概念有启发,但不能直接照搬。3D 中可以考虑 patch/block-ordered scanning、slice-aware scanning、轴向 anisotropic scanning,但必须重新验证显存和扫描路径对体素邻接的影响。

对 related work:适合放在 Mamba-based medical segmentation 或 scan-order design 相关段落,说明现有 Mamba 分割开始从“用 SSM 替代 attention”进入“如何把 2D/3D 空间结构合理序列化”的阶段。

10. 阅读建议

建议精读,但重点读方法和消融,结果部分要带着复杂度代价审视。 如果用户做 DAMamba 或 Mamba-UNet 改造,这篇值得完整读 Method 的 patch scanning 与 MoE fusion;如果目标是轻量实时部署,则不建议把完整 Patch-MoE 作为首选 baseline,因为其 70.06M 参数和 28.18G FLOPs 已经偏重。


论文 2:DepthPolyp: Pseudo-Depth Guided Lightweight Segmentation for Real-Time Colonoscopy

基本信息

  • 标题:DepthPolyp: Pseudo-Depth Guided Lightweight Segmentation for Real-Time Colonoscopy
  • 作者 / 第一作者:Zhuoyu Wu et al.
  • 时间:2026-05-15
  • 来源:arXiv preprint
  • 论文页面链接:https://arxiv.org/abs/2605.16519
  • PDF 文件 / PDF 链接:MEDIA:/root/papers_medseg_2026-05-23/2605.16519.pdf ;https://arxiv.org/pdf/2605.16519
  • 代码链接:https://github.com/ReaganWu/DepthPolyp/ (论文正文给出;本次未能在受限环境中完成仓库连通性验证)
  • 任务:real-time polyp segmentation / lightweight endoscopy segmentation / robustness under degradation
  • 数据集:Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、PolypGen sequences 18–22
  • 方法类型:lightweight segmentation / pseudo-depth-guided multi-task learning / MiT-B0 encoder / Ghost Factorization / Interleaved Shuffle Fusion / Dynamic Group Gating / uncertainty-weighted multi-task loss

paper-deep-reader 精读结果

1. 一句话结论

这篇论文的价值在于把息肉分割从 clean benchmark 推向真实内镜退化和移动端实时部署:用 pseudo-depth 作为训练期结构监督,并配合轻量 decoder,在 PolypGen 和 noisy cross-dataset 设置中展示了比许多大模型更稳的鲁棒性。

2. 研究背景与核心问题

息肉分割对早期结直肠癌筛查很重要,但真实结肠镜视频中常见 motion blur、specular reflection、illumination instability、defocus、JPEG/低质传输等退化。很多 polyp segmentation 方法在 Kvasir、ClinicDB 等 clean image benchmark 上 Dice 很高,但真实手术视频里预测会碎裂、漏检或产生反光区域假阳性。

论文研究的问题是:如何在低参数、低 GMAC、移动端实时条件下,使息肉分割模型对真实内镜退化更鲁棒?作者不只提出一个模型,还提出四象限鲁棒评估协议:Clean→Clean、Clean→Noisy、Noisy→Clean、Noisy→Noisy,用来分离 clean 性能、分布偏移、noisy training 的恢复效果和 clean-domain penalty。

3. 现有方法不足

作者认为现有方法主要有三类不足:

  • Transformer / hybrid 大模型:如 TransUNet、SegFormer、PraNet、CFFormer 等,在 clean benchmark 上强,但参数量通常较大,且在 blur/noise 下 Dice 下降明显,不适合低资源实时部署。
  • 轻量模型:MobilePolypNet、ULite、UNeXt、CMUNeXt 等重视效率,但表示能力有限,在退化输入上稳定性不足。
  • 多任务/边界/显著性辅助方法:边缘或显著性监督本身也依赖外观质量,遇到反光、模糊、照明变化时不一定可靠。相比之下,monocular pseudo-depth 提供相对结构线索,可能比纯 appearance cues 更耐退化。

作者还强调一个评价层面的不足:多数既有 polyp segmentation 论文只在高质量静态图像上测试,从而高估了临床部署可靠性。

4. 方法总览

DepthPolyp 的 pipeline 如下:

  1. 输入图像 (I \in \mathbb{R}^{B\times3\times H\times W})。
  2. 使用 MiT-B0 encoder 提取四尺度特征 ({c_1,c_2,c_3,c_4})。每个尺度经 MLP 投影、reshape、上采样到 (H/4\times W/4):

[
\tilde{c}_i = Upsample(reshape(MLP_i(c_i)), size=(H/4,W/4)).
]

  1. Decoder 用 GFM、ISF、DGG 进行轻量多尺度融合,得到 (F_{out})。
  2. 两个 head:segmentation head 输出 mask logits;depth head 输出归一化深度图。
  3. 训练时用 frozen Depth-Anything v2-small 生成 pseudo-depth target,只作为辅助监督;推理时不需要 Depth-Anything,因此不增加 inference cost。
  4. 损失由 Dice segmentation loss、Smooth-L1 depth loss 和 uncertainty-based multi-task weighting 组成:

[
L = \frac{1}{2\sigma_s^2}L_{seg}+\frac{1}{2\sigma_d^2}L_{depth}+\log\sigma_s+\log\sigma_d.
]

整体思想是:用 pseudo-depth 在训练期给模型注入结构归纳偏置;用轻量 decoder 保持实时性;用 noisy training 和四象限评估逼近真实内镜部署场景。

5. 核心模块拆解

模块 A:Ghost Factorization Module (GFM)
输入 (X\in\mathbb{R}^{B\times C_{in}\times H\times W})。先用 pointwise (1\times1) convolution 产生 primary component:

[
X_p=PWConv(X),
]

再用 depthwise convolution 产生 cheap auxiliary component:

[
X_a=DWConv(X_p),
]

输出 ((X_p,X_a)),满足 (C_p+C_a=C_{out})。它借鉴 GhostNet 的 cheap feature generation,用较少参数近似更密集的卷积表达。

创新性判断:模块本身不是全新思想,主要价值在于用于高分辨率分割 decoder 的层次化轻量聚合。适合迁移到 U-Net decoder、polyp segmentation 轻量模型、移动端 baseline。

模块 B:Hierarchical Factorized Decoder
四个尺度 (\tilde{c}i) 分别经 GFM,产生 primary 和 auxiliary stream;分别 concat 后进入 ISF,再经 GFM 得到 (SS,AS,SA,AA),最后 concat 后用 DGG 输出 (F)。这相当于把多尺度融合拆成“每尺度压缩—跨尺度轻量交互—动态分组聚合”。

模块 C:Interleaved Shuffle Fusion (ISF)
将输入 feature 按 channel 分成 (G=4) 组,做 deterministic channel shuffle:

[
\hat{F}=Shuffle_G(F),
]

再用 depthwise convolution 得到 (U),并通过 group-wise learnable scale (\gamma) 残差相加:

[
F'=F+expand(\gamma)\odot U.
]

作用是低成本跨 group / 跨尺度交互,几乎不增加参数。

模块 D:Dynamic Group Gating (DGG)
将输入按 channel 分组为 (\tilde{X}\in\mathbb{R}^{B\times G\times C_g\times H\times W}),对 channel 和 spatial 平均池化得到 group descriptor (z\in\mathbb{R}^{B\times G}),线性层 + sigmoid 得到 gate:

[
w=\sigma(\phi(z)),
\quad
\tilde{X}'=\tilde{X}\odot w^\uparrow,
\quad
X_{out}=X+Reshape(\tilde{X}').
]

作用是让不同 feature group 按输入内容动态加权,对反光、模糊、小息肉等场景更灵活。

模块 E:Pseudo-depth-guided multi-task learning
Depth-Anything v2-small 生成相对深度 (D^*),模型 depth head 预测 (D),用 Smooth-L1 约束。深度监督仅训练期存在,推理时无额外开销。作者的关键假设是:相对 depth/geometry cue 比 RGB appearance 更不受反光和模糊影响,因此能促使共享特征学到更稳定的结构表征。

是否适合迁移
- 对 polyp segmentation:非常适合,任务与数据直接匹配。
- 对 3D medical image segmentation:pseudo-depth 机制不直接适用;但“训练期辅助结构监督、推理期零开销”的思想可迁移为 signed distance map、boundary distance transform、surface/centerline 辅助监督。
- 对 DAMamba / Transformer-based segmentation:可把 depth/结构辅助 loss 作为训练正则,与 Mamba/Transformer backbone 解耦。

6. 实验设计与结果

数据集:

  • Kvasir-SEG:1000 张,高质量息肉图像,80/20 train/val。
  • CVC-ClinicDB:612 张,用于 OOD validation。
  • CVC-ColonDB:380 张,用于 OOD validation。
  • PolypGen sequences 18–22:273 张,真实手术场景,包含 blur 和 reflection artifacts。

退化协议:

  • synthetic degradation 包括 motion blur、Gaussian blur、brightness/contrast、JPEG compression、light spots/reflection、fog、optical distortion。
  • 四象限设置:Clean→Clean、Clean→Noisy、Noisy→Clean、Noisy→Noisy。
  • PolypGen 使用原始真实退化,不做 synthetic augmentation。

训练和实现:

  • encoder:MiT-B0。
  • 输入:224×224。
  • optimizer:AdamW,lr=1e-4,weight decay=1e-4。
  • 训练 200 epochs,前 10% warm-up,cosine annealing。
  • batch size 16,NVIDIA A100。
  • pseudo-depth:Depth-Anything v2-small。
  • 推理平台:RTX 3090、Apple iPhone 15 CoreML FP16、Raspberry Pi 4。

关键结果:

  • 四象限鲁棒分析:DepthPolyp Clean→Noisy Dice 为 0.8126,高于 UNet 0.6478、SegFormer-B0 0.6962、PraNet 0.7143、CFFormer 0.7556;Noisy→Noisy Dice 为 0.8525。
  • noisy training 的 clean-domain penalty 较小:DepthPolyp Noisy→Clean 相对 Clean→Clean 为 -0.0197 Dice,说明加入退化训练没有严重牺牲 clean 性能。
  • cross-dataset noisy training:DepthPolyp 在 Kvasir、ClinicDB、ColonDB 的 N→N Dice 分别为 0.853、0.751、0.734,优于 SegFormer-B0 的 0.823、0.698、0.621;参数 3.57M、GMACs 0.86,也低于 SegFormer-B0 的 3.71M、1.30 GMACs。
  • PolypGen:DepthPolyp PolypGen Dice 0.679,高于 SegFormer-B0 0.634、CFFormer 0.643、SegFormer-B5 0.671;iPhone 15 达 181.54 FPS,接近 SegFormer-B0 186.72 FPS,但 PolypGen Dice 更高。
  • Ablation:full model Avg Dice 0.784;w/o depth guidance 为 0.759;w/o uncertainty loss 为 0.605;w/o GFM 为 0.776 但 iPhone FPS 从 181.54 降到 131.39;w/o ISF 为 0.760;w/o DGG 为 0.736。

7. 实验可信度判断

可信点:

  • 论文没有只报 clean Kvasir/ClinicDB,而是显式构造四象限鲁棒评估,能回答“clean 训练在 noisy 测试下会怎样”“noisy 训练是否伤害 clean 性能”。
  • 包含真实 PolypGen sequences 18–22,而不只是 synthetic degradation。
  • baseline 覆盖 heavy、mid-size、lightweight 三类,共 19 个代表模型;同时报告参数、GMACs 和多平台 FPS。
  • ablation 比较完整,能区分 pseudo-depth、uncertainty loss、GFM、ISF、DGG 对准确率和速度的贡献。
  • 代码链接在论文中给出,理论上有利于复现。

主要风险:

  • pseudo-depth target 由 Depth-Anything v2-small 生成,其在内镜图像上的深度可靠性没有单独定量验证;它可能只是提供一种 regularization signal,而不是真正几何深度。
  • “synthetic degradation accurately replicates real conditions”的说法需要谨慎。虽然 PolypGen 验证增强了说服力,但 synthetic blur/reflection/fog 与真实内镜退化分布仍可能有差距。
  • 训练和测试都围绕息肉分割,结论不应泛化到所有医学图像分割。
  • w/o uncertainty loss 性能崩得很厉害(0.784→0.605),提示多任务权重对训练非常敏感;如果复现时 loss 权重、pseudo-depth normalization 或训练 schedule 不一致,结果可能不稳定。
  • 没有报告统计显著性或多 seed 方差,鲁棒提升虽然幅度较大,但复现时仍需检查方差。

8. 与主流医学图像分割框架的关系

  • U-Net / nnU-Net:DepthPolyp 不是 nnU-Net pipeline,也不是通用自动配置框架;它更像一个轻量 encoder-decoder + 多任务训练策略。GFM/ISF/DGG 可迁移到 U-Net decoder。
  • MedNeXt / CNN-based segmentation:GFM/ISF/DGG 延续轻量 CNN/卷积调制路线,强调高效局部与跨尺度融合。
  • UNetR / Swin-UNet / TransUNet / TransFuse / SegFormer:使用 MiT-B0/SegFormer-style encoder,但贡献主要在轻量 decoder 和 pseudo-depth multi-task learning;实验中也把 SegFormer-B0/B5 作为重要对比。
  • Mamba / VMamba / SegMamba / DAMamba:没有使用 Mamba,但其训练期结构监督和退化鲁棒评估可与 Mamba backbone 结合。对 DAMamba 用户而言,它提供的是“robustness protocol + auxiliary geometry supervision”,不是 SSM 模块。
  • Foundation model for medical segmentation / MedSAM:没有使用 SAM/MedSAM。它使用 Depth-Anything v2 作为 frozen pseudo-label generator,更接近“foundation depth model 提供辅助监督”。

9. 对我课题的价值

对 polyp segmentation:非常高。它直接针对真实内镜退化、PolypGen、移动端 FPS 和轻量模型,适合作为用户后续 polyp segmentation 研究的 baseline 或实验协议参考。

对 DAMamba 改造:中高。虽然没有 Mamba 模块,但可把 pseudo-depth auxiliary head 或 uncertainty-weighted multi-task loss 接入 DAMamba,用于测试 Mamba backbone 在 noisy colonoscopy 下是否更稳。更重要的是四象限评估协议值得直接复用。

对医学图像分割框架选择:它提醒不要只看 clean Dice。若用户要写 introduction/related work,可用它支持“clinical deployment requires robustness to realistic degradations and edge efficiency”的论点。

对 3D medical segmentation:模块本身不是直接针对 3D;但训练期辅助结构监督思想可迁移到 3D distance transform、surface-aware loss、boundary-aware auxiliary head。

10. 阅读建议

强烈建议精读。 如果用户关注 polyp segmentation 或真实临床部署,这篇比单纯堆 Mamba/Transformer 模块的论文更值得读。建议优先复现其四象限 noisy evaluation 和 pseudo-depth/uncertainty loss ablation,而不是一开始完整复现所有轻量 decoder 细节。


今日推荐优先级

  1. DepthPolyp:最值得优先深入读。原因是问题定义更贴近真实临床部署,实验协议更完整,包含 PolypGen 真实退化、跨数据集、轻量速度和系统消融;对 polyp segmentation 课题直接价值最高。
  2. Patch-MoE Mamba:适合做 Mamba/VM-UNet/DAMamba 结构改造参考。优先借鉴 patch-ordered scanning;完整 MoE 版本因复杂度较高,更适合作为 idea source 而非直接部署框架。

今日 PDF 获取情况

  • 论文 1:已附 PDF;本地路径 MEDIA:/root/papers_medseg_2026-05-23/2605.17719.pdf;PDF 链接:https://arxiv.org/pdf/2605.17719
  • 论文 2:已附 PDF;本地路径 MEDIA:/root/papers_medseg_2026-05-23/2605.16519.pdf;PDF 链接:https://arxiv.org/pdf/2605.16519

今日可执行建议

  1. 先精读并复现 DepthPolyp 的四象限鲁棒评估协议:Clean→Clean、Clean→Noisy、Noisy→Clean、Noisy→Noisy。这个协议可以直接用来评估你的 polyp segmentation 或 DAMamba 改造是否真的提升真实退化鲁棒性。
  2. 对 DAMamba/Mamba-UNet 改造,优先尝试 Patch-MoE Mamba 的 patch-ordered scanning,先不要完整引入 MoE concat expert;因为论文显示主要收益已来自 patch scanning,而完整 MoE 带来 70.06M 参数和 28.18G FLOPs。
  3. related work 可以加入这两篇:DepthPolyp 放在 robust/lightweight polyp segmentation 与 deployment-focused evaluation;Patch-MoE Mamba 放在 Mamba-based medical segmentation 中关于 scan order 和 directional fusion 的最新改造。
此作者没有提供个人介绍。
最后更新于 2026-05-23