2026-05-20 医学图像分割论文精读:Patch-MoE Mamba 与 DepthPolyp

503611908 发布于 3 小时前 10 次阅读


今日医学图像分割最新论文精读追踪

今日结论

今天未检索到明确已正式接收 MICCAI / CVPR / ICCV / ECCV / NeurIPS / ICLR / MedIA / TMI 等顶会顶刊、且尚未被本任务推荐过的全新医学图像分割论文;去重后,最值得关注的是两篇 2026 年 arXiv 新稿:Patch-MoE MambaDepthPolyp。前者代表 Mamba/VM-UNet 系列在扫描顺序与方向融合上的结构改造,后者代表面向真实内镜退化场景的轻量级 polyp segmentation 与鲁棒评测趋势;两篇都比单纯“堆模块”更有复现和改造价值,但 Patch-MoE Mamba 的计算开销和 DepthPolyp 的伪深度依赖都需要谨慎看待。

检索说明

今日检索范围覆盖 arXiv 2026-05-18/2026-05-15 最新提交、medical image segmentation、polyp segmentation、Mamba medical segmentation、3D medical image segmentation、foundation model for medical segmentation 等关键词,并对历史输出文件 /tmp/medseg_daily_* 中的标题、arXiv ID 与 PDF 链接做了去重检查。今天未发现当天可确认的顶会/顶刊正式接收医学图像分割新论文,因此从最新且 PDF 可获取的 arXiv preprint 中筛选;其中 DepthPolyp 的 GitHub 页面标注为 ICPR 2026 official implementation,但 arXiv 元数据仍按 preprint 处理。所有入选论文均为 2025 年及以后。已检查历史推荐记录并排除了重复论文;本次跳过的重复候选包括 Semi-MedRefEvaluation of Anatomical Shape PriorsMed-DisSegSpectraFlowMedCoreFEFormerUSEMACMFDNetTopo-VM-UNetV2 等。

WordPress 发布

  • WordPress 文章链接:待发布后回填
  • WordPress Post ID:待发布后回填

论文 1:Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation

基本信息

  • 标题:Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation
  • 作者 / 第一作者:Diego Adame, Fabian Vazquez, Jose A. Nuñez, Huimin Li, Jinghao Yang, Erik Enriquez, DongChul Kim, Haoteng Tang, Bin Fu, Pengfei Gu / 第一作者 Diego Adame
  • 时间:2026-05-18 arXiv v1
  • 来源:arXiv preprint,arXiv:2605.17719
  • 论文页面链接:https://arxiv.org/abs/2605.17719
  • PDF 文件 / PDF 链接:MEDIA:/tmp/medseg_daily_2026-05-20/patch_moe_mamba_2605.17719.pdf;https://arxiv.org/pdf/2605.17719
  • 代码链接:未获取;arXiv 页面与 PDF 正文未确认官方代码链接
  • 任务:2D medical image segmentation;主要为 polyp segmentation,并扩展到 skin lesion segmentation
  • 数据集:Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、ETIS、CVC-300;ISIC 2017、ISIC 2018
  • 方法类型:U-Net-style encoder-decoder;Mamba / VM-UNetV2 改造;patch-ordered scanning;Mixture-of-Experts directional fusion;SDI skip/feature infusion

paper-deep-reader 精读结果

1. 一句话结论

Patch-MoE Mamba 最有价值的点不是提出一个全新分割范式,而是把 Vision Mamba 在医学分割中的两个具体痛点——像素级扫描破坏二维邻域、固定方向求和缺乏自适应性——改成了“局部 patch 顺序扫描 + 空间位置相关 MoE 方向融合”,适合作为 DAMamba / VM-UNet 类工作的结构改造参考。

2. 研究背景与核心问题

论文研究的是 Mamba-based medical image segmentation,核心场景是息肉和皮肤病灶这类边界细、形态变化大、局部纹理与长程上下文都重要的 2D 分割任务。作者认为 CNN 受限于局部感受野,Transformer 有二次复杂度和数据需求问题,而 Mamba/SSM 以线性序列复杂度建模长程依赖,适合作为医学分割 encoder。但现有 Vision Mamba 分割模型通常把二维特征图直接展平成一维序列,再沿固定方向扫描;这会让二维相邻像素在序列中相距很远,特别不利于小病灶、低对比边界和局部结构保持。第二个问题是多方向扫描结果常用简单求和融合,默认每个方向在每个空间位置同等重要,无法适配不同大小、方向、边界复杂度的目标。

内部 paper map 可概括为:本文在 VM-UNetV2 式医学分割框架中研究 Vision Mamba 的扫描与融合机制;主招是 patch-ordered scanning 保持局部二维连续性,并用 spatial-aware MoE 替代固定方向求和;主要声称在五个息肉数据集与两个 ISIC 数据集上优于 U-Net、U-Net v2、VM-UNet、VM-UNetV2;关键技术对象是 patch permutation、四方向 Mamba scanner、五专家融合、router gating 与 residual directional addition;真正负载在“扫描顺序是否保留局部性”和“MoE 融合收益是否抵得上开销”;主要失败风险是增益较小但参数/FLOPs 大幅增加。

3. 现有方法不足

作者针对的不足很明确:

  1. CNN / U-Net 系列:局部卷积有利于边界,但长程依赖建模弱,难以捕捉大范围上下文。
  2. Transformer 分割模型:全局建模强,但计算和显存成本高,对医学小数据集不总是友好。
  3. VM-UNet / VM-UNetV2 / Vision Mamba 类模型:虽然线性复杂度有吸引力,但常见 raster 或方向扫描会把二维邻域关系压成一维顺序,垂直相邻像素在序列中可能相距整行长度;此外方向输出简单相加,无法根据局部对象形态选择更有用的方向/尺度响应。

这个批评对 Mamba-based segmentation 比较切中要害,因为医学分割不是图像分类,边界局部连续性与空间排列误差会直接反映到 mask 质量。

4. 方法总览

整体框架仍是 U-Net-style segmentation network:

  1. Encoder:以 VM-UNetV2 的 Visual State Space block 为基础,把原 VSS block 替换为 Patch-MoE VSS block。
  2. Patch-ordered scanning:给定特征图 X_l ∈ R^{C_l × H_l × W_l} 与 patch size p,先把空间网格划分为非重叠 p×p 局部 patch;每个 patch 内按 row-major 顺序枚举像素,再进入下一个 patch。这样 token 数不变、分辨率不变,只改变 Mamba 的访问顺序,使 patch 内像素在序列中连续。
  3. Hierarchical patch sizes:不同 stage / 不同方向可使用不同 patch size,例如较大 patch 捕捉粗结构,较小 patch 保留边界细节。论文的 patch-size ablation 显示某些组合比固定 8/8/4/4 更好。
  4. Four directional scanners:沿 forward、reverse、WH forward、WH reverse 四个方向扫描,每个方向输出一个 feature map Y_l^{(i)}
  5. MoE-based directional fusion:四个方向输出先经 GroupNorm 形成四个方向专家;再把四个方向 concat 后经 1×1 Conv + BN + ReLU 构造第五个 concat expert。Router 用 raw directional outputs 的局部 DWConv3×3 描述和全局 GAP 描述,经可学习 α 混合后产生每个空间位置的 5 个 expert 权重。
  6. Residual directional addition:最终输出不是纯 MoE 加权和,而是 Z_l = \tilde{Y}_l + Σ_i Y_l^{(i)},用残差方向和稳定训练,避免 router 早期退化。
  7. Decoder / SDI:论文采用 U-Net v2 的 Semantics and Detail Infusion(SDI)模块,用 Hadamard product 将高层语义与低层细节注入不同尺度特征,decoder 基本保留 VM-UNetV2 设计。

5. 核心模块拆解

模块 A:Patch-ordered scanning
- 输入:encoder stage 的二维特征图 X_l
- 输出:重排后的一维序列,随后经 Mamba/SSM 处理并 reshape 回二维。
- 解决问题:减轻 raster flattening 导致的二维邻域断裂,尤其保护局部边界与小病灶结构。
- 创新性判断:思路朴素但有效,属于对 Vision Mamba 序列化方式的合理医学分割适配;比“只换 Mamba block 名字”更有针对性。
- 可迁移性:很适合迁移到 DAMamba、VM-UNet、SegMamba、2D polyp segmentation 框架;对 3D medical image segmentation 也可扩展成 block/patch/voxel ordering,但需要重新考虑三维邻域、显存和扫描方向。

模块 B:Hierarchical patch sizes
- 输入:多 stage feature maps 与不同方向扫描。
- 输出:不同局部尺度的序列化路径。
- 作用:用大 patch 增强区域上下文,用小 patch 捕捉细边界。
- 评价:论文做了 patch-size 表格,但配置字符串解释不够直观;作为超参数可能数据集相关,复现时应单独调参。

模块 C:MoE directional fusion
- 输入:四个方向 Mamba 输出 Y_l^{(1..4)}
- 输出:空间位置相关的融合特征 \tilde{Y}_l
- 解决问题:替代固定求和,让模型在小息肉、边界区域、背景干扰区域选择不同方向/concat expert。
- 创新性判断:把 MoE 用于方向融合是合理扩展,但不是稀疏大模型意义上的 MoE;更像 spatial attention / dynamic fusion。
- 可迁移性:适合插到 DAMamba 的多方向扫描融合处,也适合做“轻量 router + 方向融合”消融;但原版 concat expert 代价很大。

模块 D:Residual directional addition
- 输入:MoE 融合输出与四个 raw directional outputs。
- 输出:稳定后的 block 输出。
- 作用:保留 VM-UNetV2 固定方向求和的强 baseline,避免 gating 学坏。
- 关键 caveat:复杂度表显示 “w/o Residual Addition” 与完整模型参数/FLOPs 相同,因此残差本身不增加复杂度;真正增加开销的是 concat expert / MoE 结构。

6. 实验设计与结果

实验覆盖五个息肉数据集和两个皮肤病灶数据集。息肉实验沿用 U-Net v2 协议:Kvasir-SEG 900 张 + ClinicDB 550 张训练;测试包括 CVC-300 60、ColonDB 380、ETIS 196、Kvasir-SEG 100、ClinicDB 62。ISIC 2017/2018 使用 U-Net v2 的 train/test split。训练设置包括 PyTorch、A100 80GB、AdamW、lr 1e-3、batch size 80、256×256、300 epochs、cosine annealing,VMamba-S 预训练初始化。

主要结果:

  • Polyp datasets:相比 VM-UNetV2,Patch-MoE Mamba 在 Dice 上整体提升有限但较稳定。Kvasir-SEG 90.82→90.90,ClinicDB 90.52→91.32,ColonDB 76.62→77.94,ETIS 72.56→74.04,CVC-300 86.80→87.31。最大收益在 ColonDB/ETIS 这类更难泛化的数据集。
  • ISIC 2017/2018:ISIC 2017 Dice 90.23→90.85,ISIC 2018 Dice 88.36→89.34,相对 VM-UNetV2 也有小幅提升。
  • Ablation:VM-UNetV2 平均 Dice 83.46;加入 patch-ordered scanning 到 84.02;再加 MoE fusion 到 84.30。说明主要收益来自 patch scanning,MoE 继续贡献约 0.28 Dice。
  • Complexity:这是最大问题。U-Net v2 为 25.15M/5.58G,VM-UNetV2 为 22.77M/5.31G,而 Patch-MoE Mamba 达到 70.06M/28.18G。即用约 3× 参数、5× FLOPs 换取约 0.8 Dice 平均提升。

7. 实验可信度判断

可信之处:

  • 使用了 5 个 polyp benchmark 和 2 个 ISIC benchmark,任务覆盖比单一数据集更好。
  • 表 I 声明每个实验用 5 个随机种子,报告 mean ± std,这比只报单次结果更可信。
  • 有组件消融和 patch-size 消融,能初步分离 patch scanning 与 MoE fusion 的贡献。
  • baseline 选择包含 U-Net、U-Net v2、VM-UNet、VM-UNetV2,与论文主张直接相关。

不足之处:

  • 增益与复杂度不成比例。MoE 完整模型 70.06M/28.18G,而提升多数在 0.1–1.5 Dice 范围;若目标是实时内镜或轻量部署,不划算。
  • 缺少与更强 polyp SOTA(如 PraNet、Polyp-PVT、CFFormer、近期 foundation/SAM adapter 类方法)的完整比较;仅与 U-Net/VM-UNet 系列比较会让“state-of-the-art”含义变窄。
  • 没有统计显著性检验;虽然有均值方差,但未说明 test split 上是否显著。
  • 没有外部真实视频/退化鲁棒性评估,也没有边界指标如 HD95、Boundary F1;而方法叙事强调边界与局部结构。
  • 官方代码未确认,复现风险高。

总体判断:方法机制可信,实验能支持“相对 VM-UNetV2 有稳定小幅提升”,但不足以支持“计算代价无关紧要”或“全面优于所有现代 polyp segmentation 方法”的强表述。

8. 与主流医学图像分割框架的关系

  • U-Net / U-Net v2:整体仍是 U-Net encoder-decoder 范式,SDI 模块直接来自 U-Net v2。它不是摆脱 U-Net,而是在 U-Net scaffold 中替换 encoder block。
  • nnU-Net:论文没有按 nnU-Net 的 3D/2D 自适应 pipeline 做实验,也没有讨论 spacing、patch sampling、loss/augmentation 自动配置,因此不能视为 nnU-Net 改进;更适合作为 nnU-Net 之外的研究型 backbone。
  • UNetR / Swin-UNet / TransUNet / TransFuse:论文把 Transformer 的二次复杂度作为对照动机,但实验没有系统比较这些模型;Mamba 的优势主要体现在序列复杂度理论,而实际 FLOPs 因 MoE concat expert 变高。
  • Mamba / VMamba / SegMamba / DAMamba / VM-UNetV2:关系最直接。可看作 VM-UNetV2 的 VSS block 改造:扫描顺序从 pixel raster 变为 patch ordered,方向融合从 sum 变为 spatial-aware MoE。
  • Foundation model for medical segmentation:没有使用 SAM/MedSAM 或 foundation model prompt;与 foundation model 关系弱。

9. 对我课题的价值

对用户关注的 polyp segmentation 和 DAMamba 改造,本文值得重点看:

  1. DAMamba 改造价值高:patch-ordered scanning 可以作为替换现有 directional scan 的低概念成本模块,先单独验证,不必一开始加入重 MoE。
  2. polyp segmentation baseline 价值中高:五个经典 polyp 数据集覆盖完整,训练/测试协议明确,可作为 Mamba-polyp 分支的 related work 和对比对象。
  3. 模块复用建议:优先复用 patch-ordered scanning;MoE fusion 可改成轻量版,比如去掉 concat expert、用 depthwise separable 1×1 或 channel grouping,避免 70M 参数。
  4. 3D medical segmentation 价值有限但可启发:3D 扫描顺序更复杂,直接照搬会引起显存和各向异性 spacing 问题;可作为“局部 voxel block ordering”思路,而不是直接实现。

10. 阅读建议

建议精读全文,但以方法和消融为主,实验结论要带着复杂度折扣阅读。 如果用户正在做 DAMamba / VM-UNet / polyp segmentation,建议先读 Section II-B/II-C 与 Table III/V,再决定是否复现;如果目标是轻量实时模型,则不建议直接采用完整 Patch-MoE Mamba。


论文 2:DepthPolyp: Pseudo-Depth Guided Lightweight Segmentation for Real-Time Colonoscopy

基本信息

  • 标题:DepthPolyp: Pseudo-Depth Guided Lightweight Segmentation for Real-Time Colonoscopy
  • 作者 / 第一作者:Zhuoyu Wu, Wenhui Ou, Lexi Zhang, Pei-Sze Tan, Dongjun Wu, Junhe Zhao, Wenqi Fang, Raphaël C.-W. Phan / 第一作者 Zhuoyu Wu
  • 时间:2026-05-15 arXiv v1
  • 来源:arXiv preprint,arXiv:2605.16519;GitHub 描述标注 [ICPR'26 Official Implementation],但本文检索以 arXiv preprint 为准
  • 论文页面链接:https://arxiv.org/abs/2605.16519
  • PDF 文件 / PDF 链接:MEDIA:/tmp/medseg_daily_2026-05-20/depthpolyp_2605.16519.pdf;https://arxiv.org/pdf/2605.16519
  • 代码链接:https://github.com/ReaganWu/DepthPolyp/
  • 任务:real-time colonoscopy polyp segmentation;鲁棒/轻量/退化场景分割
  • 数据集:Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、PolypGen sequences 18–22;合成退化 clean/noisy 评测
  • 方法类型:MiT-B0 encoder + lightweight decoder;pseudo-depth-guided multi-task learning;Ghost Factorization Module;Interleaved Shuffle Fusion;Dynamic Group Gating;uncertainty-weighted loss

paper-deep-reader 精读结果

1. 一句话结论

DepthPolyp 的最大价值在于把 polyp segmentation 从“干净 benchmark 上刷 Dice”推向“真实内镜退化 + 轻量部署 + 伪深度训练正则”的组合评测,尤其适合作为用户做息肉分割鲁棒性实验和部署型 baseline 的参考。

2. 研究背景与核心问题

本文聚焦实时结肠镜息肉分割。临床内镜视频中常见 motion blur、specular reflections、illumination instability、defocus、fog/JPEG artifacts 等退化,而很多 polyp segmentation 方法只在 Kvasir、ClinicDB 等干净图片上评测,导致 clean benchmark 成绩高但真实手术场景预测不稳定。作者的核心问题是:能否设计一个参数量和计算量足够小、在移动端/嵌入式设备上实时运行,同时在退化内镜图像和真实 PolypGen 序列上保持鲁棒的分割框架?

内部 paper map 可概括为:论文研究真实退化内镜场景下的轻量息肉分割;主招是用 Depth-Anything v2 生成 pseudo-depth,在训练时作为辅助任务正则,并配合 GFM/ISF/DGG 轻量 decoder;主要声称 DepthPolyp 在 clean/noisy 四象限评测、跨数据集泛化、PolypGen 真实退化和移动端速度上优于多类 baseline;关键对象是 MiT-B0 多尺度特征、pseudo-depth target、Dice loss、Smooth-L1 depth loss、uncertainty weighting、GFM、ISF、DGG;真正负载在“伪深度是否真能提供比外观更稳的结构监督”和“退化评测是否贴近临床”;主要失败风险是 synthetic degradation 与真实临床域仍有差距,以及伪深度教师模型可能引入不可控偏差。

3. 现有方法不足

作者认为已有方法主要有三类不足:

  1. Transformer / hybrid 大模型:干净图像上效果强,但参数常超过 30M,在 blur/noise 下 Dice 可大幅下降,且不适合移动端或内镜实时部署。
  2. 轻量模型:参数和 FLOPs 低,但表示能力有限,在退化输入下预测容易碎裂或漏检。
  3. 边缘/显著性等多任务辅助:edge/saliency cue 本身也受模糊、反光、低对比影响,鲁棒性提升有限。

作者进一步批评领域评测习惯:多数论文只在 clean test set 上报告 Dice/IoU,忽略真实内镜视频退化,因此高估了 clinical deployment reliability。

4. 方法总览

DepthPolyp 由一个轻量 segmentation network 和训练期 pseudo-depth supervision 组成:

  1. Encoder:采用 MiT-B0 encoder,输出四个多尺度特征 c1..c4
  2. Feature projection:每个尺度通过 token-wise linear layer 投影到统一 channel,并 reshape/upsample 到 H/4 × W/4\tilde{c_i} = Upsample(reshape(MLP_i(c_i)), size=(H/4,W/4))
  3. Hierarchical factorized decoder:将四尺度特征送入 GFM,分成 primary stream 与 auxiliary stream,再用 ISF 做低成本跨尺度/跨组信息交换,最后 concat 后由 DGG 做 group-wise 自适应调制,得到 F_out
  4. Dual heads during training:segmentation head 输出 S_logit,depth head 输出归一化深度 D
  5. Pseudo-depth supervision:用 frozen Depth-Anything v2-small 为输入图像生成相对深度 D*,只在训练时监督 depth head;推理时不需要 Depth-Anything,因此没有额外 inference overhead。
  6. Loss:segmentation 用 Dice loss;depth 用 Smooth-L1;二者通过 Kendall uncertainty weighting 自动平衡:L = 1/(2σ_s^2)L_seg + 1/(2σ_d^2)L_depth + log σ_s + log σ_d
  7. Robustness protocol:建立 Clean→Clean、Clean→Noisy、Noisy→Clean、Noisy→Noisy 四象限评测,并在 PolypGen sequences 18–22 上做真实退化评估。

5. 核心模块拆解

模块 A:Pseudo-depth-guided multi-task learning
- 输入:RGB colonoscopy image;Depth-Anything v2-small 生成的 normalized pseudo-depth。
- 输出:训练期 depth prediction 与 segmentation prediction。
- 解决问题:当外观受到 blur、specular reflection、illumination shift 干扰时,深度/几何结构相对更稳定,可作为表征正则。
- 创新性判断:伪深度用于 polyp segmentation 不是完全首次,但本文把它与退化鲁棒、轻量部署和四象限评测绑定,贡献更清楚。
- 可迁移性:非常适合迁移到 polyp segmentation;也可用于内镜 surgical scene segmentation。对 3D medical image segmentation 价值较弱,因为 3D CT/MRI 本身已有体素几何,伪单目深度概念不直接适用。

模块 B:Ghost Factorization Module (GFM)
- 输入:统一尺度后的 feature map X
- 输出:primary component X_p = PWConv(X) 与 auxiliary component X_a = DWConv(X_p),并满足 C_p + C_a = C_out
- 作用:用 pointwise + depthwise cheap operation 近似更重的 dense convolution,主要贡献效率而非语义解耦。
- 证据:ablation 中去掉 GFM Dice 只从 0.784 降到 0.776,但 iPhone FPS 从 181.54 降到 131.39,说明 GFM 主要提升速度。

模块 C:Interleaved Shuffle Fusion (ISF)
- 输入:跨尺度 concat 后的 primary/auxiliary stream。
- 操作:将 channel 分成 4 组,做 deterministic channel shuffle,再用 depthwise convolution 进行空间 refinement,最后用 group-wise learnable scale γ 残差加回。
- 作用:低成本增强跨组/跨尺度交流。
- 证据:去掉 ISF 后 Avg Dice 0.784→0.760,说明它对鲁棒分割有实质贡献。

模块 D:Dynamic Group Gating (DGG)
- 输入:concat 后的 refined components [SS, SA, AS, AA]
- 操作:把 channel reshape 为 B×G×C_g×H×W,对 channel/spatial 维做平均池化得到 group descriptor,经轻量线性层和 sigmoid 产生 group gates,再残差调制。
- 作用:根据图像内容自适应强调不同组的结构/外观特征。
- 证据:去掉 DGG 后 Avg Dice 0.784→0.736,同时 iPhone FPS 也下降到 147.87,说明 DGG 在精度和实现路径上都重要。

模块 E:Uncertainty-weighted loss
- 输入:segmentation Dice loss 与 depth Smooth-L1 loss。
- 输出:自动平衡的联合目标。
- 作用:避免手动设置 depth loss 权重,稳定 segmentation-depth 多任务优化。
- 证据:去掉 uncertainty loss 后 Avg Dice 从 0.784 降到 0.605,是最严重 ablation;这说明训练权重平衡是方法成败关键,但也提示复现时该模块非常敏感。

6. 实验设计与结果

实验数据包括:Kvasir-SEG 1000 张作为主训练/验证数据;CVC-ClinicDB 612、CVC-ColonDB 380 作为跨域 OOD 评估;PolypGen sequences 18–22 共 273 张作为真实手术退化序列。合成退化包括 motion blur、Gaussian blur、brightness/contrast、JPEG compression、light spots/reflection、fog、optical distortion 等。

关键实验结果:

  • 四象限鲁棒评测(Table 2):DepthPolyp Clean→Clean Dice 0.9107,Clean→Noisy 0.8126,Noisy→Clean 0.8910,Noisy→Noisy 0.8525。所有模型在 Clean→Noisy 都明显下降,说明只用 clean training 不可靠;DepthPolyp 在 Noisy→Noisy 上最高,并且 clean-domain penalty 约 -0.0197。
  • 跨数据集泛化(Table 4):在 noise-aware training 下,DepthPolyp 仅 3.57M 参数、0.86 GMACs;N→N Dice 在 Kvasir/ClinicDB/ColonDB 分别为 0.853/0.751/0.734。相比 SegFormer-B0(3.71M,1.30 GMACs)的 N→N 0.823/0.698/0.621,提升明显,尤其 ColonDB +0.113 Dice。
  • 真实 PolypGen 与速度(Table 5):DepthPolyp PolypGen Dice 0.679、IoU 0.620、Recall 0.788;平均 N→N Dice 0.779。iPhone 15 上 181.54 FPS,RTX 3090 上 79.12 FPS,Raspberry Pi 4 上 4.05 FPS。相比 SegFormer-B0,PolypGen Dice 0.634→0.679,GMACs 1.30→0.86。
  • Ablation(Table 6):完整模型 Avg Dice 0.784;w/o depth guidance 0.759;w/o uncertainty loss 0.605;w/o GFM 0.776;w/o ISF 0.760;w/o DGG 0.736。说明 depth guidance 有中等贡献,uncertainty weighting 与 DGG 是关键贡献。
  • Qualitative:论文展示 motion blur、illumination variation、low contrast、specular highlights 下,DepthPolyp 的 mask 更紧凑、false positives 更少;该证据与 Table 4/5 方向一致。

7. 实验可信度判断

可信之处:

  • 评测问题定义好:clean/noisy train-test 四象限直接揭示 clean benchmark 的过度乐观,这是比单纯刷榜更有价值的实验设计。
  • baseline 覆盖较广:heavyweight、mid-size、lightweight 共 19 个模型,包含 UNet、PraNet、SegFormer-B0/B5、CFFormer、CMUNeXt、ULite、MedT 等。
  • 报告了参数、GMACs、GPU/iPhone/RPi 速度,能支撑“轻量实时”主张。
  • PolypGen sequences 18–22 提供真实退化场景,不只依赖合成噪声。
  • 代码链接可访问,复现条件好于多数 arXiv preprint。

需要谨慎的地方:

  • synthetic degradation 的参数是否真实覆盖临床分布仍不确定;Table 3 给了参数,但没有用户研究或设备分布验证。
  • PolypGen 只用 273 张、5 个序列,真实外部验证仍偏小。
  • 论文没有报告统计显著性或多随机种子方差;速度测试也可能受 CoreML conversion、batch size、输入分辨率影响。
  • Depth-Anything v2 的伪深度在内镜图像上是否可靠并没有单独验证;如果 pseudo-depth 本身在反光/出血/液体场景出错,可能把错误结构先验传给分割模型。
  • 分割 loss 只用 Dice,未加入 boundary loss / focal / BCE;对小息肉和极不平衡场景的稳定性还可进一步考察。

总体判断:证据相对充分,尤其适合支持“鲁棒评测 + 轻量部署”的主张;但“临床可靠”仍不能过度推断,只能说在合成退化和有限 PolypGen 序列上更稳。

8. 与主流医学图像分割框架的关系

  • U-Net / nnU-Net:DepthPolyp 不是 nnU-Net pipeline,也没有自动配置 spacing/patch/loss;它更像轻量 encoder-decoder + specialized decoder。与 U-Net 的共同点是多尺度 encoder-decoder 和 skip/fusion,但 backbone/decoder 设计不同。
  • MedNeXt / CNN-based segmentation:GFM/ISF/DGG 属于轻量 CNN-style decoder 模块,强调 depthwise/group/shuffle 操作,与 MedNeXt 这类大 kernel/ConvNeXt 化路线不同。
  • UNetR / Swin-UNet / TransUNet / TransFuse / SegFormer:使用 MiT-B0 encoder,与 SegFormer 系列关系较近;但主要创新不在 Transformer block,而在轻量 decoder 和伪深度多任务正则。
  • Mamba / VMamba / SegMamba / DAMamba:没有使用 Mamba;与 DAMamba 的关系主要是可作为 polyp robustness baseline,或把 depth-guided auxiliary loss 加到 Mamba segmentation 框架里。
  • Foundation model / SAM / MedSAM:没有使用 SAM 做 promptable segmentation;但用 Depth-Anything v2 作为 frozen foundation model 生成 pseudo-depth,因此属于“借助视觉 foundation model 产生训练监督”的路线。

9. 对我课题的价值

对用户课题的价值很高,尤其是 polyp segmentation:

  1. 可作为鲁棒性实验模板:Clean→Clean / Clean→Noisy / Noisy→Clean / Noisy→Noisy 四象限非常适合加入用户论文实验部分,比只报 Kvasir/ClinicDB Dice 更有说服力。
  2. 可作为 DAMamba 改造方向:不需要改 Mamba block,也可以把 Depth-Anything pseudo-depth auxiliary head 与 uncertainty loss 加到 DAMamba 训练中,验证 depth regularization 是否改善反光/模糊场景。
  3. 可作为轻量 baseline:3.57M、0.86 GMACs、移动端 181 FPS,对实时内镜部署或 lightweight segmentation 相关 work 很有参考价值。
  4. related work 价值:可归入 robustness-oriented polyp segmentation、depth-guided auxiliary supervision、deployment-aware lightweight segmentation 三类。
  5. 复现建议:优先复现实验协议和 loss,而不是完全复刻所有 decoder 模块;先比较 w/ vs w/o pseudo-depth 和 uncertainty weighting,再决定是否加入 GFM/ISF/DGG。

10. 阅读建议

强烈建议精读全文并优先复现实验协议。 如果用户近期做 polyp segmentation 或 DAMamba 的真实场景鲁棒性,DepthPolyp 比很多只在 clean benchmark 上刷小幅 Dice 的论文更值得投入;建议先读 Section 3.6、4.2、4.4、Table 4–6,再看 decoder 细节。


今日推荐优先级

  1. DepthPolyp:最值得先读和复现。原因是问题定义更贴近真实 polyp segmentation,代码可访问,评测设计完整,且 pseudo-depth + uncertainty loss 很容易迁移到用户现有 DAMamba / U-Net / Transformer baseline 中。
  2. Patch-MoE Mamba:适合做 Mamba-based segmentation 结构改造参考,尤其是 patch-ordered scanning;但完整 MoE 版本成本过高,建议把它作为 DAMamba 扫描/融合模块灵感,而不是直接整体采用。

今日 PDF 获取情况

  • 论文 1:已附 PDF。MEDIA:/tmp/medseg_daily_2026-05-20/patch_moe_mamba_2605.17719.pdf;PDF 链接:https://arxiv.org/pdf/2605.17719
  • 论文 2:已附 PDF。MEDIA:/tmp/medseg_daily_2026-05-20/depthpolyp_2605.16519.pdf;PDF 链接:https://arxiv.org/pdf/2605.16519

今日可执行建议

  1. 先复现 DepthPolyp 的四象限鲁棒评测协议:在 Kvasir-SEG / ClinicDB / ColonDB 上构造 clean/noisy train-test,给现有 U-Net、TransFuse、DAMamba 加同样退化评测,这会显著增强论文实验说服力。
  2. 把 DepthPolyp 的 pseudo-depth auxiliary loss 移植到 DAMamba:先不改网络结构,只加 depth head + Depth-Anything pseudo-depth + uncertainty weighting,看在 blur/reflection/noisy polyp 上 Dice/IoU/Recall 是否稳定提升。
  3. 从 Patch-MoE Mamba 中只借用 patch-ordered scanning 做轻量消融:先替换 DAMamba/VM-UNet 的扫描顺序,暂不加入完整 MoE concat expert;若有效,再设计低成本 direction gating,避免 70M 参数和 28G FLOPs 的开销。

参考链接

  • Patch-MoE Mamba arXiv:https://arxiv.org/abs/2605.17719
  • Patch-MoE Mamba PDF:https://arxiv.org/pdf/2605.17719
  • DepthPolyp arXiv:https://arxiv.org/abs/2605.16519
  • DepthPolyp PDF:https://arxiv.org/pdf/2605.16519
  • DepthPolyp code:https://github.com/ReaganWu/DepthPolyp/
此作者没有提供个人介绍。
最后更新于 2026-05-20