今日医学图像分割最新论文精读追踪

今日结论

今天未检索到明确已正式接收 MICCAI / CVPR / ICCV / ECCV / NeurIPS / ICLR / MedIA / TMI 等顶会顶刊、且尚未被本任务推荐过的全新医学图像分割论文；去重后，最值得关注的是两篇 2026 年 arXiv 新稿：Patch-MoE Mamba 与 DepthPolyp。前者代表 Mamba/VM-UNet 系列在扫描顺序与方向融合上的结构改造，后者代表面向真实内镜退化场景的轻量级 polyp segmentation 与鲁棒评测趋势；两篇都比单纯“堆模块”更有复现和改造价值，但 Patch-MoE Mamba 的计算开销和 DepthPolyp 的伪深度依赖都需要谨慎看待。

检索说明

今日检索范围覆盖 arXiv 2026-05-18/2026-05-15 最新提交、medical image segmentation、polyp segmentation、Mamba medical segmentation、3D medical image segmentation、foundation model for medical segmentation 等关键词，并对历史输出文件 /tmp/medseg_daily_* 中的标题、arXiv ID 与 PDF 链接做了去重检查。今天未发现当天可确认的顶会/顶刊正式接收医学图像分割新论文，因此从最新且 PDF 可获取的 arXiv preprint 中筛选；其中 DepthPolyp 的 GitHub 页面标注为 ICPR 2026 official implementation，但 arXiv 元数据仍按 preprint 处理。所有入选论文均为 2025 年及以后。已检查历史推荐记录并排除了重复论文；本次跳过的重复候选包括 Semi-MedRef、Evaluation of Anatomical Shape Priors、Med-DisSeg、SpectraFlow、MedCore、FEFormer、USEMA、CMFDNet、Topo-VM-UNetV2 等。

WordPress 发布

WordPress 文章链接：待发布后回填
WordPress Post ID：待发布后回填

论文 1：Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation

基本信息

标题：Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation
作者 / 第一作者：Diego Adame, Fabian Vazquez, Jose A. Nuñez, Huimin Li, Jinghao Yang, Erik Enriquez, DongChul Kim, Haoteng Tang, Bin Fu, Pengfei Gu / 第一作者 Diego Adame
时间：2026-05-18 arXiv v1
来源：arXiv preprint，arXiv:2605.17719
论文页面链接：https://arxiv.org/abs/2605.17719
PDF 文件 / PDF 链接：MEDIA:/tmp/medseg_daily_2026-05-20/patch_moe_mamba_2605.17719.pdf；https://arxiv.org/pdf/2605.17719
代码链接：未获取；arXiv 页面与 PDF 正文未确认官方代码链接
任务：2D medical image segmentation；主要为 polyp segmentation，并扩展到 skin lesion segmentation
数据集：Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、ETIS、CVC-300；ISIC 2017、ISIC 2018
方法类型：U-Net-style encoder-decoder；Mamba / VM-UNetV2 改造；patch-ordered scanning；Mixture-of-Experts directional fusion；SDI skip/feature infusion

paper-deep-reader 精读结果

1. 一句话结论

Patch-MoE Mamba 最有价值的点不是提出一个全新分割范式，而是把 Vision Mamba 在医学分割中的两个具体痛点——像素级扫描破坏二维邻域、固定方向求和缺乏自适应性——改成了“局部 patch 顺序扫描 + 空间位置相关 MoE 方向融合”，适合作为 DAMamba / VM-UNet 类工作的结构改造参考。

2. 研究背景与核心问题

论文研究的是 Mamba-based medical image segmentation，核心场景是息肉和皮肤病灶这类边界细、形态变化大、局部纹理与长程上下文都重要的 2D 分割任务。作者认为 CNN 受限于局部感受野，Transformer 有二次复杂度和数据需求问题，而 Mamba/SSM 以线性序列复杂度建模长程依赖，适合作为医学分割 encoder。但现有 Vision Mamba 分割模型通常把二维特征图直接展平成一维序列，再沿固定方向扫描；这会让二维相邻像素在序列中相距很远，特别不利于小病灶、低对比边界和局部结构保持。第二个问题是多方向扫描结果常用简单求和融合，默认每个方向在每个空间位置同等重要，无法适配不同大小、方向、边界复杂度的目标。

内部 paper map 可概括为：本文在 VM-UNetV2 式医学分割框架中研究 Vision Mamba 的扫描与融合机制；主招是 patch-ordered scanning 保持局部二维连续性，并用 spatial-aware MoE 替代固定方向求和；主要声称在五个息肉数据集与两个 ISIC 数据集上优于 U-Net、U-Net v2、VM-UNet、VM-UNetV2；关键技术对象是 patch permutation、四方向 Mamba scanner、五专家融合、router gating 与 residual directional addition；真正负载在“扫描顺序是否保留局部性”和“MoE 融合收益是否抵得上开销”；主要失败风险是增益较小但参数/FLOPs 大幅增加。

3. 现有方法不足

作者针对的不足很明确：

CNN / U-Net 系列：局部卷积有利于边界，但长程依赖建模弱，难以捕捉大范围上下文。
Transformer 分割模型：全局建模强，但计算和显存成本高，对医学小数据集不总是友好。
VM-UNet / VM-UNetV2 / Vision Mamba 类模型：虽然线性复杂度有吸引力，但常见 raster 或方向扫描会把二维邻域关系压成一维顺序，垂直相邻像素在序列中可能相距整行长度；此外方向输出简单相加，无法根据局部对象形态选择更有用的方向/尺度响应。

这个批评对 Mamba-based segmentation 比较切中要害，因为医学分割不是图像分类，边界局部连续性与空间排列误差会直接反映到 mask 质量。

4. 方法总览

整体框架仍是 U-Net-style segmentation network：

Encoder：以 VM-UNetV2 的 Visual State Space block 为基础，把原 VSS block 替换为 Patch-MoE VSS block。
Patch-ordered scanning：给定特征图 X_l ∈ R^{C_l × H_l × W_l} 与 patch size p，先把空间网格划分为非重叠 p×p 局部 patch；每个 patch 内按 row-major 顺序枚举像素，再进入下一个 patch。这样 token 数不变、分辨率不变，只改变 Mamba 的访问顺序，使 patch 内像素在序列中连续。
Hierarchical patch sizes：不同 stage / 不同方向可使用不同 patch size，例如较大 patch 捕捉粗结构，较小 patch 保留边界细节。论文的 patch-size ablation 显示某些组合比固定 8/8/4/4 更好。
Four directional scanners：沿 forward、reverse、WH forward、WH reverse 四个方向扫描，每个方向输出一个 feature map Y_l^{(i)}。
MoE-based directional fusion：四个方向输出先经 GroupNorm 形成四个方向专家；再把四个方向 concat 后经 1×1 Conv + BN + ReLU 构造第五个 concat expert。Router 用 raw directional outputs 的局部 DWConv3×3 描述和全局 GAP 描述，经可学习 α 混合后产生每个空间位置的 5 个 expert 权重。
Residual directional addition：最终输出不是纯 MoE 加权和，而是 Z_l = \tilde{Y}_l + Σ_i Y_l^{(i)}，用残差方向和稳定训练，避免 router 早期退化。
Decoder / SDI：论文采用 U-Net v2 的 Semantics and Detail Infusion（SDI）模块，用 Hadamard product 将高层语义与低层细节注入不同尺度特征，decoder 基本保留 VM-UNetV2 设计。

5. 核心模块拆解

模块 A：Patch-ordered scanning
- 输入：encoder stage 的二维特征图 X_l。
- 输出：重排后的一维序列，随后经 Mamba/SSM 处理并 reshape 回二维。
- 解决问题：减轻 raster flattening 导致的二维邻域断裂，尤其保护局部边界与小病灶结构。
- 创新性判断：思路朴素但有效，属于对 Vision Mamba 序列化方式的合理医学分割适配；比“只换 Mamba block 名字”更有针对性。
- 可迁移性：很适合迁移到 DAMamba、VM-UNet、SegMamba、2D polyp segmentation 框架；对 3D medical image segmentation 也可扩展成 block/patch/voxel ordering，但需要重新考虑三维邻域、显存和扫描方向。

模块 B：Hierarchical patch sizes
- 输入：多 stage feature maps 与不同方向扫描。
- 输出：不同局部尺度的序列化路径。
- 作用：用大 patch 增强区域上下文，用小 patch 捕捉细边界。
- 评价：论文做了 patch-size 表格，但配置字符串解释不够直观；作为超参数可能数据集相关，复现时应单独调参。

模块 C：MoE directional fusion
- 输入：四个方向 Mamba 输出 Y_l^{(1..4)}。
- 输出：空间位置相关的融合特征 \tilde{Y}_l。
- 解决问题：替代固定求和，让模型在小息肉、边界区域、背景干扰区域选择不同方向/concat expert。
- 创新性判断：把 MoE 用于方向融合是合理扩展，但不是稀疏大模型意义上的 MoE；更像 spatial attention / dynamic fusion。
- 可迁移性：适合插到 DAMamba 的多方向扫描融合处，也适合做“轻量 router + 方向融合”消融；但原版 concat expert 代价很大。

模块 D：Residual directional addition
- 输入：MoE 融合输出与四个 raw directional outputs。
- 输出：稳定后的 block 输出。
- 作用：保留 VM-UNetV2 固定方向求和的强 baseline，避免 gating 学坏。
- 关键 caveat：复杂度表显示 “w/o Residual Addition” 与完整模型参数/FLOPs 相同，因此残差本身不增加复杂度；真正增加开销的是 concat expert / MoE 结构。

6. 实验设计与结果

实验覆盖五个息肉数据集和两个皮肤病灶数据集。息肉实验沿用 U-Net v2 协议：Kvasir-SEG 900 张 + ClinicDB 550 张训练；测试包括 CVC-300 60、ColonDB 380、ETIS 196、Kvasir-SEG 100、ClinicDB 62。ISIC 2017/2018 使用 U-Net v2 的 train/test split。训练设置包括 PyTorch、A100 80GB、AdamW、lr 1e-3、batch size 80、256×256、300 epochs、cosine annealing，VMamba-S 预训练初始化。

主要结果：

Polyp datasets：相比 VM-UNetV2，Patch-MoE Mamba 在 Dice 上整体提升有限但较稳定。Kvasir-SEG 90.82→90.90，ClinicDB 90.52→91.32，ColonDB 76.62→77.94，ETIS 72.56→74.04，CVC-300 86.80→87.31。最大收益在 ColonDB/ETIS 这类更难泛化的数据集。
ISIC 2017/2018：ISIC 2017 Dice 90.23→90.85，ISIC 2018 Dice 88.36→89.34，相对 VM-UNetV2 也有小幅提升。
Ablation：VM-UNetV2 平均 Dice 83.46；加入 patch-ordered scanning 到 84.02；再加 MoE fusion 到 84.30。说明主要收益来自 patch scanning，MoE 继续贡献约 0.28 Dice。
Complexity：这是最大问题。U-Net v2 为 25.15M/5.58G，VM-UNetV2 为 22.77M/5.31G，而 Patch-MoE Mamba 达到 70.06M/28.18G。即用约 3× 参数、5× FLOPs 换取约 0.8 Dice 平均提升。

7. 实验可信度判断

可信之处：

使用了 5 个 polyp benchmark 和 2 个 ISIC benchmark，任务覆盖比单一数据集更好。
表 I 声明每个实验用 5 个随机种子，报告 mean ± std，这比只报单次结果更可信。
有组件消融和 patch-size 消融，能初步分离 patch scanning 与 MoE fusion 的贡献。
baseline 选择包含 U-Net、U-Net v2、VM-UNet、VM-UNetV2，与论文主张直接相关。

不足之处：

增益与复杂度不成比例。MoE 完整模型 70.06M/28.18G，而提升多数在 0.1–1.5 Dice 范围；若目标是实时内镜或轻量部署，不划算。
缺少与更强 polyp SOTA（如 PraNet、Polyp-PVT、CFFormer、近期 foundation/SAM adapter 类方法）的完整比较；仅与 U-Net/VM-UNet 系列比较会让“state-of-the-art”含义变窄。
没有统计显著性检验；虽然有均值方差，但未说明 test split 上是否显著。
没有外部真实视频/退化鲁棒性评估，也没有边界指标如 HD95、Boundary F1；而方法叙事强调边界与局部结构。
官方代码未确认，复现风险高。

总体判断：方法机制可信，实验能支持“相对 VM-UNetV2 有稳定小幅提升”，但不足以支持“计算代价无关紧要”或“全面优于所有现代 polyp segmentation 方法”的强表述。

8. 与主流医学图像分割框架的关系

U-Net / U-Net v2：整体仍是 U-Net encoder-decoder 范式，SDI 模块直接来自 U-Net v2。它不是摆脱 U-Net，而是在 U-Net scaffold 中替换 encoder block。
nnU-Net：论文没有按 nnU-Net 的 3D/2D 自适应 pipeline 做实验，也没有讨论 spacing、patch sampling、loss/augmentation 自动配置，因此不能视为 nnU-Net 改进；更适合作为 nnU-Net 之外的研究型 backbone。
UNetR / Swin-UNet / TransUNet / TransFuse：论文把 Transformer 的二次复杂度作为对照动机，但实验没有系统比较这些模型；Mamba 的优势主要体现在序列复杂度理论，而实际 FLOPs 因 MoE concat expert 变高。
Mamba / VMamba / SegMamba / DAMamba / VM-UNetV2：关系最直接。可看作 VM-UNetV2 的 VSS block 改造：扫描顺序从 pixel raster 变为 patch ordered，方向融合从 sum 变为 spatial-aware MoE。
Foundation model for medical segmentation：没有使用 SAM/MedSAM 或 foundation model prompt；与 foundation model 关系弱。

9. 对我课题的价值

对用户关注的 polyp segmentation 和 DAMamba 改造，本文值得重点看：

DAMamba 改造价值高：patch-ordered scanning 可以作为替换现有 directional scan 的低概念成本模块，先单独验证，不必一开始加入重 MoE。
polyp segmentation baseline 价值中高：五个经典 polyp 数据集覆盖完整，训练/测试协议明确，可作为 Mamba-polyp 分支的 related work 和对比对象。
模块复用建议：优先复用 patch-ordered scanning；MoE fusion 可改成轻量版，比如去掉 concat expert、用 depthwise separable 1×1 或 channel grouping，避免 70M 参数。
3D medical segmentation 价值有限但可启发：3D 扫描顺序更复杂，直接照搬会引起显存和各向异性 spacing 问题；可作为“局部 voxel block ordering”思路，而不是直接实现。

10. 阅读建议

建议精读全文，但以方法和消融为主，实验结论要带着复杂度折扣阅读。 如果用户正在做 DAMamba / VM-UNet / polyp segmentation，建议先读 Section II-B/II-C 与 Table III/V，再决定是否复现；如果目标是轻量实时模型，则不建议直接采用完整 Patch-MoE Mamba。

论文 2：DepthPolyp: Pseudo-Depth Guided Lightweight Segmentation for Real-Time Colonoscopy

基本信息

标题：DepthPolyp: Pseudo-Depth Guided Lightweight Segmentation for Real-Time Colonoscopy
作者 / 第一作者：Zhuoyu Wu, Wenhui Ou, Lexi Zhang, Pei-Sze Tan, Dongjun Wu, Junhe Zhao, Wenqi Fang, Raphaël C.-W. Phan / 第一作者 Zhuoyu Wu
时间：2026-05-15 arXiv v1
来源：arXiv preprint，arXiv:2605.16519；GitHub 描述标注 [ICPR'26 Official Implementation]，但本文检索以 arXiv preprint 为准
论文页面链接：https://arxiv.org/abs/2605.16519
PDF 文件 / PDF 链接：MEDIA:/tmp/medseg_daily_2026-05-20/depthpolyp_2605.16519.pdf；https://arxiv.org/pdf/2605.16519
代码链接：https://github.com/ReaganWu/DepthPolyp/
任务：real-time colonoscopy polyp segmentation；鲁棒/轻量/退化场景分割
数据集：Kvasir-SEG、CVC-ClinicDB、CVC-ColonDB、PolypGen sequences 18–22；合成退化 clean/noisy 评测
方法类型：MiT-B0 encoder + lightweight decoder；pseudo-depth-guided multi-task learning；Ghost Factorization Module；Interleaved Shuffle Fusion；Dynamic Group Gating；uncertainty-weighted loss

paper-deep-reader 精读结果

1. 一句话结论

DepthPolyp 的最大价值在于把 polyp segmentation 从“干净 benchmark 上刷 Dice”推向“真实内镜退化 + 轻量部署 + 伪深度训练正则”的组合评测，尤其适合作为用户做息肉分割鲁棒性实验和部署型 baseline 的参考。

2. 研究背景与核心问题

本文聚焦实时结肠镜息肉分割。临床内镜视频中常见 motion blur、specular reflections、illumination instability、defocus、fog/JPEG artifacts 等退化，而很多 polyp segmentation 方法只在 Kvasir、ClinicDB 等干净图片上评测，导致 clean benchmark 成绩高但真实手术场景预测不稳定。作者的核心问题是：能否设计一个参数量和计算量足够小、在移动端/嵌入式设备上实时运行，同时在退化内镜图像和真实 PolypGen 序列上保持鲁棒的分割框架？

内部 paper map 可概括为：论文研究真实退化内镜场景下的轻量息肉分割；主招是用 Depth-Anything v2 生成 pseudo-depth，在训练时作为辅助任务正则，并配合 GFM/ISF/DGG 轻量 decoder；主要声称 DepthPolyp 在 clean/noisy 四象限评测、跨数据集泛化、PolypGen 真实退化和移动端速度上优于多类 baseline；关键对象是 MiT-B0 多尺度特征、pseudo-depth target、Dice loss、Smooth-L1 depth loss、uncertainty weighting、GFM、ISF、DGG；真正负载在“伪深度是否真能提供比外观更稳的结构监督”和“退化评测是否贴近临床”；主要失败风险是 synthetic degradation 与真实临床域仍有差距，以及伪深度教师模型可能引入不可控偏差。

3. 现有方法不足

作者认为已有方法主要有三类不足：

Transformer / hybrid 大模型：干净图像上效果强，但参数常超过 30M，在 blur/noise 下 Dice 可大幅下降，且不适合移动端或内镜实时部署。
轻量模型：参数和 FLOPs 低，但表示能力有限，在退化输入下预测容易碎裂或漏检。
边缘/显著性等多任务辅助：edge/saliency cue 本身也受模糊、反光、低对比影响，鲁棒性提升有限。

作者进一步批评领域评测习惯：多数论文只在 clean test set 上报告 Dice/IoU，忽略真实内镜视频退化，因此高估了 clinical deployment reliability。

4. 方法总览

DepthPolyp 由一个轻量 segmentation network 和训练期 pseudo-depth supervision 组成：

Encoder：采用 MiT-B0 encoder，输出四个多尺度特征 c1..c4。
Feature projection：每个尺度通过 token-wise linear layer 投影到统一 channel，并 reshape/upsample 到 H/4 × W/4：\tilde{c_i} = Upsample(reshape(MLP_i(c_i)), size=(H/4,W/4))。
Hierarchical factorized decoder：将四尺度特征送入 GFM，分成 primary stream 与 auxiliary stream，再用 ISF 做低成本跨尺度/跨组信息交换，最后 concat 后由 DGG 做 group-wise 自适应调制，得到 F_out。
Dual heads during training：segmentation head 输出 S_logit，depth head 输出归一化深度 D。
Pseudo-depth supervision：用 frozen Depth-Anything v2-small 为输入图像生成相对深度 D*，只在训练时监督 depth head；推理时不需要 Depth-Anything，因此没有额外 inference overhead。
Loss：segmentation 用 Dice loss；depth 用 Smooth-L1；二者通过 Kendall uncertainty weighting 自动平衡：L = 1/(2σ_s^2)L_seg + 1/(2σ_d^2)L_depth + log σ_s + log σ_d。
Robustness protocol：建立 Clean→Clean、Clean→Noisy、Noisy→Clean、Noisy→Noisy 四象限评测，并在 PolypGen sequences 18–22 上做真实退化评估。

5. 核心模块拆解

模块 A：Pseudo-depth-guided multi-task learning
- 输入：RGB colonoscopy image；Depth-Anything v2-small 生成的 normalized pseudo-depth。
- 输出：训练期 depth prediction 与 segmentation prediction。
- 解决问题：当外观受到 blur、specular reflection、illumination shift 干扰时，深度/几何结构相对更稳定，可作为表征正则。
- 创新性判断：伪深度用于 polyp segmentation 不是完全首次，但本文把它与退化鲁棒、轻量部署和四象限评测绑定，贡献更清楚。
- 可迁移性：非常适合迁移到 polyp segmentation；也可用于内镜 surgical scene segmentation。对 3D medical image segmentation 价值较弱，因为 3D CT/MRI 本身已有体素几何，伪单目深度概念不直接适用。

模块 B：Ghost Factorization Module (GFM)
- 输入：统一尺度后的 feature map X。
- 输出：primary component X_p = PWConv(X) 与 auxiliary component X_a = DWConv(X_p)，并满足 C_p + C_a = C_out。
- 作用：用 pointwise + depthwise cheap operation 近似更重的 dense convolution，主要贡献效率而非语义解耦。
- 证据：ablation 中去掉 GFM Dice 只从 0.784 降到 0.776，但 iPhone FPS 从 181.54 降到 131.39，说明 GFM 主要提升速度。

模块 C：Interleaved Shuffle Fusion (ISF)
- 输入：跨尺度 concat 后的 primary/auxiliary stream。
- 操作：将 channel 分成 4 组，做 deterministic channel shuffle，再用 depthwise convolution 进行空间 refinement，最后用 group-wise learnable scale γ 残差加回。
- 作用：低成本增强跨组/跨尺度交流。
- 证据：去掉 ISF 后 Avg Dice 0.784→0.760，说明它对鲁棒分割有实质贡献。

模块 D：Dynamic Group Gating (DGG)
- 输入：concat 后的 refined components [SS, SA, AS, AA]。
- 操作：把 channel reshape 为 B×G×C_g×H×W，对 channel/spatial 维做平均池化得到 group descriptor，经轻量线性层和 sigmoid 产生 group gates，再残差调制。
- 作用：根据图像内容自适应强调不同组的结构/外观特征。
- 证据：去掉 DGG 后 Avg Dice 0.784→0.736，同时 iPhone FPS 也下降到 147.87，说明 DGG 在精度和实现路径上都重要。

模块 E：Uncertainty-weighted loss
- 输入：segmentation Dice loss 与 depth Smooth-L1 loss。
- 输出：自动平衡的联合目标。
- 作用：避免手动设置 depth loss 权重，稳定 segmentation-depth 多任务优化。
- 证据：去掉 uncertainty loss 后 Avg Dice 从 0.784 降到 0.605，是最严重 ablation；这说明训练权重平衡是方法成败关键，但也提示复现时该模块非常敏感。

6. 实验设计与结果

实验数据包括：Kvasir-SEG 1000 张作为主训练/验证数据；CVC-ClinicDB 612、CVC-ColonDB 380 作为跨域 OOD 评估；PolypGen sequences 18–22 共 273 张作为真实手术退化序列。合成退化包括 motion blur、Gaussian blur、brightness/contrast、JPEG compression、light spots/reflection、fog、optical distortion 等。

关键实验结果：

四象限鲁棒评测（Table 2）：DepthPolyp Clean→Clean Dice 0.9107，Clean→Noisy 0.8126，Noisy→Clean 0.8910，Noisy→Noisy 0.8525。所有模型在 Clean→Noisy 都明显下降，说明只用 clean training 不可靠；DepthPolyp 在 Noisy→Noisy 上最高，并且 clean-domain penalty 约 -0.0197。
跨数据集泛化（Table 4）：在 noise-aware training 下，DepthPolyp 仅 3.57M 参数、0.86 GMACs；N→N Dice 在 Kvasir/ClinicDB/ColonDB 分别为 0.853/0.751/0.734。相比 SegFormer-B0（3.71M，1.30 GMACs）的 N→N 0.823/0.698/0.621，提升明显，尤其 ColonDB +0.113 Dice。
真实 PolypGen 与速度（Table 5）：DepthPolyp PolypGen Dice 0.679、IoU 0.620、Recall 0.788；平均 N→N Dice 0.779。iPhone 15 上 181.54 FPS，RTX 3090 上 79.12 FPS，Raspberry Pi 4 上 4.05 FPS。相比 SegFormer-B0，PolypGen Dice 0.634→0.679，GMACs 1.30→0.86。
Ablation（Table 6）：完整模型 Avg Dice 0.784；w/o depth guidance 0.759；w/o uncertainty loss 0.605；w/o GFM 0.776；w/o ISF 0.760；w/o DGG 0.736。说明 depth guidance 有中等贡献，uncertainty weighting 与 DGG 是关键贡献。
Qualitative：论文展示 motion blur、illumination variation、low contrast、specular highlights 下，DepthPolyp 的 mask 更紧凑、false positives 更少；该证据与 Table 4/5 方向一致。

7. 实验可信度判断

可信之处：

评测问题定义好：clean/noisy train-test 四象限直接揭示 clean benchmark 的过度乐观，这是比单纯刷榜更有价值的实验设计。
baseline 覆盖较广：heavyweight、mid-size、lightweight 共 19 个模型，包含 UNet、PraNet、SegFormer-B0/B5、CFFormer、CMUNeXt、ULite、MedT 等。
报告了参数、GMACs、GPU/iPhone/RPi 速度，能支撑“轻量实时”主张。
PolypGen sequences 18–22 提供真实退化场景，不只依赖合成噪声。
代码链接可访问，复现条件好于多数 arXiv preprint。

需要谨慎的地方：

synthetic degradation 的参数是否真实覆盖临床分布仍不确定；Table 3 给了参数，但没有用户研究或设备分布验证。
PolypGen 只用 273 张、5 个序列，真实外部验证仍偏小。
论文没有报告统计显著性或多随机种子方差；速度测试也可能受 CoreML conversion、batch size、输入分辨率影响。
Depth-Anything v2 的伪深度在内镜图像上是否可靠并没有单独验证；如果 pseudo-depth 本身在反光/出血/液体场景出错，可能把错误结构先验传给分割模型。
分割 loss 只用 Dice，未加入 boundary loss / focal / BCE；对小息肉和极不平衡场景的稳定性还可进一步考察。

总体判断：证据相对充分，尤其适合支持“鲁棒评测 + 轻量部署”的主张；但“临床可靠”仍不能过度推断，只能说在合成退化和有限 PolypGen 序列上更稳。

8. 与主流医学图像分割框架的关系

U-Net / nnU-Net：DepthPolyp 不是 nnU-Net pipeline，也没有自动配置 spacing/patch/loss；它更像轻量 encoder-decoder + specialized decoder。与 U-Net 的共同点是多尺度 encoder-decoder 和 skip/fusion，但 backbone/decoder 设计不同。
MedNeXt / CNN-based segmentation：GFM/ISF/DGG 属于轻量 CNN-style decoder 模块，强调 depthwise/group/shuffle 操作，与 MedNeXt 这类大 kernel/ConvNeXt 化路线不同。
UNetR / Swin-UNet / TransUNet / TransFuse / SegFormer：使用 MiT-B0 encoder，与 SegFormer 系列关系较近；但主要创新不在 Transformer block，而在轻量 decoder 和伪深度多任务正则。
Mamba / VMamba / SegMamba / DAMamba：没有使用 Mamba；与 DAMamba 的关系主要是可作为 polyp robustness baseline，或把 depth-guided auxiliary loss 加到 Mamba segmentation 框架里。
Foundation model / SAM / MedSAM：没有使用 SAM 做 promptable segmentation；但用 Depth-Anything v2 作为 frozen foundation model 生成 pseudo-depth，因此属于“借助视觉 foundation model 产生训练监督”的路线。

9. 对我课题的价值

对用户课题的价值很高，尤其是 polyp segmentation：

可作为鲁棒性实验模板：Clean→Clean / Clean→Noisy / Noisy→Clean / Noisy→Noisy 四象限非常适合加入用户论文实验部分，比只报 Kvasir/ClinicDB Dice 更有说服力。
可作为 DAMamba 改造方向：不需要改 Mamba block，也可以把 Depth-Anything pseudo-depth auxiliary head 与 uncertainty loss 加到 DAMamba 训练中，验证 depth regularization 是否改善反光/模糊场景。
可作为轻量 baseline：3.57M、0.86 GMACs、移动端 181 FPS，对实时内镜部署或 lightweight segmentation 相关 work 很有参考价值。
related work 价值：可归入 robustness-oriented polyp segmentation、depth-guided auxiliary supervision、deployment-aware lightweight segmentation 三类。
复现建议：优先复现实验协议和 loss，而不是完全复刻所有 decoder 模块；先比较 w/ vs w/o pseudo-depth 和 uncertainty weighting，再决定是否加入 GFM/ISF/DGG。

10. 阅读建议

强烈建议精读全文并优先复现实验协议。 如果用户近期做 polyp segmentation 或 DAMamba 的真实场景鲁棒性，DepthPolyp 比很多只在 clean benchmark 上刷小幅 Dice 的论文更值得投入；建议先读 Section 3.6、4.2、4.4、Table 4–6，再看 decoder 细节。

今日推荐优先级

DepthPolyp：最值得先读和复现。原因是问题定义更贴近真实 polyp segmentation，代码可访问，评测设计完整，且 pseudo-depth + uncertainty loss 很容易迁移到用户现有 DAMamba / U-Net / Transformer baseline 中。
Patch-MoE Mamba：适合做 Mamba-based segmentation 结构改造参考，尤其是 patch-ordered scanning；但完整 MoE 版本成本过高，建议把它作为 DAMamba 扫描/融合模块灵感，而不是直接整体采用。

今日 PDF 获取情况

论文 1：已附 PDF。MEDIA:/tmp/medseg_daily_2026-05-20/patch_moe_mamba_2605.17719.pdf；PDF 链接：https://arxiv.org/pdf/2605.17719
论文 2：已附 PDF。MEDIA:/tmp/medseg_daily_2026-05-20/depthpolyp_2605.16519.pdf；PDF 链接：https://arxiv.org/pdf/2605.16519

今日可执行建议

先复现 DepthPolyp 的四象限鲁棒评测协议：在 Kvasir-SEG / ClinicDB / ColonDB 上构造 clean/noisy train-test，给现有 U-Net、TransFuse、DAMamba 加同样退化评测，这会显著增强论文实验说服力。
把 DepthPolyp 的 pseudo-depth auxiliary loss 移植到 DAMamba：先不改网络结构，只加 depth head + Depth-Anything pseudo-depth + uncertainty weighting，看在 blur/reflection/noisy polyp 上 Dice/IoU/Recall 是否稳定提升。
从 Patch-MoE Mamba 中只借用 patch-ordered scanning 做轻量消融：先替换 DAMamba/VM-UNet 的扫描顺序，暂不加入完整 MoE concat expert；若有效，再设计低成本 direction gating，避免 70M 参数和 28G FLOPs 的开销。

参考链接

Patch-MoE Mamba arXiv：https://arxiv.org/abs/2605.17719
Patch-MoE Mamba PDF：https://arxiv.org/pdf/2605.17719
DepthPolyp arXiv：https://arxiv.org/abs/2605.16519
DepthPolyp PDF：https://arxiv.org/pdf/2605.16519
DepthPolyp code：https://github.com/ReaganWu/DepthPolyp/

Have a nice day!

2026-05-20 医学图像分割论文精读：Patch-MoE Mamba 与 DepthPolyp

今日医学图像分割最新论文精读追踪

今日结论

检索说明

WordPress 发布

论文 1：Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation

基本信息

paper-deep-reader 精读结果

1. 一句话结论

2. 研究背景与核心问题

3. 现有方法不足

4. 方法总览

5. 核心模块拆解

6. 实验设计与结果

7. 实验可信度判断

8. 与主流医学图像分割框架的关系

9. 对我课题的价值

10. 阅读建议

论文 2：DepthPolyp: Pseudo-Depth Guided Lightweight Segmentation for Real-Time Colonoscopy

基本信息

paper-deep-reader 精读结果

1. 一句话结论

2. 研究背景与核心问题

3. 现有方法不足

4. 方法总览

5. 核心模块拆解

6. 实验设计与结果

7. 实验可信度判断

8. 与主流医学图像分割框架的关系

9. 对我课题的价值

10. 阅读建议

今日推荐优先级

今日 PDF 获取情况

今日可执行建议

参考链接

2026-05-19 医学图像分割论文精读：Semi-MedRef 与 Anatomical Shape Priors

2026-05-21 医学图像分割论文精读：频域原型匹配与多专家不确定性分割