今日医学图像分割最新论文精读追踪

今日结论

今天没有检索到已经明确进入 MICCAI/CVPR/ICCV/ECCV/NeurIPS/ICLR/AAAI/IJCAI/ISBI 或顶刊正式接收的全新医学图像分割论文；因此按任务要求向 2026 年 5 月中旬 arXiv preprint 回溯筛选。今日最值得关注的趋势是：Mamba/State Space Model 仍在医学分割中持续被改造，近期论文主要围绕“如何把 2D/3D 空间结构更合理地序列化”和“如何让多方向/多头 SSM 输出更稳定地融合”。

检索说明

检索范围覆盖 arXiv 最新提交，并以 medical image segmentation、Mamba medical image segmentation、3D brain tumor segmentation、polyp segmentation、universal medical segmentation 等关键词向 2025 年以后回溯；同时检查了本地可用的 cron/session 历史文件路径，但当前环境未发现 session_cron_def34ee3de23_* 或可检索的历史输出文件，因此本次以可用历史记录为空进行去重。所有入选论文均为 2025 年及以后，且均为 arXiv preprint，尚未确认顶会/顶刊正式接收。已检查历史推荐记录并排除了重复论文；本次没有发现可确认的历史重复候选。

WordPress 发布

WordPress 文章链接：待发布后填写
WordPress Post ID：待发布后填写

论文 1：Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation

基本信息

标题：Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation
作者 / 第一作者：Diego Adame, Fabian Vazquez, Jose A. Nuñez, Huimin Li, Jinghao Yang, Erik Enriquez, DongChul Kim, Haoteng Tang, Bin Fu, Pengfei Gu / 第一作者 Diego Adame
时间：2026-05-18（arXiv v1）
来源：arXiv preprint
论文页面链接：https://arxiv.org/abs/2605.17719
PDF 文件 / PDF 链接：https://arxiv.org/pdf/2605.17719
代码链接：未获取 / arXiv 页面与论文正文未给出明确代码仓库
任务：2D medical image segmentation；主要是息肉分割，另含皮肤病灶分割
数据集：Kvasir-SEG、ClinicDB、ColonDB、ETIS、CVC-300；ISIC 2017、ISIC 2018
方法类型：U-Net-style encoder-decoder + VMamba/VM-UNetV2 改造；patch-ordered scanning + MoE directional fusion 的 Mamba-based segmentation framework

paper-deep-reader 精读结果

1. 一句话结论

这篇论文最有价值的点不是“又做了一个 Mamba U-Net”，而是把 Vision Mamba 中容易破坏 2D 邻域关系的像素级扫描，改成 patch-ordered scanning，并用空间自适应 MoE 替代简单方向求和；对 polyp segmentation 的 DAMamba/VM-UNet 系列改造有直接参考价值。

2. 研究背景与核心问题

医学图像分割同时需要局部边界细节和较大范围上下文：息肉边界常低对比、形状不规则，皮肤病灶也存在尺度和纹理变化。CNN/U-Net 的局部归纳偏置有利于边界，但全局依赖建模弱；Transformer 可以建模全局关系，但标准 self-attention 在高分辨率 dense prediction 中成本高。Mamba/SSM 提供线性复杂度的长程建模，因此近年被用于 VM-UNet、VM-UNetV2 等医学分割网络。

作者抓住的核心问题是：现有 Vision Mamba 通常把 2D feature map 直接展平成 1D 序列，并沿固定方向扫描。这样会让空间相邻像素在序列中相距很远，或让序列相邻 token 在图像平面上并不相邻。对 segmentation 来说，这可能损伤边界和小目标的局部一致性。另一个问题是多方向扫描输出通常直接相加，无法根据局部区域的尺度、方向、边界复杂度自适应选择更有用的方向响应。

内部 paper map：论文研究医学图像分割中 Vision Mamba 的空间序列化与方向融合问题，设置为 2D 息肉和皮肤病灶分割；主招是 patch-ordered scanning + MoE-based directional fusion；声称在 5 个息肉数据集和 2 个 ISIC 数据集上优于 U-Net、U-Net v2、VM-UNet、VM-UNetV2；关键对象是 Patch-MoE VSS block、四方向扫描、五专家融合、spatial-aware router、SDI skip enhancement；真正负重在“扫描顺序是否确实保留局部结构”和“MoE 增益是否抵消额外计算”；主要失败风险是实验只比较少数 baselines，且参数/FLOPs 增幅很大。

路由记录：Primary adapter = method-algorithm；Secondary adapter = benchmark-evaluation；Evidence packs = general、experimental-eval、ablation-and-mechanism-isolation、reproducibility-and-compute；Route confidence = 高。原因：论文主要贡献是可移植的模型模块，结论依赖多数据集实验、消融和复杂度比较。

3. 现有方法不足

作者认为现有方法的问题分两层：

CNN/Transformer 层面：CNN 受局部感受野限制，长程依赖不足；Transformer 虽然全局，但 quadratic complexity 和标注数据需求让医学分割不够经济。
Mamba 医学分割层面：
- pixel-wise raster scan 会破坏 2D 局部结构。论文举例说明，在 16×16 grid 中垂直相邻像素可能在序列中相隔 16 个 step。
- 多方向输出简单 summation 假设所有方向、所有尺度在所有位置同等重要，而医学目标的尺度、形状和边界复杂度明显不同。

这个问题定义对 polyp segmentation 很贴切，因为息肉边界、低对比区域、小目标确实容易被不合理的序列化和粗糙融合损伤。

4. 方法总览

整体框架是 U-Net-style 结构：Mamba-based encoder + SDI module + decoder。它以 VM-UNetV2 为基础，替换其中的 VSS block 为 Patch-MoE VSS block；随后采用 U-Net v2 的 Semantics and Detail Infusion（SDI）模块，用高层语义与低层细节通过 Hadamard product 强化多尺度特征；decoder 基本沿用 VM-UNetV2。

核心流程：

输入图像经 encoder 提取多尺度 feature map X_l ∈ R^{C_l × H_l × W_l}。
在每个 Patch-MoE VSS block 中，不按普通 raster order 直接逐像素扫描，而先把 feature map 按 patch size p 分成局部 patch。
每个 patch 内部用 row-major 顺序枚举像素，再进入下一个 patch，由此得到一个 permutation vector；它不减少 token 数，只改变访问顺序。
使用四个方向扫描：forward、reverse、width-height forward、width-height reverse；不同方向可对应不同 patch size，以引入多尺度/各向异性扫描。
四个 directional Mamba outputs 经 GroupNorm 后作为 4 个 expert；再把四个方向 concat 后经 1×1 conv + BN + ReLU 形成第 5 个 concat expert。
spatial-aware router 同时利用 local descriptor（方向输出求和后 depthwise 3×3 conv）和 global descriptor（方向输出求和后 GAP，再 broadcast），用可学习 α 混合后通过两层 1×1 conv 生成每个空间位置的 5 个 expert 权重。
五个 expert 按 softmax 权重加权求和，最后再加回四个 raw directional outputs 的 residual sum，以避免路由退化并保留强方向响应。

5. 核心模块拆解

模块 A：Patch-Ordered Scanning

输入：stage l 的 feature map X_l ∈ R^{C_l×H_l×W_l}。
输出：保持 token 数不变的序列化 feature，只改变 token 顺序。
解决问题：让 patch 内空间邻近像素在 1D sequence 中连续，从而减轻普通 raster scan 对局部结构的破坏。
创新性判断：思想朴素但合理，像是给 Vision Mamba 加上更适合 dense prediction 的局部性约束；比“换一个 Mamba block 名字”更有机制意义。
可迁移性：适合迁移到 VM-UNet、VM-UNetV2、DAMamba、轻量 polyp segmentation encoder；实现上只需替换 scan index/permutation，侵入性较低。
对 3D segmentation：可扩展为 block-ordered / patch-cube-ordered scanning，但 3D 中 scan path、显存和 anisotropic voxel spacing 需要重新设计。

模块 B：Hierarchical patch sizes / direction-specific scanning

输入：四个方向的扫描路径和一组 patch size。
输出：不同方向、不同空间粒度的 Mamba outputs。
解决问题：小 patch 偏向细边界，大 patch 偏向较粗结构和更大邻域。
证据：Table IV 比较了多种 patch size 配置，8844/1111/1111/1111 平均 Dice 最好（84.01），但这里表格符号比较简略，论文没有充分解释每个 stage/direction 的精确含义，复现时需要读代码或联系作者确认。

模块 C：MoE-Based Directional Fusion

输入：四个方向 feature maps {Y_l^(1),...,Y_l^(4)}。
输出：融合后的 Z_l。
机制：四个方向 map 经 GN 作为四个 expert；concat 后 1×1 conv 形成第五 expert；router 生成空间位置相关权重 w_l ∈ R^{5×H_l×W_l}；加权融合后再 residual add raw directional outputs。
解决问题：不同区域可能需要不同方向/尺度响应，固定求和过于粗糙。
创新性判断：MoE router 在 dense prediction 中常见，但用于替代 Vision Mamba 多方向扫描求和是有针对性的改动；真正创新强度中等，工程实用性较强。
成本问题：这是最大弱点。Table V 显示 Patch-MoE Mamba 达到 70.06M 参数、28.18G FLOPs，而 VM-UNetV2 是 22.77M、5.31G FLOPs。也就是说准确率增益伴随约 3 倍参数和 5 倍 FLOPs，不适合作为“轻量化”方法。

模块 D：SDI module

来源：沿用 U-Net v2，不是本文核心原创。
作用：用高层语义和低层细节增强各尺度 feature。
对用户价值：如果已有 DAMamba/VM-UNet 系列框架，SDI 可以作为 skip refinement 组件加入，但需要单独消融确认其贡献。

6. 实验设计与结果

实验包括 5 个息肉数据集和 2 个皮肤病灶数据集：

Polyp：Kvasir-SEG、ClinicDB、ColonDB、ETIS、CVC-300。训练协议跟随 U-Net v2：Kvasir-SEG 900 张 + ClinicDB 550 张训练；测试包括 CVC-300 60、ColonDB 380、ETIS 196、Kvasir-SEG 100、ClinicDB 62。
Skin lesion：ISIC 2017（2,150 images）和 ISIC 2018（2,694 images），使用 U-Net v2 的划分。
输入尺寸：256×256。
训练：PyTorch，NVIDIA Tesla A100 80GB，AdamW，lr 1e-3，batch size 80，300 epochs，cosine annealing，VMamba-S pretrained initialization，随机翻转/旋转增强。
指标：Dice/DSC、IoU、MAE。
重复：Table I 明确说每个实验用 5 个随机种子运行。

主要结果：

Polyp Table I：Patch-MoE Mamba 在五个息肉集上的 Dice 分别为 Kvasir-SEG 90.90、ClinicDB 91.32、ColonDB 77.94、ETIS 74.04、CVC-300 87.31，整体超过 VM-UNetV2。最值得注意的是 ColonDB 和 ETIS 这类跨数据集、低对比/复杂边界测试集上有提升。
ISIC Table II：ISIC 2017 Dice 90.85、IoU 84.45、MAE 0.0293；ISIC 2018 Dice 89.34、IoU 82.28、MAE 0.0496，均优于列出的 U-Net/U-Net v2/VM-UNet/VM-UNetV2。
Ablation Table III：VM-UNetV2 平均 Dice 83.46；加 patch-ordered scanning 到 84.02；再加 MoE fusion 到 84.30。说明主要增益来自 patch-ordered scanning，MoE 进一步带来较小增益。
Complexity Table V：完整模型 70.06M 参数、28.18G FLOPs，相比 VM-UNetV2 的 22.77M/5.31G 成本显著上升。

7. 实验可信度判断

可信之处：

覆盖了息肉和皮肤病灶两类数据，且息肉任务包含多个常用跨数据集测试集。
与 U-Net、U-Net v2、VM-UNet、VM-UNetV2 直接比较，baseline 选择与论文问题相关。
有模块级消融、patch size 消融、复杂度表；并报告多随机种子均值/方差。

需要谨慎的地方：

比较对象偏少，没有包含 PraNet、Polyp-PVT、SANet、TransFuse、HarDNet-MSEG、CaraNet 等经典/强 polyp segmentation baseline；因此“polyp SOTA”不能轻易接受。
成本很高：70M 参数和 28G FLOPs 对 256×256 2D 分割并不轻。若用户目标是轻量部署，这篇不是直接答案。
代码未获取，patch size 配置表述不够清楚，复现风险中等。
没有统计显著性检验，虽然给了 5 seeds 方差，但没有报告 p-value 或置信区间检验。
没有外部临床数据、domain shift 或不同中心数据验证；泛化结论只能限于公开 benchmark。

8. 与主流医学图像分割框架的关系

与 U-Net：总体仍是 encoder-decoder + skip 的 U-Net 范式，改动主要在 encoder 的 VSS block 和特征融合。
与 nnU-Net：不是自配置 pipeline，也没有覆盖 nnU-Net 的数据预处理/训练策略优势；不能替代 nnU-Net，只能作为网络结构候选。
与 MedNeXt：没有直接比较；MedNeXt 是 ConvNeXt-style 3D/2D medical segmentation 强 baseline，这篇更偏 Mamba scan mechanism。
与 UNetR/Swin-UNet/TransUNet/TransFuse：它的定位是用线性复杂度 SSM 替代 Transformer attention 的全局建模，但实验没有正面对这些 Transformer 医学分割模型做充分比较。
与 VMamba/VM-UNet/VM-UNetV2：这是最直接的继承关系。论文明确替换 VM-UNetV2 的 VSS block，并保留 VM-UNetV2 decoder。
与 DAMamba：如果 DAMamba 中也有多方向 scanning 或 direction fusion，这篇的 patch-ordered index 与 spatial-aware MoE router 都是可借鉴改造点。
与 foundation model：没有使用 SAM/MedSAM 或通用医学分割 foundation model，不属于 foundation model 路线。

9. 对我课题的价值

对 polyp segmentation：价值较高。它直接在五个息肉数据集验证，且提出的问题（边界、小目标、低对比、方向融合）与息肉分割高度相关。建议优先复现 patch-ordered scanning，而不是一开始就复现完整 MoE，因为 ablation 显示前者贡献更大且成本更低。

对 DAMamba 改造：价值高。可以尝试三种低风险改法：

把 DAMamba/VMamba 的 raster scan 替换为 patch-ordered scan；
保留原方向求和，但加入轻量 gating，例如只用 1×1 conv 生成四方向权重，不加 concat expert；
在 decoder skip 处结合 SDI 或轻量语义-细节交互模块。

对 3D medical segmentation：概念可迁移，但不能直接照搬。3D 中需要设计 cube-ordered scanning、轴向方向组合、anisotropic patch size，并重新评估显存。

对 related work：值得加入 Mamba-based medical segmentation / VM-UNet 改进部分，尤其作为“scan order matters for dense prediction”的例子。

10. 阅读建议

建议精读。理由是论文机制清楚，和用户关心的 polyp segmentation、Mamba-based segmentation、DAMamba 改造高度相关；但阅读时要重点盯住 Table III 和 Table V：它的增益并不完全免费，完整 MoE 模型计算成本明显升高。最推荐先读 Methods II-B/II-C 和 Tables I/III/V。

论文 2：MHMamba: Multi-Head Mamba for 3D Brain Tumor Segmentation

基本信息

标题：MHMamba: Multi-Head Mamba for 3D Brain Tumor Segmentation
作者 / 第一作者：Hanjun Tao, Hua Wang, Fan Zhang / 第一作者 Hanjun Tao
时间：2026-05-15（arXiv v1）
来源：arXiv preprint
论文页面链接：https://arxiv.org/abs/2605.16464
PDF 文件 / PDF 链接：https://arxiv.org/pdf/2605.16464
代码链接：未获取 / arXiv 页面与论文正文未给出明确代码仓库
任务：3D brain tumor segmentation
数据集：BraTS2021、BraTS2023
方法类型：3D U-shaped Mamba segmentation network；multi-head SSM + channel-spatial calibration + adaptive gated skip fusion

paper-deep-reader 精读结果

1. 一句话结论

这篇论文的价值在于把 Mamba 用“多头通道拆分 + 校准 + 门控 skip fusion”的方式系统化到 3D BraTS 分割，但其实验和写作存在若干需要核查的地方，更适合作为 3D Mamba 结构设计参考，而不是直接当作强 SOTA 依据。

2. 研究背景与核心问题

脑肿瘤 MRI 分割需要同时识别 WT、TC、ET 等不同肿瘤子区域。ET 等小体积增强区域形态变化大、边界复杂，对全局上下文和局部边界都敏感。3D U-Net/CNN 擅长局部纹理，但长程依赖建模弱；Transformer 能建立全局关系，但 3D MRI token 数巨大，标准 attention 的二次复杂度会带来显存和计算压力；窗口 attention 又可能导致跨窗口上下文不连贯和 sliding-window inference 的边界不平滑。

作者的问题设定是：如何在 3D multimodal MRI 中保持 Mamba 的线性复杂度优势，同时提高多模态、多尺度、复杂肿瘤区域的全局-局部表达稳定性。

内部 paper map：论文研究 3D brain tumor segmentation 中高效长程建模问题，设置为 BraTS2021/2023 多模态 MRI；主招是 U-shaped architecture 中引入 Multi-Head Mamba、CSCA 校准和 AGF skip fusion；声称在 Dice 和 HD95 上优于 nnFormer、VcaNet、nnU-Net、LightUNet、SegMamba、SegMamba-V2；关键对象是 GLA、MHM、CSCA、AGF；真正负重在统一训练协议下的 BraTS 对比和模块消融；主要失败风险是 arXiv preprint 的实现/复现信息不足、代码缺失、部分引用和论述可疑，且没有官方 BraTS test server 结果。

路由记录：Primary adapter = method-algorithm；Secondary adapter = benchmark-evaluation；Evidence packs = general、experimental-eval、ablation-and-mechanism-isolation、reproducibility-and-compute；Route confidence = 中高。原因：论文贡献是算法模块，证据来自 BraTS benchmark 与消融，但复现和公平性仍需谨慎。

3. 现有方法不足

作者归纳了三类不足：

CNN/3D U-Net：有效感受野受局部卷积限制，连续下采样会削弱小病灶和边界细节。
Transformer/TransBTS/nnFormer/Swin 类方法：3D token 数导致计算和显存成本高；window/block attention 降低成本但跨窗口关系弱，sliding-window 推理可能引入概率场不连续。
现有 Mamba/SSM 医学分割：简单顺序 SSM 在 3D MRI 中可能训练不稳定，全局-局部表达不足，skip connection 信息融合不够，尤其影响 ring enhancement、necrosis/living tissue 边界和小体积 ET 区域。

这些问题基本符合 3D BraTS 的任务痛点；不过作者对 Transformer “inter-block contextual incoherence”的描述较强，论文没有单独实验证明这一点，只是作为方法动机。

4. 方法总览

MHMamba 是一个 U-shaped 3D encoder-decoder：

输入为多模态 MRI volume，四个模态 T1、T1ce、T2、FLAIR 被 concat 为 4-channel input。
stem 使用 7×7×7 depthwise separable convolution，stride=2，把输入投影到 48 channels，空间尺寸减半。
encoder 有 4 个 stage，每个 stage 堆叠 MHMamba block，并在 stage 末尾用 3×3×3 stride=2 convolution 下采样，逐步扩大通道数、缩小空间尺寸。
MHMamba block 内先用 Gated Local Aggregation（GLA）增强边界/细节，再用 Multi-Head Mamba（MHM）做全局序列建模，再用 Channel-Spatial Calibration Attention（CSCA）进行通道与空间校准，最后通过 LayerNorm/MLP 和 residual 完成输出。
decoder 使用 3D convolution + upsampling 恢复分辨率。
skip connection 不做简单 concat/add，而使用 Adaptive Gated Fusion（AGF）在通道子组上学习 encoder feature 与 decoder feature 的融合权重。

5. 核心模块拆解

模块 A：Gated Local Aggregation（GLA）

输入：encoder feature F。
输出：局部增强 feature F_GLA。
公式：F_edge = Sobel3D(F)；F_detail = Conv(ReLU(IN(F)))；F_GLA = α·F_edge + β·F_detail。
解决问题：在进入全局 Mamba 前先突出 3D 肿瘤边界与局部几何细节。
创新性判断：Sobel/边缘分支 + 卷积分支是常见边界增强思路，创新性一般，但对 BraTS 的边界 HD95 目标合理。
可迁移性：适合迁移到 3D U-Net/SegMamba/DAMamba 的浅层或每个 stage 前；对 2D polyp segmentation 也可改成 Sobel2D + detail branch，但要注意噪声边缘。

模块 B：Multi-Head Mamba（MHM）

输入：F_GLA 经 LayerNorm 后的 feature。
处理：沿 channel 维拆成 N_h 个 head；每个 head flatten 为 B×N×(C/N_h)，其中 N=D×H×W；每个 head 通过 selective state space recurrence；最后 concat 各 head 输出，用 1×1×1 projection 融合，并加上 learnable residual δ·F_GLA。
解决问题：单一路径 SSM 可能把不同模态/不同方向信息平均化；多头拆分让不同 head 学到互补长程模式。
创新性判断：这是把 Transformer multi-head 的思想移植到 Mamba channel split 上，合理但不算非常新；关键看 head 数消融是否支持。
证据：Table 4 显示 BraTS2021 上 N=4 最好，平均 Dice/HD 为 91.02/3.38；N=2 为 90.44/4.04，N=8 为 90.48/4.05，说明过细拆分会损害每个 head 容量并使 batch size 1 的 3D 训练更不稳定。

模块 C：Channel-Spatial Calibration Attention（CSCA）

输入：MHM 输出 F_MHM。
通道路径：GAP 与 GMP 经 MLP 产生 channel weights。
空间路径：使用 Mean、Std、Max、Min 四类统计拼接后生成 spatial weight map。
融合：用 gate λ 自适应融合 channel-calibrated 和 spatial-calibrated feature，再加 residual。
解决问题：多头 Mamba 输出可能尺度/统计不一致，需要校准并增强肿瘤相关响应。
创新性判断：类似 CBAM/SE 的扩展版，加上 Std/Min 统计对异质肿瘤有一定直觉，但不是根本性新结构。
可迁移性：可用于 3D segmentation encoder block 后；对 polyp segmentation 也可作为轻量 attention，但要控制参数。

模块 D：Adaptive Gated Fusion（AGF）

输入：encoder skip feature F_enc 和 decoder feature F_dec。
处理：二者各自沿 channel 分成 4 个 subgroup；每个 subgroup 学习一个 gate δ_k = σ(w_k · [F_enc^k, F_dec^k])；融合为 F_fused^k = δ_k·F_enc^k + (1-δ_k)·F_dec^k；最后 concat 后卷积输出。
解决问题：传统 skip concat/add 对语义与细节冲突处理粗糙，尤其肿瘤边界处可能引入不一致。
创新性判断：门控 skip fusion 是成熟思路，但以 subgroup gating 用于 3D Mamba U-Net 是合理工程设计。
对 DAMamba/3D segmentation：可作为 skip fusion 模块替换 naive concat，优先级高于复杂 attention，因为实现简单、解释明确。

6. 实验设计与结果

数据集与预处理：

BraTS2021：1,251 training samples 和 219 validation cases。
BraTS2023：1,534 training samples。
每个 case 有 T1、T1ce、T2、FLAIR 四模态，concat 为 4-channel input。
统一预处理包括多模态配准、skull stripping、isotropic resampling，统一尺寸 240×240×155。
标注：ET、TC、WT。
作者没有用官方测试服务器，而是在 official training set 上做内部 70%/10%/20% train/val/test split，固定随机种子。

训练设置：

PyTorch 2.1.2，单张 NVIDIA RTX 3090。
从随机初始化训练 300 epochs，batch size 1，初始 lr=0.001，weight decay=1e-5，poly LR decay。
patch crop：128×128×128。
augmentation：brightness、gamma、rotation、scaling、mirror flipping、elastic deformation。
loss：Dice loss + cross entropy loss 等权重。
inference：统一 sliding-window，无 TTA，无 post-processing。
指标：Dice 和 HD95。

主结果 Table 1：

BraTS2021：MHMamba WT Dice/HD 93.54/3.74，TC 92.23/2.89，ET 87.28/3.50，平均 Dice/HD 91.02/3.38。相对 SegMamba 90.32/4.18 和 SegMamba-V2 89.14/3.80 有提升；但 ET Dice 低于 VcaNet 的 87.55。
BraTS2023：MHMamba WT 93.87/3.30，TC 91.10/3.49，ET 85.72/4.23，平均 90.23/3.67。平均 Dice 高于 SegMamba 89.38 和 SegMamba-V2 89.98，但 ET Dice 低于 VcaNet 86.57 和 SegMamba-V2 86.64。

消融：

BraTS2021 Table 2：base（SegMamba）平均 Dice/HD 90.32/4.18；+CSCA 为 90.83/3.47；+AGF 为 90.66/3.67；+MHM 为 90.62/3.94；完整 ours 为 91.02/3.38。
BraTS2023 Table 3：base 89.38/4.25；+CSCA 89.83/4.14；+AGF 89.72/4.13；+MHM 89.73/4.05；完整 90.23/3.67。
Head number Table 4：4 heads 最好，2 heads 容量不足，8 heads 过度拆分。

7. 实验可信度判断

可信之处：

使用 BraTS2021 和 BraTS2023 两个主流 3D 脑肿瘤分割数据集。
指标包含 Dice 和 HD95，能同时反映区域重叠和边界误差。
baseline 包含 nnU-Net、nnFormer、SegMamba、SegMamba-V2，和论文定位相关。
消融覆盖 MHM、CSCA、AGF 和 head number，能初步支持模块作用。
作者强调统一预处理、训练、loss、sliding-window inference，对公平比较是加分项。

需要谨慎的地方：

没有官方 BraTS test server 结果，只是内部 split；与正式 challenge leaderboard 不可直接比较。
文中称 Table 1 结果 averaged over multiple runs，但没有清楚报告 seed 数、均值±方差，统计稳定性不足。
代码未获取，复现难度和实现细节不透明。
参数量、FLOPs、显存、推理速度没有给出；虽然强调 Mamba 线性复杂度，但没有实测效率对比，这是 reproducibility/compute 方面的明显缺口。
部分参考文献和相关工作引用显得混杂，例如把图文检索/视频检索论文用于解释 CSCA/MHM 的合理性，降低了论证可信度。
ET 指标不是所有情况下最强；若研究重点是 enhancing tumor，小病灶敏感性结论需要弱化。

8. 与主流医学图像分割框架的关系

与 U-Net/3D U-Net：整体仍是 U-shaped encoder-decoder；创新主要在 encoder block 和 skip fusion。
与 nnU-Net：nnU-Net 是强 pipeline baseline；本文只比较 nnU-Net 指标，没有吸收 nnU-Net 的自动配置、预处理、训练策略。实际复现时应考虑“用 nnU-Net pipeline + MHMamba backbone”是否更公平。
与 MedNeXt：没有比较。MedNeXt 是强 CNN baseline，缺失它会影响对“CNN 不足”的判断。
与 UNetR/Swin-UNet/TransUNet/TransBTS/nnFormer：本文属于用 Mamba 替代 Transformer 的 3D 全局建模路线；与 nnFormer、TransBTS 系列关系密切，但实验主要列 nnFormer。
与 SegMamba/SegMamba-V2：这是最直接 baseline。MHMamba 可视为在 SegMamba 式 3D Mamba segmentation 上增加多头拆分、边界预增强、校准和门控 skip。
与 DAMamba：如果 DAMamba 关注 direction-aware 或 dual-branch Mamba，这篇的 multi-head channel split 和 AGF skip fusion 可作为 3D 版本设计参考。
与 foundation model：不属于 MedSAM/SAM-Med3D/foundation model 路线，未讨论 promptable 或 universal segmentation。

9. 对我课题的价值

对 3D medical image segmentation：有参考价值，尤其是多头 Mamba 与 AGF skip fusion 的结构组合。若用户后续做 BraTS、multi-organ CT/MRI 或 3D Mamba backbone，可以把它作为结构设计候选。

对 polyp segmentation：间接价值。MHMamba 是 3D BraTS 论文，不直接服务 2D polyp；但以下模块可迁移：

Multi-head channel split Mamba：可用于 2D DAMamba encoder，使不同 head 学不同方向/尺度响应。
AGF skip fusion：适合替换 U-Net/DAMamba decoder 的简单 concat，尤其用于边界细节和高层语义冲突场景。
GLA/Sobel branch：可尝试在 polyp 的边界增强中使用，但需注意 colonoscopy highlights/reflections 可能产生假边缘。

对 related work：可放在 3D Mamba-based medical segmentation 段落，和 U-Mamba、SegMamba、SegMamba-V2、LS3M 等一起讨论；不建议作为 polyp segmentation 主 baseline。

10. 阅读建议

建议阅读，但不建议把它作为今日最优先复现对象。建议重点读 Methods 3.1–3.2 和 Tables 1–4；对结论要保留，因为缺少代码、效率表和官方 test server 验证。若用户当前主线是 DAMamba/polyp segmentation，应先读论文 1；若主线扩展到 3D Mamba，则再精读并复现 MHM 与 AGF。

今日推荐优先级

Patch-MoE Mamba：最值得优先深入读。它直接面向 polyp segmentation，并且提出的 patch-ordered scanning 与 MoE directional fusion 对 DAMamba/VM-UNet 类框架改造非常直接；虽然计算成本偏高，但机制参考价值明确。
MHMamba：适合 3D medical image segmentation 方向跟进。它对 BraTS 和 3D Mamba backbone 有启发，但代码、效率和官方测试验证不足，且与 2D polyp segmentation 的关系较间接。

今日 PDF 获取情况

论文 1：已成功获取 PDF；可访问链接为 https://arxiv.org/pdf/2605.17719 。本次环境已下载到 /tmp/medseg_papers/patch_moe_mamba.pdf。MEDIA:/tmp/medseg_papers/patch_moe_mamba.pdf
论文 2：已成功获取 PDF；可访问链接为 https://arxiv.org/pdf/2605.16464 。本次环境已下载到 /tmp/medseg_papers/mhmamba.pdf。MEDIA:/tmp/medseg_papers/mhmamba.pdf

今日可执行建议

如果今天只精读一篇，优先读 Patch-MoE Mamba 的 Methods II-B/II-C 和 Tables III/V：先复现低成本的 patch-ordered scanning，再决定是否加入完整 MoE fusion。
对 DAMamba 或 VM-UNet 改造，建议尝试“patch-ordered scan + 轻量四方向 gating”，避免直接采用论文 1 的完整 concat expert，因为完整模型参数/FLOPs 增幅过大。
若后续扩展到 3D medical image segmentation，可把 MHMamba 的 AGF skip fusion 和 4-head Mamba 作为候选模块，但必须补做 nnU-Net/MedNeXt/SegMamba 的统一 pipeline 对比和效率统计。

Have a nice day!

2026-05-26 医学图像分割论文精读：Mamba-based segmentation 最新进展

今日医学图像分割最新论文精读追踪

今日结论

检索说明

WordPress 发布

论文 1：Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation

基本信息

paper-deep-reader 精读结果

1. 一句话结论

2. 研究背景与核心问题

3. 现有方法不足

4. 方法总览

5. 核心模块拆解

6. 实验设计与结果

7. 实验可信度判断

8. 与主流医学图像分割框架的关系

9. 对我课题的价值

10. 阅读建议

论文 2：MHMamba: Multi-Head Mamba for 3D Brain Tumor Segmentation

基本信息

paper-deep-reader 精读结果

1. 一句话结论

2. 研究背景与核心问题

3. 现有方法不足

4. 方法总览

5. 核心模块拆解

6. 实验设计与结果

7. 实验可信度判断

8. 与主流医学图像分割框架的关系

9. 对我课题的价值

10. 阅读建议

今日推荐优先级

今日 PDF 获取情况

今日可执行建议

2026-05-24 医学图像分割论文精读：SegGuidedNet 与 MedCRP-CL

2026-05-27 医学图像分割论文精读：MedCLIPSeg 与 SemiGDA