今日医学图像分割最新论文精读追踪
今日结论
今天没有检索到已经明确进入 MICCAI/CVPR/ICCV/ECCV/NeurIPS/ICLR/AAAI/IJCAI/ISBI 或顶刊正式接收的全新医学图像分割论文;因此按任务要求向 2026 年 5 月中旬 arXiv preprint 回溯筛选。今日最值得关注的趋势是:Mamba/State Space Model 仍在医学分割中持续被改造,近期论文主要围绕“如何把 2D/3D 空间结构更合理地序列化”和“如何让多方向/多头 SSM 输出更稳定地融合”。
检索说明
检索范围覆盖 arXiv 最新提交,并以 medical image segmentation、Mamba medical image segmentation、3D brain tumor segmentation、polyp segmentation、universal medical segmentation 等关键词向 2025 年以后回溯;同时检查了本地可用的 cron/session 历史文件路径,但当前环境未发现 session_cron_def34ee3de23_* 或可检索的历史输出文件,因此本次以可用历史记录为空进行去重。所有入选论文均为 2025 年及以后,且均为 arXiv preprint,尚未确认顶会/顶刊正式接收。已检查历史推荐记录并排除了重复论文;本次没有发现可确认的历史重复候选。
WordPress 发布
- WordPress 文章链接:待发布后填写
- WordPress Post ID:待发布后填写
论文 1:Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation
基本信息
- 标题:Patch-MoE Mamba: A Patch-Ordered Mixture-of-Experts State Space Architecture for Medical Image Segmentation
- 作者 / 第一作者:Diego Adame, Fabian Vazquez, Jose A. Nuñez, Huimin Li, Jinghao Yang, Erik Enriquez, DongChul Kim, Haoteng Tang, Bin Fu, Pengfei Gu / 第一作者 Diego Adame
- 时间:2026-05-18(arXiv v1)
- 来源:arXiv preprint
- 论文页面链接:https://arxiv.org/abs/2605.17719
- PDF 文件 / PDF 链接:https://arxiv.org/pdf/2605.17719
- 代码链接:未获取 / arXiv 页面与论文正文未给出明确代码仓库
- 任务:2D medical image segmentation;主要是息肉分割,另含皮肤病灶分割
- 数据集:Kvasir-SEG、ClinicDB、ColonDB、ETIS、CVC-300;ISIC 2017、ISIC 2018
- 方法类型:U-Net-style encoder-decoder + VMamba/VM-UNetV2 改造;patch-ordered scanning + MoE directional fusion 的 Mamba-based segmentation framework
paper-deep-reader 精读结果
1. 一句话结论
这篇论文最有价值的点不是“又做了一个 Mamba U-Net”,而是把 Vision Mamba 中容易破坏 2D 邻域关系的像素级扫描,改成 patch-ordered scanning,并用空间自适应 MoE 替代简单方向求和;对 polyp segmentation 的 DAMamba/VM-UNet 系列改造有直接参考价值。
2. 研究背景与核心问题
医学图像分割同时需要局部边界细节和较大范围上下文:息肉边界常低对比、形状不规则,皮肤病灶也存在尺度和纹理变化。CNN/U-Net 的局部归纳偏置有利于边界,但全局依赖建模弱;Transformer 可以建模全局关系,但标准 self-attention 在高分辨率 dense prediction 中成本高。Mamba/SSM 提供线性复杂度的长程建模,因此近年被用于 VM-UNet、VM-UNetV2 等医学分割网络。
作者抓住的核心问题是:现有 Vision Mamba 通常把 2D feature map 直接展平成 1D 序列,并沿固定方向扫描。这样会让空间相邻像素在序列中相距很远,或让序列相邻 token 在图像平面上并不相邻。对 segmentation 来说,这可能损伤边界和小目标的局部一致性。另一个问题是多方向扫描输出通常直接相加,无法根据局部区域的尺度、方向、边界复杂度自适应选择更有用的方向响应。
内部 paper map:论文研究医学图像分割中 Vision Mamba 的空间序列化与方向融合问题,设置为 2D 息肉和皮肤病灶分割;主招是 patch-ordered scanning + MoE-based directional fusion;声称在 5 个息肉数据集和 2 个 ISIC 数据集上优于 U-Net、U-Net v2、VM-UNet、VM-UNetV2;关键对象是 Patch-MoE VSS block、四方向扫描、五专家融合、spatial-aware router、SDI skip enhancement;真正负重在“扫描顺序是否确实保留局部结构”和“MoE 增益是否抵消额外计算”;主要失败风险是实验只比较少数 baselines,且参数/FLOPs 增幅很大。
路由记录:Primary adapter = method-algorithm;Secondary adapter = benchmark-evaluation;Evidence packs = general、experimental-eval、ablation-and-mechanism-isolation、reproducibility-and-compute;Route confidence = 高。原因:论文主要贡献是可移植的模型模块,结论依赖多数据集实验、消融和复杂度比较。
3. 现有方法不足
作者认为现有方法的问题分两层:
- CNN/Transformer 层面:CNN 受局部感受野限制,长程依赖不足;Transformer 虽然全局,但 quadratic complexity 和标注数据需求让医学分割不够经济。
- Mamba 医学分割层面:
- pixel-wise raster scan 会破坏 2D 局部结构。论文举例说明,在 16×16 grid 中垂直相邻像素可能在序列中相隔 16 个 step。
- 多方向输出简单 summation 假设所有方向、所有尺度在所有位置同等重要,而医学目标的尺度、形状和边界复杂度明显不同。
这个问题定义对 polyp segmentation 很贴切,因为息肉边界、低对比区域、小目标确实容易被不合理的序列化和粗糙融合损伤。
4. 方法总览
整体框架是 U-Net-style 结构:Mamba-based encoder + SDI module + decoder。它以 VM-UNetV2 为基础,替换其中的 VSS block 为 Patch-MoE VSS block;随后采用 U-Net v2 的 Semantics and Detail Infusion(SDI)模块,用高层语义与低层细节通过 Hadamard product 强化多尺度特征;decoder 基本沿用 VM-UNetV2。
核心流程:
- 输入图像经 encoder 提取多尺度 feature map
X_l ∈ R^{C_l × H_l × W_l}。 - 在每个 Patch-MoE VSS block 中,不按普通 raster order 直接逐像素扫描,而先把 feature map 按 patch size
p分成局部 patch。 - 每个 patch 内部用 row-major 顺序枚举像素,再进入下一个 patch,由此得到一个 permutation vector;它不减少 token 数,只改变访问顺序。
- 使用四个方向扫描:forward、reverse、width-height forward、width-height reverse;不同方向可对应不同 patch size,以引入多尺度/各向异性扫描。
- 四个 directional Mamba outputs 经 GroupNorm 后作为 4 个 expert;再把四个方向 concat 后经 1×1 conv + BN + ReLU 形成第 5 个 concat expert。
- spatial-aware router 同时利用 local descriptor(方向输出求和后 depthwise 3×3 conv)和 global descriptor(方向输出求和后 GAP,再 broadcast),用可学习
α混合后通过两层 1×1 conv 生成每个空间位置的 5 个 expert 权重。 - 五个 expert 按 softmax 权重加权求和,最后再加回四个 raw directional outputs 的 residual sum,以避免路由退化并保留强方向响应。
5. 核心模块拆解
模块 A:Patch-Ordered Scanning
- 输入:stage
l的 feature mapX_l ∈ R^{C_l×H_l×W_l}。 - 输出:保持 token 数不变的序列化 feature,只改变 token 顺序。
- 解决问题:让 patch 内空间邻近像素在 1D sequence 中连续,从而减轻普通 raster scan 对局部结构的破坏。
- 创新性判断:思想朴素但合理,像是给 Vision Mamba 加上更适合 dense prediction 的局部性约束;比“换一个 Mamba block 名字”更有机制意义。
- 可迁移性:适合迁移到 VM-UNet、VM-UNetV2、DAMamba、轻量 polyp segmentation encoder;实现上只需替换 scan index/permutation,侵入性较低。
- 对 3D segmentation:可扩展为 block-ordered / patch-cube-ordered scanning,但 3D 中 scan path、显存和 anisotropic voxel spacing 需要重新设计。
模块 B:Hierarchical patch sizes / direction-specific scanning
- 输入:四个方向的扫描路径和一组 patch size。
- 输出:不同方向、不同空间粒度的 Mamba outputs。
- 解决问题:小 patch 偏向细边界,大 patch 偏向较粗结构和更大邻域。
- 证据:Table IV 比较了多种 patch size 配置,
8844/1111/1111/1111平均 Dice 最好(84.01),但这里表格符号比较简略,论文没有充分解释每个 stage/direction 的精确含义,复现时需要读代码或联系作者确认。
模块 C:MoE-Based Directional Fusion
- 输入:四个方向 feature maps
{Y_l^(1),...,Y_l^(4)}。 - 输出:融合后的
Z_l。 - 机制:四个方向 map 经 GN 作为四个 expert;concat 后 1×1 conv 形成第五 expert;router 生成空间位置相关权重
w_l ∈ R^{5×H_l×W_l};加权融合后再 residual add raw directional outputs。 - 解决问题:不同区域可能需要不同方向/尺度响应,固定求和过于粗糙。
- 创新性判断:MoE router 在 dense prediction 中常见,但用于替代 Vision Mamba 多方向扫描求和是有针对性的改动;真正创新强度中等,工程实用性较强。
- 成本问题:这是最大弱点。Table V 显示 Patch-MoE Mamba 达到 70.06M 参数、28.18G FLOPs,而 VM-UNetV2 是 22.77M、5.31G FLOPs。也就是说准确率增益伴随约 3 倍参数和 5 倍 FLOPs,不适合作为“轻量化”方法。
模块 D:SDI module
- 来源:沿用 U-Net v2,不是本文核心原创。
- 作用:用高层语义和低层细节增强各尺度 feature。
- 对用户价值:如果已有 DAMamba/VM-UNet 系列框架,SDI 可以作为 skip refinement 组件加入,但需要单独消融确认其贡献。
6. 实验设计与结果
实验包括 5 个息肉数据集和 2 个皮肤病灶数据集:
- Polyp:Kvasir-SEG、ClinicDB、ColonDB、ETIS、CVC-300。训练协议跟随 U-Net v2:Kvasir-SEG 900 张 + ClinicDB 550 张训练;测试包括 CVC-300 60、ColonDB 380、ETIS 196、Kvasir-SEG 100、ClinicDB 62。
- Skin lesion:ISIC 2017(2,150 images)和 ISIC 2018(2,694 images),使用 U-Net v2 的划分。
- 输入尺寸:256×256。
- 训练:PyTorch,NVIDIA Tesla A100 80GB,AdamW,lr 1e-3,batch size 80,300 epochs,cosine annealing,VMamba-S pretrained initialization,随机翻转/旋转增强。
- 指标:Dice/DSC、IoU、MAE。
- 重复:Table I 明确说每个实验用 5 个随机种子运行。
主要结果:
- Polyp Table I:Patch-MoE Mamba 在五个息肉集上的 Dice 分别为 Kvasir-SEG 90.90、ClinicDB 91.32、ColonDB 77.94、ETIS 74.04、CVC-300 87.31,整体超过 VM-UNetV2。最值得注意的是 ColonDB 和 ETIS 这类跨数据集、低对比/复杂边界测试集上有提升。
- ISIC Table II:ISIC 2017 Dice 90.85、IoU 84.45、MAE 0.0293;ISIC 2018 Dice 89.34、IoU 82.28、MAE 0.0496,均优于列出的 U-Net/U-Net v2/VM-UNet/VM-UNetV2。
- Ablation Table III:VM-UNetV2 平均 Dice 83.46;加 patch-ordered scanning 到 84.02;再加 MoE fusion 到 84.30。说明主要增益来自 patch-ordered scanning,MoE 进一步带来较小增益。
- Complexity Table V:完整模型 70.06M 参数、28.18G FLOPs,相比 VM-UNetV2 的 22.77M/5.31G 成本显著上升。
7. 实验可信度判断
可信之处:
- 覆盖了息肉和皮肤病灶两类数据,且息肉任务包含多个常用跨数据集测试集。
- 与 U-Net、U-Net v2、VM-UNet、VM-UNetV2 直接比较,baseline 选择与论文问题相关。
- 有模块级消融、patch size 消融、复杂度表;并报告多随机种子均值/方差。
需要谨慎的地方:
- 比较对象偏少,没有包含 PraNet、Polyp-PVT、SANet、TransFuse、HarDNet-MSEG、CaraNet 等经典/强 polyp segmentation baseline;因此“polyp SOTA”不能轻易接受。
- 成本很高:70M 参数和 28G FLOPs 对 256×256 2D 分割并不轻。若用户目标是轻量部署,这篇不是直接答案。
- 代码未获取,patch size 配置表述不够清楚,复现风险中等。
- 没有统计显著性检验,虽然给了 5 seeds 方差,但没有报告 p-value 或置信区间检验。
- 没有外部临床数据、domain shift 或不同中心数据验证;泛化结论只能限于公开 benchmark。
8. 与主流医学图像分割框架的关系
- 与 U-Net:总体仍是 encoder-decoder + skip 的 U-Net 范式,改动主要在 encoder 的 VSS block 和特征融合。
- 与 nnU-Net:不是自配置 pipeline,也没有覆盖 nnU-Net 的数据预处理/训练策略优势;不能替代 nnU-Net,只能作为网络结构候选。
- 与 MedNeXt:没有直接比较;MedNeXt 是 ConvNeXt-style 3D/2D medical segmentation 强 baseline,这篇更偏 Mamba scan mechanism。
- 与 UNetR/Swin-UNet/TransUNet/TransFuse:它的定位是用线性复杂度 SSM 替代 Transformer attention 的全局建模,但实验没有正面对这些 Transformer 医学分割模型做充分比较。
- 与 VMamba/VM-UNet/VM-UNetV2:这是最直接的继承关系。论文明确替换 VM-UNetV2 的 VSS block,并保留 VM-UNetV2 decoder。
- 与 DAMamba:如果 DAMamba 中也有多方向 scanning 或 direction fusion,这篇的 patch-ordered index 与 spatial-aware MoE router 都是可借鉴改造点。
- 与 foundation model:没有使用 SAM/MedSAM 或通用医学分割 foundation model,不属于 foundation model 路线。
9. 对我课题的价值
对 polyp segmentation:价值较高。它直接在五个息肉数据集验证,且提出的问题(边界、小目标、低对比、方向融合)与息肉分割高度相关。建议优先复现 patch-ordered scanning,而不是一开始就复现完整 MoE,因为 ablation 显示前者贡献更大且成本更低。
对 DAMamba 改造:价值高。可以尝试三种低风险改法:
- 把 DAMamba/VMamba 的 raster scan 替换为 patch-ordered scan;
- 保留原方向求和,但加入轻量 gating,例如只用 1×1 conv 生成四方向权重,不加 concat expert;
- 在 decoder skip 处结合 SDI 或轻量语义-细节交互模块。
对 3D medical segmentation:概念可迁移,但不能直接照搬。3D 中需要设计 cube-ordered scanning、轴向方向组合、anisotropic patch size,并重新评估显存。
对 related work:值得加入 Mamba-based medical segmentation / VM-UNet 改进部分,尤其作为“scan order matters for dense prediction”的例子。
10. 阅读建议
建议精读。理由是论文机制清楚,和用户关心的 polyp segmentation、Mamba-based segmentation、DAMamba 改造高度相关;但阅读时要重点盯住 Table III 和 Table V:它的增益并不完全免费,完整 MoE 模型计算成本明显升高。最推荐先读 Methods II-B/II-C 和 Tables I/III/V。
论文 2:MHMamba: Multi-Head Mamba for 3D Brain Tumor Segmentation
基本信息
- 标题:MHMamba: Multi-Head Mamba for 3D Brain Tumor Segmentation
- 作者 / 第一作者:Hanjun Tao, Hua Wang, Fan Zhang / 第一作者 Hanjun Tao
- 时间:2026-05-15(arXiv v1)
- 来源:arXiv preprint
- 论文页面链接:https://arxiv.org/abs/2605.16464
- PDF 文件 / PDF 链接:https://arxiv.org/pdf/2605.16464
- 代码链接:未获取 / arXiv 页面与论文正文未给出明确代码仓库
- 任务:3D brain tumor segmentation
- 数据集:BraTS2021、BraTS2023
- 方法类型:3D U-shaped Mamba segmentation network;multi-head SSM + channel-spatial calibration + adaptive gated skip fusion
paper-deep-reader 精读结果
1. 一句话结论
这篇论文的价值在于把 Mamba 用“多头通道拆分 + 校准 + 门控 skip fusion”的方式系统化到 3D BraTS 分割,但其实验和写作存在若干需要核查的地方,更适合作为 3D Mamba 结构设计参考,而不是直接当作强 SOTA 依据。
2. 研究背景与核心问题
脑肿瘤 MRI 分割需要同时识别 WT、TC、ET 等不同肿瘤子区域。ET 等小体积增强区域形态变化大、边界复杂,对全局上下文和局部边界都敏感。3D U-Net/CNN 擅长局部纹理,但长程依赖建模弱;Transformer 能建立全局关系,但 3D MRI token 数巨大,标准 attention 的二次复杂度会带来显存和计算压力;窗口 attention 又可能导致跨窗口上下文不连贯和 sliding-window inference 的边界不平滑。
作者的问题设定是:如何在 3D multimodal MRI 中保持 Mamba 的线性复杂度优势,同时提高多模态、多尺度、复杂肿瘤区域的全局-局部表达稳定性。
内部 paper map:论文研究 3D brain tumor segmentation 中高效长程建模问题,设置为 BraTS2021/2023 多模态 MRI;主招是 U-shaped architecture 中引入 Multi-Head Mamba、CSCA 校准和 AGF skip fusion;声称在 Dice 和 HD95 上优于 nnFormer、VcaNet、nnU-Net、LightUNet、SegMamba、SegMamba-V2;关键对象是 GLA、MHM、CSCA、AGF;真正负重在统一训练协议下的 BraTS 对比和模块消融;主要失败风险是 arXiv preprint 的实现/复现信息不足、代码缺失、部分引用和论述可疑,且没有官方 BraTS test server 结果。
路由记录:Primary adapter = method-algorithm;Secondary adapter = benchmark-evaluation;Evidence packs = general、experimental-eval、ablation-and-mechanism-isolation、reproducibility-and-compute;Route confidence = 中高。原因:论文贡献是算法模块,证据来自 BraTS benchmark 与消融,但复现和公平性仍需谨慎。
3. 现有方法不足
作者归纳了三类不足:
- CNN/3D U-Net:有效感受野受局部卷积限制,连续下采样会削弱小病灶和边界细节。
- Transformer/TransBTS/nnFormer/Swin 类方法:3D token 数导致计算和显存成本高;window/block attention 降低成本但跨窗口关系弱,sliding-window 推理可能引入概率场不连续。
- 现有 Mamba/SSM 医学分割:简单顺序 SSM 在 3D MRI 中可能训练不稳定,全局-局部表达不足,skip connection 信息融合不够,尤其影响 ring enhancement、necrosis/living tissue 边界和小体积 ET 区域。
这些问题基本符合 3D BraTS 的任务痛点;不过作者对 Transformer “inter-block contextual incoherence”的描述较强,论文没有单独实验证明这一点,只是作为方法动机。
4. 方法总览
MHMamba 是一个 U-shaped 3D encoder-decoder:
- 输入为多模态 MRI volume,四个模态 T1、T1ce、T2、FLAIR 被 concat 为 4-channel input。
- stem 使用 7×7×7 depthwise separable convolution,stride=2,把输入投影到 48 channels,空间尺寸减半。
- encoder 有 4 个 stage,每个 stage 堆叠 MHMamba block,并在 stage 末尾用 3×3×3 stride=2 convolution 下采样,逐步扩大通道数、缩小空间尺寸。
- MHMamba block 内先用 Gated Local Aggregation(GLA)增强边界/细节,再用 Multi-Head Mamba(MHM)做全局序列建模,再用 Channel-Spatial Calibration Attention(CSCA)进行通道与空间校准,最后通过 LayerNorm/MLP 和 residual 完成输出。
- decoder 使用 3D convolution + upsampling 恢复分辨率。
- skip connection 不做简单 concat/add,而使用 Adaptive Gated Fusion(AGF)在通道子组上学习 encoder feature 与 decoder feature 的融合权重。
5. 核心模块拆解
模块 A:Gated Local Aggregation(GLA)
- 输入:encoder feature
F。 - 输出:局部增强 feature
F_GLA。 - 公式:
F_edge = Sobel3D(F);F_detail = Conv(ReLU(IN(F)));F_GLA = α·F_edge + β·F_detail。 - 解决问题:在进入全局 Mamba 前先突出 3D 肿瘤边界与局部几何细节。
- 创新性判断:Sobel/边缘分支 + 卷积分支是常见边界增强思路,创新性一般,但对 BraTS 的边界 HD95 目标合理。
- 可迁移性:适合迁移到 3D U-Net/SegMamba/DAMamba 的浅层或每个 stage 前;对 2D polyp segmentation 也可改成 Sobel2D + detail branch,但要注意噪声边缘。
模块 B:Multi-Head Mamba(MHM)
- 输入:
F_GLA经 LayerNorm 后的 feature。 - 处理:沿 channel 维拆成
N_h个 head;每个 head flatten 为B×N×(C/N_h),其中N=D×H×W;每个 head 通过 selective state space recurrence;最后 concat 各 head 输出,用 1×1×1 projection 融合,并加上 learnable residualδ·F_GLA。 - 解决问题:单一路径 SSM 可能把不同模态/不同方向信息平均化;多头拆分让不同 head 学到互补长程模式。
- 创新性判断:这是把 Transformer multi-head 的思想移植到 Mamba channel split 上,合理但不算非常新;关键看 head 数消融是否支持。
- 证据:Table 4 显示 BraTS2021 上
N=4最好,平均 Dice/HD 为 91.02/3.38;N=2为 90.44/4.04,N=8为 90.48/4.05,说明过细拆分会损害每个 head 容量并使 batch size 1 的 3D 训练更不稳定。
模块 C:Channel-Spatial Calibration Attention(CSCA)
- 输入:MHM 输出
F_MHM。 - 通道路径:GAP 与 GMP 经 MLP 产生 channel weights。
- 空间路径:使用 Mean、Std、Max、Min 四类统计拼接后生成 spatial weight map。
- 融合:用 gate
λ自适应融合 channel-calibrated 和 spatial-calibrated feature,再加 residual。 - 解决问题:多头 Mamba 输出可能尺度/统计不一致,需要校准并增强肿瘤相关响应。
- 创新性判断:类似 CBAM/SE 的扩展版,加上 Std/Min 统计对异质肿瘤有一定直觉,但不是根本性新结构。
- 可迁移性:可用于 3D segmentation encoder block 后;对 polyp segmentation 也可作为轻量 attention,但要控制参数。
模块 D:Adaptive Gated Fusion(AGF)
- 输入:encoder skip feature
F_enc和 decoder featureF_dec。 - 处理:二者各自沿 channel 分成 4 个 subgroup;每个 subgroup 学习一个 gate
δ_k = σ(w_k · [F_enc^k, F_dec^k]);融合为F_fused^k = δ_k·F_enc^k + (1-δ_k)·F_dec^k;最后 concat 后卷积输出。 - 解决问题:传统 skip concat/add 对语义与细节冲突处理粗糙,尤其肿瘤边界处可能引入不一致。
- 创新性判断:门控 skip fusion 是成熟思路,但以 subgroup gating 用于 3D Mamba U-Net 是合理工程设计。
- 对 DAMamba/3D segmentation:可作为 skip fusion 模块替换 naive concat,优先级高于复杂 attention,因为实现简单、解释明确。
6. 实验设计与结果
数据集与预处理:
- BraTS2021:1,251 training samples 和 219 validation cases。
- BraTS2023:1,534 training samples。
- 每个 case 有 T1、T1ce、T2、FLAIR 四模态,concat 为 4-channel input。
- 统一预处理包括多模态配准、skull stripping、isotropic resampling,统一尺寸 240×240×155。
- 标注:ET、TC、WT。
- 作者没有用官方测试服务器,而是在 official training set 上做内部 70%/10%/20% train/val/test split,固定随机种子。
训练设置:
- PyTorch 2.1.2,单张 NVIDIA RTX 3090。
- 从随机初始化训练 300 epochs,batch size 1,初始 lr=0.001,weight decay=1e-5,poly LR decay。
- patch crop:128×128×128。
- augmentation:brightness、gamma、rotation、scaling、mirror flipping、elastic deformation。
- loss:Dice loss + cross entropy loss 等权重。
- inference:统一 sliding-window,无 TTA,无 post-processing。
- 指标:Dice 和 HD95。
主结果 Table 1:
- BraTS2021:MHMamba WT Dice/HD 93.54/3.74,TC 92.23/2.89,ET 87.28/3.50,平均 Dice/HD 91.02/3.38。相对 SegMamba 90.32/4.18 和 SegMamba-V2 89.14/3.80 有提升;但 ET Dice 低于 VcaNet 的 87.55。
- BraTS2023:MHMamba WT 93.87/3.30,TC 91.10/3.49,ET 85.72/4.23,平均 90.23/3.67。平均 Dice 高于 SegMamba 89.38 和 SegMamba-V2 89.98,但 ET Dice 低于 VcaNet 86.57 和 SegMamba-V2 86.64。
消融:
- BraTS2021 Table 2:base(SegMamba)平均 Dice/HD 90.32/4.18;+CSCA 为 90.83/3.47;+AGF 为 90.66/3.67;+MHM 为 90.62/3.94;完整 ours 为 91.02/3.38。
- BraTS2023 Table 3:base 89.38/4.25;+CSCA 89.83/4.14;+AGF 89.72/4.13;+MHM 89.73/4.05;完整 90.23/3.67。
- Head number Table 4:4 heads 最好,2 heads 容量不足,8 heads 过度拆分。
7. 实验可信度判断
可信之处:
- 使用 BraTS2021 和 BraTS2023 两个主流 3D 脑肿瘤分割数据集。
- 指标包含 Dice 和 HD95,能同时反映区域重叠和边界误差。
- baseline 包含 nnU-Net、nnFormer、SegMamba、SegMamba-V2,和论文定位相关。
- 消融覆盖 MHM、CSCA、AGF 和 head number,能初步支持模块作用。
- 作者强调统一预处理、训练、loss、sliding-window inference,对公平比较是加分项。
需要谨慎的地方:
- 没有官方 BraTS test server 结果,只是内部 split;与正式 challenge leaderboard 不可直接比较。
- 文中称 Table 1 结果 averaged over multiple runs,但没有清楚报告 seed 数、均值±方差,统计稳定性不足。
- 代码未获取,复现难度和实现细节不透明。
- 参数量、FLOPs、显存、推理速度没有给出;虽然强调 Mamba 线性复杂度,但没有实测效率对比,这是 reproducibility/compute 方面的明显缺口。
- 部分参考文献和相关工作引用显得混杂,例如把图文检索/视频检索论文用于解释 CSCA/MHM 的合理性,降低了论证可信度。
- ET 指标不是所有情况下最强;若研究重点是 enhancing tumor,小病灶敏感性结论需要弱化。
8. 与主流医学图像分割框架的关系
- 与 U-Net/3D U-Net:整体仍是 U-shaped encoder-decoder;创新主要在 encoder block 和 skip fusion。
- 与 nnU-Net:nnU-Net 是强 pipeline baseline;本文只比较 nnU-Net 指标,没有吸收 nnU-Net 的自动配置、预处理、训练策略。实际复现时应考虑“用 nnU-Net pipeline + MHMamba backbone”是否更公平。
- 与 MedNeXt:没有比较。MedNeXt 是强 CNN baseline,缺失它会影响对“CNN 不足”的判断。
- 与 UNetR/Swin-UNet/TransUNet/TransBTS/nnFormer:本文属于用 Mamba 替代 Transformer 的 3D 全局建模路线;与 nnFormer、TransBTS 系列关系密切,但实验主要列 nnFormer。
- 与 SegMamba/SegMamba-V2:这是最直接 baseline。MHMamba 可视为在 SegMamba 式 3D Mamba segmentation 上增加多头拆分、边界预增强、校准和门控 skip。
- 与 DAMamba:如果 DAMamba 关注 direction-aware 或 dual-branch Mamba,这篇的 multi-head channel split 和 AGF skip fusion 可作为 3D 版本设计参考。
- 与 foundation model:不属于 MedSAM/SAM-Med3D/foundation model 路线,未讨论 promptable 或 universal segmentation。
9. 对我课题的价值
对 3D medical image segmentation:有参考价值,尤其是多头 Mamba 与 AGF skip fusion 的结构组合。若用户后续做 BraTS、multi-organ CT/MRI 或 3D Mamba backbone,可以把它作为结构设计候选。
对 polyp segmentation:间接价值。MHMamba 是 3D BraTS 论文,不直接服务 2D polyp;但以下模块可迁移:
- Multi-head channel split Mamba:可用于 2D DAMamba encoder,使不同 head 学不同方向/尺度响应。
- AGF skip fusion:适合替换 U-Net/DAMamba decoder 的简单 concat,尤其用于边界细节和高层语义冲突场景。
- GLA/Sobel branch:可尝试在 polyp 的边界增强中使用,但需注意 colonoscopy highlights/reflections 可能产生假边缘。
对 related work:可放在 3D Mamba-based medical segmentation 段落,和 U-Mamba、SegMamba、SegMamba-V2、LS3M 等一起讨论;不建议作为 polyp segmentation 主 baseline。
10. 阅读建议
建议阅读,但不建议把它作为今日最优先复现对象。建议重点读 Methods 3.1–3.2 和 Tables 1–4;对结论要保留,因为缺少代码、效率表和官方 test server 验证。若用户当前主线是 DAMamba/polyp segmentation,应先读论文 1;若主线扩展到 3D Mamba,则再精读并复现 MHM 与 AGF。
今日推荐优先级
- Patch-MoE Mamba:最值得优先深入读。它直接面向 polyp segmentation,并且提出的 patch-ordered scanning 与 MoE directional fusion 对 DAMamba/VM-UNet 类框架改造非常直接;虽然计算成本偏高,但机制参考价值明确。
- MHMamba:适合 3D medical image segmentation 方向跟进。它对 BraTS 和 3D Mamba backbone 有启发,但代码、效率和官方测试验证不足,且与 2D polyp segmentation 的关系较间接。
今日 PDF 获取情况
- 论文 1:已成功获取 PDF;可访问链接为 https://arxiv.org/pdf/2605.17719 。本次环境已下载到
/tmp/medseg_papers/patch_moe_mamba.pdf。MEDIA:/tmp/medseg_papers/patch_moe_mamba.pdf - 论文 2:已成功获取 PDF;可访问链接为 https://arxiv.org/pdf/2605.16464 。本次环境已下载到
/tmp/medseg_papers/mhmamba.pdf。MEDIA:/tmp/medseg_papers/mhmamba.pdf
今日可执行建议
- 如果今天只精读一篇,优先读 Patch-MoE Mamba 的 Methods II-B/II-C 和 Tables III/V:先复现低成本的 patch-ordered scanning,再决定是否加入完整 MoE fusion。
- 对 DAMamba 或 VM-UNet 改造,建议尝试“patch-ordered scan + 轻量四方向 gating”,避免直接采用论文 1 的完整 concat expert,因为完整模型参数/FLOPs 增幅过大。
- 若后续扩展到 3D medical image segmentation,可把 MHMamba 的 AGF skip fusion 和 4-head Mamba 作为候选模块,但必须补做 nnU-Net/MedNeXt/SegMamba 的统一 pipeline 对比和效率统计。
Comments NOTHING