[IJCAI 2025] Mamba-Based Graph Convolutional Networks: Tackling Over-smoothing with Selective State Space

2026-05-10

MbaGCN 论文核心要点梳理（按你的9个问题）

1）任务介绍

面向图节点分类任务，构建可深度堆叠的图卷积网络，在保持深度扩展性的同时，学习高质量的节点表示，适合同质/异质图、引文图、网页图、异构图等多种图结构。

2）解决什么问题？

核心解决GNN深度加深带来的过平滑（over-smoothing）：

层数增加→所有节点表示趋同、无法区分→性能急剧下降。
根源：传统GNN对不同距离邻域信息无差别聚合，无法区分信息重要性。
同时兼顾：长距离依赖捕捉、异质图适应性、深层网络信息流动控制。

3）最朴素的做法是什么？

标准GCN：逐层拉普拉斯平滑，统一聚合邻域信息，无选择性。
加深网络：直接堆叠GCN层，不做任何选择性过滤或残差/门控。
结果：浅层有效，深层立刻过平滑、性能崩塌。

4）本文的做法是什么？解决了什么问题？有什么创新？

做法

提出MbaGCN（Mamba-based Graph Convolutional Network），三层交替架构：

MAL（消息聚合层）：基础图卷积，聚合邻域特征。
S³TL（选择性状态空间转换层）：引入Mamba选择性状态空间，自适应压缩/保留关键信息，丢弃冗余。
NSPL（节点状态预测层）：用Gumbel-Softmax动态调整邻接矩阵，控制同阶邻域内信息流向。

整体：MAL ↔ S³TL交替堆叠，NSPL插在中间做信息门控。

解决问题

从机制上缓解过平滑：选择性保留高阶邻域有用信息，过滤噪声。
提升深度扩展性：10层仍稳定不降。
增强异质图适应性：对邻节点特征不相似的图效果突出。

创新点

首次将Mamba选择性状态空间深度融入图卷积，而非简单串行/并行拼接。
设计交替层结构，平衡局部细节与全局压缩。
用NSPL动态修邻接矩阵，实现同阶邻域内的信息筛选。
用HiPPO-LegS初始化+输入相关矩阵生成，保证状态空间适配图数据。

5）实验发现（findings）与洞察（insights）

实验发现

综合最优：8个数据集平均排名1.71，6个数据集第一，强于GCN/GAT/GCNII/GPRGNN/GGCN等。
异质图绝杀：Wisconsin、Actor上大幅领先，传统GNN在此类图失效。
深层稳定：2~10层性能几乎不下降；GCN等2层后暴跌。
模块有效：消融证明NSPL、HiPPO-LegS、Input-Related均显著提效。
代价合理：时空复杂度随层数线性增长，可接受。

洞察

过平滑本质是无差别信息扩散，Mamba的选择性过滤天然匹配此痛点。
图上的“距离重要性衰减”和序列长距离依赖机理相通。
动态控制信息流向（NSPL）比固定聚合更适合深层GNN。
状态空间模型可成为GNN新一代深度扩展骨干。

6）数据和代码

代码：https://github.com/hexin5515/MbaGCN
数据集：Cora、Citeseer、Pubmed、Computers、Photo、Actor、Wisconsin（标准公开节点分类数据集）。

7）更好方法/待解决问题/可扩展性

更好的解决思路

轻量化Mamba变体，降低计算量。
结合图重连、自适应传播、对比学习进一步抑制过平滑。
对稠密图专门优化NSPL（本文在稠密图上NSPL效果减弱）。

待解决问题

稠密图上优化与稳定性不足。
时间/内存随层数线性增长，超大图需优化。
动态图、多模态图未验证。

可扩展任务

链接预测、图分类、分子属性预测、推荐系统、生物图、时空图。

8）方法学依据：是否神经科学/临床？是否假设驱动？

无神经科学/临床依据：纯深度学习与状态空间模型驱动。
强假设驱动：
假设1：Mamba选择性过滤可解决GNN无差别聚合导致的过平滑。
假设2：图邻域信息重要性随距离衰减，与序列长距离依赖一致。
假设3：动态控制信息流向可保持深层节点特征区分度。

9）可解释性/统计检验

可解释性实验：无专门可视化/归因分析，但通过消融实验解释各模块贡献。
统计检验：
- 10次随机划分取均值±标准差。
- 层深度对比、消融对比均量化精度变化。
- 未做显著性检验（t-test/ANOVA），但多数据集重复验证结论稳健。

下一篇

[TMI 2025 ] MM-GTUNets: Unified Multi-Modal Graph Deep Learning for Brain Disorders Prediction