近日,电子工程学院王智文教授团队在计算机科学领域顶级期刊Engineering Applications of Artificial Intelligence(中科院一区top期刊,IF=8)发表题为Max-Min Pooling and Squeeze Excitation Lightweight Bidirectional Mamba for image classification的学术论文。该论文第一作者为电子工程学院2023级硕士研究生池森林,王智文教授为通讯作者。这是该项目团队近期在国际计算机科学领域顶级期刊发表的又一力作。

为了解决 Transformer 模型二次计算复杂度、执行速度慢和内存消耗高带来的挑战,团队提出了一种新颖的图像分类方法:最大最小池化和挤压激励轻量级双向Mamba(MMPSELMamba)。核心创新包括:(1)团队设计了一种最大-最小池化机制,通过最大池化协同保留高激活前景特征,通过最小池化保留低强度上下文细节。该方法解决了传统单模池化方法中的信息丢失问题;(2)受挤压增强型Transformer(SeaFormer)的启发,团队设计了一种轴向挤压激励模块,该模块沿垂直和水平维度压缩冗余特征,同时增强判别性特征细化;(3)基于序列建模的最新进展,团队用基于状态空间模型(SSM)的双向Mamba架构,实现远程依赖模型的线性复杂度;(4) 团队提出的多尺度集成单元结合了上采样、串联和下采样操作来优化特征融合,同时最大限度地减少计算开销。对于工程应用,MMPSELMamba专为资源受限的环境(例如边缘设备和移动视觉系统)而设计。通过集成深度可分离卷积和轻量级 SSM 运算,与SeaFormer相比,实现了36%的参数减少和16%的计算负载,同时保持了有竞争力的精度。在公共数据集上的实验验证了其部署在自主无人机和嵌入式监控等现实场景中极具潜力。

双向Mamba结构

论文的技术方案
文章信息:
Senlin Chi, Zhiwen Wang*, Lianyuan Jang, Mengsi Gong. Max-Min Pooling and Squeeze Excitation Lightweight Bidirectional Mamba for image classification.Engineering Applications of Artiϧcial Intelligence 162 (2025) 112246. https://doi.org/10.1016/j.engappai.2025.112246
文章链接:
https://doi.org/10.1016/j.engappai.2025.112246