图像显著性区域检测旨在让计算机像人眼一样快速定位图中最吸引注意的部分。当前基于深度神经网络的方法已成为主流,但普遍存在模型参数量大、对复杂场景与小目标敏感度不足、边缘细节模糊等问题。本研究聚焦于对现有深度神经网络模型进行优化,以提升其检测精度与效率。
针对模型冗余问题,研究引入轻量化网络架构与通道注意力机制。在编码器部分,采用改进的MobileNetV3作为特征提取主干,替代传统的VGG或ResNet,大幅减少计算量。在特征融合阶段嵌入高效的通道注意力模块,使模型能自适应地强化显著性相关特征通道的权重,抑制背景干扰信息。
为提升模型对多尺度显著性目标的捕捉能力,设计了一种渐进式特征融合解码结构。该结构并非简单跳跃连接,而是通过构建从深层语义特征到浅层细节特征的金字塔式融合路径,并引入边缘增强监督。在解码的每一阶段,额外使用一个辅助的边界预测分支,利用图像梯度信息进行约束,使得模型在预测显著区域的能更好地保留目标的清晰轮廓,特别是针对小尺寸目标。
在损失函数层面进行优化。结合二元交叉熵损失、结构相似性损失与交并比损失,构建一种复合损失函数。该函数不仅关注像素级的分类准确性,更强调预测图与真实标注在整体结构和区域重叠度上的一致性,有效缓解了预测图内部“空洞”与边缘平滑的问题。
实验在公开数据集DUTS和ECSSD上进行。结果表明,优化后的模型在平均绝对误差和最大F-measure等关键指标上优于多个经典基线模型,同时模型参数量下降了约百分之四十,实现了精度与速度的更好平衡。在包含大量小目标和复杂背景的案例测试中,优化模型展现出更强的鲁棒性。