面向野外环境下的多模态融合算法

前言：想要写出一篇引人入胜的文章？我们特意为您整理了面向野外环境下的多模态融合算法范文，希望能给你带来灵感和参考，敬请阅读。

关键词：野外监控网；目标识别；深度学习；多模态融合；特征

提取在国内，通常将部署于野外环境中进行监控和侦察任务的无线传感器网络称为野外监控传感网。野外监控传感网通常由声响、震动、图像、被动红外等传感器组成。采集到的信号，在经过处理后，不但可以检测出该区域内人员、车辆等目标的入侵，还可以获得其方向、速度、队伍规模、武器装备等重要情报，最后通过无线通信设备将这些信息传送到控制中心，即可实现对区域的监控和侦察。野外传感网中的传感器种类多种多样，仅仅依靠单一传感器采集的信息很难达到可信的判决结果，例如震动传感器易受地质条件的影响、声阵列对环境噪声非常敏感、图像传感器无法解决遮挡情况下的目标检测和识别等等。研究表明，单模态目标识别系统的一些缺陷可以通过多模态目标识别系统来弥补。多模态目标识别系统实际上是通过集成融合多种传感器所提取的特征信息（例如震动、声音、图像等）完成分类鉴别功能。近年来计算机技术和大规模数据处理技术的迅速发展，神经网络的高热度研究，都给深度学习带来了新的生命力和活力，刺激了深度学习在各个方面研究和应用，多模态机器学习也在深度学习的浪潮下实现了长足的进步和发展［1－3］。如今，深度学习已经在RGB摄像头、深度摄像头、声卡等多模态信息融合方面发挥了很大的作用，融合手段和方式也多种多样［4－6］。在此背景下，本文提出了一种基于深度学习的多模态特征融合算法，根据震动、声音和图像传感器所采集信息的特征，分别采用了不同的卷积神经网络来提取特征，并对特征进行融合。融合后的特征，对野外环境的目标分类鉴别具有更强的鲁棒性。

1面向野外环境的多模态融合算法研究

本文所设计的系统结构如图1所示。Avg．L表示均值化处理，L1～L4分别表示512、1024、2048和N个神经元组成的全连接层。N表示系统的分类类别数。该系统总共包括五个部分：特征提取、编码、特征融合、解码和分类。特征提取模块从数据中提取特征，编码器和解码器是对称的网络结构，编码器将特征数据进一步处理，解码器试图还原特征数据，特征融合层对三个模态特征进行整合从而得到场景的全局特征。分类器对融合得到的全局特征进行分类判别。

1．1特征提取模块

针对三种模态数据所设计的特征提取单元。对于图片数据，我们使用GoogLeNet［7］网络来从RGB数据中提取特征，得到的特征长度为1024维。对于麦克风阵列采集的声音数据，先对数据做预处理提取声音数据的梅尔倒谱系数MFCC［8］。图2是不同风噪条件下履带车的MFCC图谱。本文，将声音数据转化为MFCC频谱图，以MFCC频谱图作为GoogLeNet的输入，提取声音数据的特征。对于磁敏传感器采集的震动信号，本文采用4层的一维卷积来对震动信号进行处理，每层卷积后都有一个Maxpooling来提取最大值，网络命名为VibrationNet。该网络分支的具体参数如表1所示。输入到VibrationNet的震动信号长度为8192，该信号经过网络处理后，可以获取长度为1024维的特征。这三个特征提取模块需要单独训练，对于图像和声音特征提取网络，我们可以直接在ImageNet预训好的GoogLeNet模型基础上进行微调。而震动信号特征提取网络则需要重新训练。

1．2编解码模块

编解码模块是两个对称的结构，编码器对输入的特征进行编码，解码器则尽可能地恢复输入的特征，并使得两者的error足够小。编码器的输入是3个1024维度fm（m＝1，2，3）的特征，解码器的输出为3个1024维的特征gm（m＝1，2，3）。编码器是由四层全连接组成，神经元数量分别为1024、512、512和256。

1．3特征融合模块

图像、声音和震动信号经编码后所得到的特征长度均为256维。这里的特征融合模块主要是进行均值化操作，模块的输入是三个256维的特征均值化后输出的则是一个256维度的特征。

1．4分类模块

假设需要进行的是N分类，图1中的分类模块是由4个全连接层组成。神经元的个数依次为512、1024、1024和N。网络的最后再接一个N维的softmax，输出对应的分类结果。

1．5损失函数

该系统的损失函数定义为：其中，Lclass表示分类模块的交叉熵损失函数。fm（m＝1，2，3）和gm（m＝1，2，3）分别表示三种模态数据对编码器的输入特征和解码器的输出特征。

2实验结果分析讨论

野外传感网检测所感兴趣的目标一般是人员、履带车、轮式车和卡车四种。本文所用的实验数据是从四个不同的野外环境中采集所得，采集设备主要有摄像头、麦克风阵列和磁敏传感器分别获得图像、声音和震动三种模态数据。总共采集了222731条数据，实验时随机选取每类总数据的80％的用来训练模型，剩下的20％用来测试模型。四个场地采集的数据分布如表2所示。本文的实验总共分为两个部分，实验1是将四个场景的数据全部用来训练模型并测试，模型的识别结果如表3。从表3的结果来看，履带车的识别精度最高（表格中的加粗项），人员最低，这主要是因为相比于其他三种目标，履带车较重，运动时产生的声音及震动信号较强，而人员运动时麦克风阵列和磁敏传感器采集的信号都较弱，真实信号容易淹没在噪声中，导致识别结果较差。但总体来看，该系统的平均识别率基本都在95％以上，满足项目中对野外环境监控的要求。同时，也对实验过程中每条数据的处理时间进行了统计，平均为0．543s，满足判定结果实时上报服务器汇总的需求。实验2是从四个场景中随机挑选三个场景的数据用来训练模型，剩余场景的数据用来测试模型，模型总共训练并测试了4轮。实验结果请参照表4。从表4的实验结果来看，场地3作为测试样本时，系统的性能较差，这主要是因为场地3的数据在采集时有很多突发情况，比如出现了很多意外路过的车辆以及采集数据当天的风力较大等，这些都对场地3数据的质量造成了很大的影响，这就导致实验2中场地3单独作为测试样本时，模型性能有些下降。但总的来讲，虽然用来测试的场地没有参与模型的训练，模型的识别性能同实验1相比下降不是很明显，这表明所搭建的系统具有一定的迁移性及鲁棒性。

3结束语

本文提出了一种联合多种模态信息，对野外监控网中运动目标进行检测的方法，可以从多种模态信息中同时提取对分类有用的全局信息。实验结果表明，本文所设计的系统对野外环境中的目标检测有一定的应用价值，并且通过不同场景下的实验结果来看，该系统对于训练数据的依赖性较低，有一定的迁移性及鲁棒性。四种场景均参与模型训练的情况下，每种类别的精度基本可以达到95％以上，每一条数据的判别时间为0．543s，基本上可以满足野外监控对于精度和实时性方面的需要。目前网络的训练还是分段进行的，需要先训练特征提取器，再训练后面的分类器，结构较为复杂。下一步将尝试对模型结构进行改进，设计一种端到端的网络，同时还要进一步降低模型参数，减轻模型移植方面的压力。

参考文献

［1］高源．多传感器信息融合及其应用研究［J］．产业创新研究，2018（8）：67－68

［2］董立羽．现代生物特征识别技术发展综述［J］．电脑与信息技术，2007，15（5）：11－13

［3］黄子超，刘政怡．特征融合与S－D概率矫正的RGB－D显著检测［J］．中国图象图形学报，2016，21（10）：1392－1401

面向野外环境下的多模态融合算法

相关文章阅读