
学位论文简介
(1)针对图像检索过程中存在大量图片因光照、尺寸、视角等变化和物体遮挡以及复杂背景等多种因素影响,导致传统图像检索方法存在准确性不足等问题,本文提出了结合比对监督哈希和卷积神经网络(Convolutional Neural Network, CNN)特征的图像检索模型。该模型使用正例对与大规模负例进行比对学习哈希编码,在较大程度上提升了模型效率。同时,采用Adam算法的卷积核权值系数的更替迭代提升了CNN的特征搜索能力、检索精度和效率。实验表明,此学习模型针对各种复杂场景,能有效增强深度卷积网络的多尺度特征获取能力,从而较好地预测图像的标签并直接计算二进制码,具有较强的学习判别能力。
(2)针对目标检测过程中传统算法性能容易受到数据规模、数据质量等相关因素的影响,难以给出高效准确的目标多尺度特征表达等问题,本文提出一种融合全局与局部信息的像素特征对比神经网络模型。该模型以DeepLab-v3+语义分割模型为基础,通过相应的算法选取图像中比较重要或感兴趣的区域,并将特征比对学习方法应用于目标检测任务中,融合不同尺度特征图,同时实现了全局与局部信息融合以及像素对比表征,提升了模型感知不同目标对比性差异的能力,突出了显著目标像素的特征表达。实验表明该方法能有效提高针对目标的识别率且算法鲁棒性较为理想,可实现效率较高的端对端目标提取与检测。
(3)针对计算机视觉的复杂场景识别中存在不同场景中局部对象相似,而导致人工特征提取方法很难在复杂场景识别任务中取得很好的效果,本文提出了一种基于端到端多模态和双分支语义的深度卷积神经网络监督比对学习模型,并研究了几种注意力策略。该模型使用一个双分支CNN(包括一个传统的RGB分支和一个互补的语义信息分支)来收集图像和上下文信息,输出的张量通过一个注意力模块进行组合,采取的策略是对卷积语义分支特征的Softmax转换。注意力机制利用这些变换后的特征控制RGB分支的特征,并增强对相关上下文信息的学习,将注意力的焦点转移到各个场景类的特征概念上。实验表明,该模型在各种场景识别任务上有较好的表现。
(4)针对视频检测的交通流估计中存在车辆目标多、大小不同、变形明显等情况而导致车辆漏检和误检的车流量计数出错等问题,本文提出了用于时空计数特征识别的长短期记忆(Long and Short Term Memory, LSTM)神经网络和交通流参数估计模型,用于估计交通流密度和车辆数量。相较于传统方法,本文方法提高了时空信息处理过程的速度和精度,具有较强的智能交通场景适应性。基于交通流视频数据和改进LSTM的交通流协同优化控制模型,能够定量分析路段设计速度与路段交通流承载力之间的关系,重新分解并传递定时约束作为引导,进而充分利用已知视频数据信息来实时感知环境变化并进行智能路径选择,提高了交通控制的及时性。
主要学术成果
Traffic Flow Video Image Recognition and Analysis Based on Multi-target Tracking Algorithm and Deep Learning. IEEE Transactions on Intelligent Transportation Systems,2022(第一作者,中科院1区期刊)
Real-time Cargo Loading Identification Based on Self-powered Camera. IEEE Sensors Journal,2022(第一作者,中科院2区)
An Intelligent Image Feature Recognition Algorithm with Hierarchical Attribute Constraints Based on Weak Supervision and Label Correlation. IEEE Access,vol.8, pp.105744-105753, 2020. (第一作者,中科院2区期刊)
Image Classification Model Based on Deep Learning in Internet of Things. Wireless Communications and Mobile Computing, vol. 2020, pp. 1-16, 2020. (第一作者,CCF C类期刊)
Intelligent Image Saliency Detection Method Based on Convolution Neural Network Combining Global and Local Information. Security and Communication Networks 2022 (2022).(第一作者,中科院4区期刊)