
学位论文简介
本文针对智能无人系统不同配置环境下文本匹配的实际应用需求,面向现有文本匹配模型的准确率和可信性两方面的挑战,对文本匹配模型展开了研究。本文主要工作和贡献总结如下:
针对低端计算环境中计算资源和训练数据资源不足,传统模型语义提取不完备问题,提出一种轻量级的文本匹配模型。提出的TES-TK模型首先将输入的句子对分别转化为两棵名为TES-Tree 的语法树结构,TES-Tree结构通过整合句子的句法信息、语义知识和主题分布,实现更全面的句语义信息提取。随后,设计一个改进的树核模型,用于计算两棵TES-Tree之间的相似度,进而得到两个句子之间的相似度分值。在19个公共基准数据集(STS2012-2015)上的实验表明,与其它经典模型相比,TES-TK模型在13个数据集上取得了最优的结果。特别是在资源受限的中低端计算环境中,与最新的模型相比,TES-TK模型在匹配准确度上也取得了最优的结果。
针对计算资源相对充足的环境中大型预训练模型不适用,简单网络结构模型匹配准确率不高的问题,提出一种适用于无人系统终端的语义增强的文本匹配模型,即EnESIM模型。为了提取文本间更丰富的语义信息,在EnESIM模型结构的输入处理层中添加了TextCNN层以进一步地提取句子单词间的短语信息。同时,为了取得更精准的相似度分值,优化组合排序层和输出层来获得输出分数值。在STS基准数据集上的实验表明,EnESIM模型在准确率这一性能上优于其它经典的优秀模型。同时,在与大规模预训练模型的对比实验中,EnESIM模型的参数规模远小于大型预训练模型,更适用于计算资源相对充足的智能无人系统终端上。
针对深度神经网络模型的过度自信预测带来的模型可信度问题,提出一种融合可信度分析的文本到图像人物匹配模型,即FC-SDM模型。通过完整的CLIP模型来提取图像和文本特征,并使用屏蔽语言模型和多模态交互编码器来隐式地挖掘模态间细粒度关系并学习多模态间有差别的全局特征。在此基础上,设计一种融合可信度估计的相似度分布匹配方法,为用户提供可信度估计及结果预测。在多个基准数据集上的实验结果表明,与LBUL模型等当前最优秀的一些模型相比,FC-SDM模型在所有评价指标中至少提升了2.9 %的匹配性能,并为无人系统上的文本到图像匹配结果提供了高可信度估计,缓解了分类器的过度自信预测带来的安全危机。
基于以上的研究,在智能随行看护系统中实现了对文本匹配模型的验证。该智能随行看护系统主要针对农村地区老年人的安全看护问题而设计,系统包括机器人端,服务器端、家用摄像头端、监护端和维护端。该系统在机器人端应用TES-TK模型实现了指令问答系统,用于匹配用户发出的指令与指令集中的指令;机器人端应用En-ESIM模型实现了离线环境下的问答系统,用于匹配用户的提问与问答数据库中的问题;服务器端应用FC-SDM模型实现了目标人物搜索系统,模型通过匹配目标人物特征描述与摄像头获取的人物图像来锁定目标人物。
主要学术成果
Qi Xiao, Yunchuan Qin, Kenli Li, Zhuo Tang, Fan Wu, Zhizhong Liu. An unsupervised semantic text similarity measurement model in resource-limited scenes. Information Science. 616: 444-460 (2022). (SCI 1区)
Qi Xiao, Yunchuan Qin, Cheng Xu, Kenli Li. Secure Key Establishment Mechanism for Smart Sensing System Based Robots Network. Sensors 20(7): 1970 (2020). (SCI 3区)
Zhuo Tang, Qi Xiao, Li Zhu, Kenli Li, Keqin Li. A semantic textual similarity measurement model based on the syntacticsemantic representation. Intelligent Data Analysis. 23(4): 933-950 (2019). (SCI 4区,导师第一作者)
Zemin Tang, Qi Xiao, Xu Zhou, Yangfan Li, Cen Chen, Kenli Li. Learning discriminative multi-relation representations for multimodal sentiment analysis. Information Science. 641: 119125 (2023). (SCI 1区,通信作者)
Zemin Tang, Qi Xiao, Yunchuan Qin, Xu Zhou, Joey Tianyi Zhou, Kenli Li. Multi-View Interactive Representations for Multimodal Sentiment Analysis. Transactions on Consumer Electronics.(投稿中,通信作者)
Zemin Tang, Qi Xiao, Joey Tianyi Zhou, Xu Zhou, Kenli Li. Can I Trust You? Rethinking Prediction Trustworthiness for Multimodal Sentiment Classification. The 17th ACM International Conference on Web Search and Data Mining.(投稿中,通信作者)