
学位论文简介
日志异常检测对保证系统的可靠性(Reliability)、可用性(Availability)和可服务性(Serviceability)至关重要,特别是对于大规模的计算机系统。由于日志通常是非结构化或半结构化的文本,所以进行日志异常检测之前通常需要先进行日志解析。本文在分析已有日志解析方法和日志异常检测方法的缺点和不足的基础上,提出针对性的解决方案。本文的主要贡献如下:
(1) 提出了一个基于向量化的日志解析框架——LPV(Log Parser based on Vectorization)。LPV利用自然语言处理(NLP)领域的向量化方法将日志消息和日志模板都表示为向量,并结合离线日志解析和在线日志解析。LPV既能够在离线日志解析中充分利用历史日志以获得很好的解析效果,同时能够保证在线日志解析很高的效率,而且得到的模板向量可以直接用于后续的日志异常检测及其它的日志分析任务。
(2) 提出了一种基于Transformer的半监督日志异常检测方法——Loader(Log anomaly detector based on Transformer)。 Loader使用Transformer编码器替换广泛使用的RNN及其变体来从正常日志序列中学习正常序列模式,并设计了更灵活、更鲁棒的“top-p”算法替换“top-k”算法来确定候选日志模板集合。使用Transformer编码器相比使用RNN可以获得更好或者相当的检测效果以及更高的效率,采用“top-p”算法相比采用“top-k”算法可以提升检测效果而且更容易确定合适的阈值。
(3) 提出了一个基于图神经网络(GNN)的日志异常检测框架——LogGraph。LogGraph将任意长度的日志序列(或者其子串)表示为一个有向图,然后利用GNN捕获图中的节点信息和结构信息,再通过图分类(或者链接预测)任务的形式实现日志异常检测。LogGraph利用了日志序列中比时序关系更复杂的依赖关系以及日志模板的语义信息,而且可以有效处理任意长度的日志序列。LogGraph以统一的框架实现了日志异常检测的两种常见范式,为日志异常检测提供了一种新的、更有效的解决方案。
主要学术成果
Tong Xiao, Zhe Quan, Zhi-Jie Wang, Yuquan Le, Xiangke Liao, Kenli Li, and Keqin Li. LogGraph: A Log Anomaly Detection Framework Based on Graph Neural Networks. IEEE Transactions on Services Computing. (在审,第一作者,CCF A类期刊,中科院2区)
Tong Xiao, Zhe Quan, Zhi-Jie Wang, Yuquan Le, Yunfei Du, Xiangke Liao, Kenli Li, and Keqin Li. Loader: A Log Anomaly Detector Based on Transformer. IEEE Transactions on Services Computing, 2023, 16(5): 3479-3492. (第一作者,CCF A类期刊,中科院2区)
Tong Xiao, Zhe Quan, Zhi-Jie Wang, Kaiqi Zhao, Xiangke Liao, Huang Huang, Yunfei Du, and Kenli Li. LPV: A Log Parsing Framework Based on Vectorization. IEEE Transactions on Network and Service Management, 2023, 20(3): 2711-2725. (第一作者,CCF C类期刊,中科院2区)
Tong Xiao, Zhe Quan, Zhi-Jie Wang, Kaiqi Zhao, and Xiangke Liao. LPV: A Log Parser Based on Vectorization for Offline and Online Log Parsing. 2020 IEEE International Conference on Data Mining (ICDM), 2020: 1346-1351. (第一作者,CCF B类会议)
Xuan Lin, Kaiqi Zhao, Tong Xiao, Zhe Quan, Zhi-Jie Wang, and Philip S. Yu. DeepGS: Deep Representation Learning of Graphs and Sequences for Drug-Target Binding Affinity Prediction. The 24th European Conference on Artificial Intelligence (ECAI), 2020. (第三作者,CCF B类会议)
Huang Huang, Li-Qian Zhou, YuTong Lu, Tong Xiao, Can Leng, Chuanying Li, and Zhe Quan. An efficient real-time data collection framework on petascale systems. Neurocomputing, 2019, 361: 100-109. (第四作者,CCF C类期刊,中科院2区)
全哲, 肖桐, 周旭, 唐卓, 陈建国, 姜文君, 李肯立, 李克勤. 一种基于向量化的日志模板提取方法和系统. 中国: CN110175158B, 2020-11-10.