广西建设厅网站,建设生鲜网站价格,hugo网站建设,免费微信小程序开店简介
本文介绍由南开大学、华为云及清华大学共同合作的论文:基于多源数据的微服务系统失败测试用例诊断。该论文已被FSE 2024#xff08;The ACM International Conference on the Foundations of Software Engineering#xff09; 会议录用#xff0c;论文标题为: Fault D…简介
本文介绍由南开大学、华为云及清华大学共同合作的论文:基于多源数据的微服务系统失败测试用例诊断。该论文已被FSE 2024The ACM International Conference on the Foundations of Software Engineering 会议录用论文标题为: Fault Diagnosis for Test Alarms in Microservices Through Multi-source Data。
作者张圣林朱俊郝博文孙永谦聂晓辉朱静雯刘喜临李小倩马宇驰裴丹 随着微服务系统规模的扩张保障微服务系统的稳定性愈发重要大量的测试用例被设计用于检测微服务系统相关功能的可靠性随之而来的是测试用例失败产生的大量测试告警。手动诊断这些告警对测试人员来说非常耗时耗力因此自动化的测试告警故障诊断应运而生。测试告警中的故障诊断包括测试失败的故障分类和根因定位能够帮助测试人员更加高效地处理日益增多的失败测试用例。然而由于微服务系统的复杂性已有的诊断测试告警的方法无法满足测试人员对于诊断准确度和精度的要求。
因此文章提出了一种针对微服务测试告警的新型故障诊断框架 SynthoDiag 通过知识图谱联合分析微服务系统测试过程中产生的多源日志执行机日志、Trace日志和测试用例信息等进行故障诊断。同时提出了根因关联和位置价值EFA-PV算法用于定位与测试告警相关的日志行减少测试人员的分析量。此外文章采用一种高效的基于日志块的过滤方法筛除测试过程中与故障无关的日志内容显著提升了故障诊断的整体性能。SynthoDiag在来自华为云的大规模数据集上进行了系统评估。结果显示SynthoDiag在故障分类的Micro-F1和Macro-F1评分上分别比基线方法提高了21%和30%并且在故障定位的Top-5准确率达到了81.9%显著超过了之前的方法。
背 景
系统集成测试SIT阶段的测试用例包括一系列操作及其相应的检查点每个测试用例用于测试系统的特定功能或面对特定情况的处理能力。在SIT中当测试操作的结果与预期不符时测试用例视为失败并会触发告警。测试失败可能是由于不同的因素导致的包括但不限于网络环境不稳定、测试步骤设计错误或系统故 障等。而针对不同的失败原因存在相应的处理方案因此将失败的测试用例按照失败的原因进行分类 能够帮助测试人员快速确定处理优先级和选择解决方案。
按照失败原因可以将失败测试用例分为四个类别环境问题、脚本缺陷、工具缺陷和服务问题。环境问题涉及外部环境因素导致的故障而脚本缺陷是由测试脚本设计的不合理引起的而工具缺陷主要是由于测试工具的故障这里三类问题并不会暴露系统自身的潜在问题通常需要调试测试环境、更正测试脚本、更新测试工具等方式进行处理。服务问题是最关键的类别主要是由于微服务系统本身的缺陷所导致的深入分析这类失败测试用例有助于发现潜在的服务问题并采取预防措施以避免严重事件。
微服务系统中的多源日志在诊断过程中起着关键作用因为它们提供了有关服务和操作的信息。每个测试用例会生成三种来源的日志如图1所示位于用户侧的执行机日志、位于服务器侧的 Trace 日志和测试人员预先编写的测试用例信息。有效地对这三种来源的日志进行联合分析将能够更加全面有效地对失败测试用例进行建模并在此基础上实现更加精准的故障诊断。本文的故障诊断包含对失败测试用例进行故障分类和定位其中故障分类是确定新用例属于哪一个现有的故障类别而故障定位是识别和突出显示最有可能与根本原因相关的特定日志内容从而帮助测试人员快速识别和解决故障。 图1多源日志样例
研究挑战
挑战1日志格式不统一
不同格式的多源日志使得之前的方法在利用这些日志上效果不佳尤其是在整合半结构化的执行机日志与具有跨度的树结构化的 Trace日志时。
挑战2失败无关日志内容的干扰
在失败的测试用例的日志中并非所有日志内容都与测试失败相关。这些与测试失败无关的日志内容占了很大比例会干扰提取故障特征。而现有方法不能有效地过滤掉这些无关的日志内容的同时保留相关的日志内容。
挑战3失败相关日志内容定位不准确
由于微服务系统及其测试脚本频繁的软件升级和配置变更即使是同一故障类别的测试用例其故障日志的内容也可能不同。因此历史测试用例中的故障日志内容可能与新失败的测试用例中的不同导致现有方法无法提供足够的参考信息以便在新失败的测试用例中定位故障日志。
结构设计
SynthoDiag框架包括三个主要组成部分日志过滤、用例嵌入和故障诊断如图2所示。在解析失败测试用例的日志时SynthoDiag首先基于日志块过滤掉与测试失败无关的日志内容解决挑战2。然后基于过滤后与测试失败相关的日志内容构建失败测试用例的知识图谱有效整合不同来源的日志内容解决挑战1。接下来SynthoDiag利用语义信息通过知识图嵌入技术将每个失败的测试用例嵌入到一个向量中并将历史失败的测试用例的向量和标签将存储在用例分类库中。当需要诊断新的失败测试用例时SynthoDiag使用相同的步骤获取该测试用例的用例向量和知识图谱然后输出故障类别并定位测试用例中指示故障的日志内容解决挑战3。 图2SynthoDiag整体工作流程
实验评估
文章将提出的 SynthoDiag 与四种基线方法在华为云某产品数据集上的应用进行比较分析以评估方法的有效性。图3展示了 SynthoDiag与基线方法在F1分数、Top-5准确率方面的差异。总体来说SynthoDiag 在所有基线方法中表现最佳Micro-F1分数为 0.872Macro-F1分数为0.891。这些分数比最佳基线方法分别高出21%的Micro-F1分数和30%的Macro-F1分数。具体而言尽管 CAM 的 Micro-F1 分 数为 0.761其Macro-F1分数为 0.587 较低其他三个基线方法在 Macro-F1 分数上的表现也较 差这显示了SynthoDiag在故障分类工作上的优越性。同时SynthoDiag 在故障定位上也展示出最佳性能Top-5 准确率为0.819说明基于模板或基于字符串的定位方法不适合在微服务系统的失败测试用例中定位故障日志内容。 图3实验结果
总 结
为了提高针对微服务系统测试的测试用例失败告警故障诊断能力文章提出的新型故障诊断框架SynthoDiag利用测试过程中产生的多源日志进行故障分类和定位。SynthoDiag利用知识图谱整合执行机日志、Trace日志和测试用例信息通过根因关联和位置价值EFA-PV来精确定位故障指示日志内容。该框架还采用了基于日志块的过滤策略来过滤掉与故障无关的日志内容显著提升了故障诊断的整体性能。在华为云的一个大规模实际数据集上进行的系统评估显示SynthoDiag在故障分类上的Micro-F1和 Macro-F1分数分别比基线方法提高了21%和30%并且在故障定位的Top-5准确率达到了81.9%显著优于以前的方法。总体而言SynthoDiag通过创新地使用知识图谱技术联合分析测试过程中产生的多源日志为微服务系统中的测试用例故障诊断提供了有效的解决方案。