diff --git "a/Test_Result/openEuler_22.03_LTS_SP4/openEuler_22.03_LTS_SP4 AI\344\275\234\344\270\232\346\224\257\346\214\201\345\205\270\345\236\213\346\225\205\351\232\234\357\274\210\345\206\205\345\255\230OOM\357\274\211\345\260\217\346\227\266\347\272\247\345\256\232\344\275\215\346\265\213\350\257\225\346\212\245\345\221\212.md" "b/Test_Result/openEuler_22.03_LTS_SP4/openEuler_22.03_LTS_SP4 AI\344\275\234\344\270\232\346\224\257\346\214\201\345\205\270\345\236\213\346\225\205\351\232\234\357\274\210\345\206\205\345\255\230OOM\357\274\211\345\260\217\346\227\266\347\272\247\345\256\232\344\275\215\346\265\213\350\257\225\346\212\245\345\221\212.md" new file mode 100644 index 0000000000000000000000000000000000000000..18d38f1065a56786b9233d25d2934467d509cae7 --- /dev/null +++ "b/Test_Result/openEuler_22.03_LTS_SP4/openEuler_22.03_LTS_SP4 AI\344\275\234\344\270\232\346\224\257\346\214\201\345\205\270\345\236\213\346\225\205\351\232\234\357\274\210\345\206\205\345\255\230OOM\357\274\211\345\260\217\346\227\266\347\272\247\345\256\232\344\275\215\346\265\213\350\257\225\346\212\245\345\221\212.md" @@ -0,0 +1,136 @@ +![avatar](../../images/openEuler.png) + + +版权所有 © 2025 openEuler社区 + 您对“本文档”的复制、使用、修改及分发受知识共享(Creative Commons)署名—相同方式共享4.0国际公共许可协议(以下简称“CC BY-SA 4.0”)的约束。为了方便用户理解,您可以通过访问https://creativecommons.org/licenses/by-sa/4.0/ 了解CC BY-SA 4.0的概要 (但不是替代)。CC BY-SA 4.0的完整协议内容您可以访问如下网址获取:https://creativecommons.org/licenses/by-sa/4.0/legalcode。 + +修订记录 + +| 日期 | 修订 版本 | 修改描述 | 作者 | +| ---- | ----------- | -------- | ---- | +| 2025-06-16 | v1.0 | 初稿 | leijie | +| | | | | + +关键词: 内存定位 时间线 火焰图 + +摘要:全栈故障自主诊断技术,内存和GC故障定位时长小于1h,大幅减少故障定位时间。 + + +缩略语清单: + +| 缩略语 | 英文全名 | 中文解释 | +| ------ | -------- | -------- | + +# 1 特性概述 + +性能故障中Host性能Profiler与XPU性能Profiler没有有效协同,Host侧内存问题和GC性能故障定位效率低。针对上述痛点问题,基于eBPF等技术实现AI作业进程Stack Mergeing, 支持典型故障(内存OOM)小时级定位。该方案能基于eBPF技术抓取Host侧内存和GC事件,分析内存和GC导致的训练性能问题,大幅减少故障定位时间。 + +# 2 特性测试信息 + +本节描述被测对象的版本信息和测试的时间及测试轮次,包括依赖的硬件。 + +| 版本名称 | 测试起始时间 | 测试结束时间 | +| -------- | ------------ | ------------ | +| openEuler 22.03 LTS SP4 RC6 | 2025-05-30 | 2025-06-06 | +| openEuler 22.03 LTS SP4 RC7 | 2025-06-07 | 2025-06-13 | + +描述特性测试的硬件环境信息 + +| 硬件型号 | 硬件配置信息 | 备注 | +| -------- | ------------ | ---- | +| Atlas_d801/d802 | NPU训练卡 | | + + +# 3 测试结论概述 + +## 3.1 测试整体结论 + + 内存故障定位特性共执行3个用例,覆盖功能、资料测试,功能覆盖AI模型基础数据落盘正常,转换功能能够将落盘数据转化为timeline/内存的数据文件,上传到网页上可以看到内存和timeline的火焰图;资料覆盖内存故障定位使用说明,验证通过。 + +| 测试活动 | 测试子项 | 活动评价 | +| ------- | -------- | ------- | +| 功能测试 | 新增特性测试 | 回归通过,无遗留风险 | +| 资料测试 | 资料说明 | 检视意见已解决,无遗留风险 | + + +## 3.2 约束说明 + +仅针对NPU设备 + +## 3.3 遗留问题分析 + +### 3.3.1 遗留问题影响以及规避措施 + +NA + +### 3.3.2 问题统计 + +| | 问题总数 | 严重 | 主要 | 次要 | 不重要 | +| ------ | -------- | ---- | ---- | ---- | ------ | +| 数目 | 0 | 0 | 0 | 0 | 0 | +| 百分比 | 0 | 0 | 0 | 0 | 0 | + + +# 4 详细测试结论 + +## 4.1 功能测试 + +### 4.1.1 继承特性测试结论 + +NA + +### 4.1.2 新增特性测试结论 + +| 序号 | 组件/特性名称 | 特性质量评估 | 备注 | +| --- | ----------- | :--------: | --- | +|1 |AI模型数据落盘 | | | +|2 |模型数据转化timeline/内存文件 | | | +|3 |timeline/内存文件可转化成火焰图样式 | | | + +## 4.2 兼容性测试结论 + +NA + +## 4.3 DFX专项测试结论 + +### 4.3.1 性能测试结论 + +NA + +### 4.3.2 可靠性/韧性测试结论 + +NA + +### 4.3.3 安全测试结论 + +NA + +## 4.4 资料测试结论 + +| 测试类型 | 测试内容 | 测试结论 | +| ------- | ------- | -------- | +| 资料测试 | 特性资料说明 | 测试通过 | + +https://gitee.com/openeuler/docs-centralized/pulls/15334 + +## 4.5 其他测试结论 + +NA + +# 5 测试执行 + +## 5.1 测试执行统计数据 + +*本节内容根据测试用例及实际执行情况进行特性整体测试的统计,可根据第二章的测试轮次分开进行统计说明。* + +| 版本名称 | 测试用例数 | 用例执行结果 | 发现问题单数 | +| -------- | ---------- | ------------ | ------------ | +| openEuler 22.03 LTS SP4 RC6 | 2 | 2 success | NA | +| openEuler 22.03 LTS SP4 RC7 | 3 | 3 success | NA| + + +# 6 测试说明 + +本次仅验证arm架构软件包 + +内核版本基于:kernel-5.10.0-227.0.0.129.oe2203sp4.aarch64 版本验证