From 5b0e6a327c43f9e5a9d523918df5bd02ad0ed581 Mon Sep 17 00:00:00 2001
From: xiangyangh <1836111966@qq.com>
Date: Mon, 16 Jun 2025 03:00:14 +0000
Subject: [PATCH] =?UTF-8?q?add=20Test=5FResult/openEuler=5F22.03=5FLTS=5FS?=
=?UTF-8?q?P4/openEuler=5F22.03=5FLTS=5FSP4=20AI=E4=BD=9C=E4=B8=9A?=
=?UTF-8?q?=E6=94=AF=E6=8C=81=E5=85=B8=E5=9E=8B=E6=95=85=E9=9A=9C=EF=BC=88?=
=?UTF-8?q?=E5=86=85=E5=AD=98OOM=EF=BC=89=E5=B0=8F=E6=97=B6=E7=BA=A7?=
=?UTF-8?q?=E5=AE=9A=E4=BD=8D=E6=B5=8B=E8=AF=95=E6=8A=A5=E5=91=8A.md.?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
Signed-off-by: xiangyangh <1836111966@qq.com>
---
...13\350\257\225\346\212\245\345\221\212.md" | 136 ++++++++++++++++++
1 file changed, 136 insertions(+)
create mode 100644 "Test_Result/openEuler_22.03_LTS_SP4/openEuler_22.03_LTS_SP4 AI\344\275\234\344\270\232\346\224\257\346\214\201\345\205\270\345\236\213\346\225\205\351\232\234\357\274\210\345\206\205\345\255\230OOM\357\274\211\345\260\217\346\227\266\347\272\247\345\256\232\344\275\215\346\265\213\350\257\225\346\212\245\345\221\212.md"
diff --git "a/Test_Result/openEuler_22.03_LTS_SP4/openEuler_22.03_LTS_SP4 AI\344\275\234\344\270\232\346\224\257\346\214\201\345\205\270\345\236\213\346\225\205\351\232\234\357\274\210\345\206\205\345\255\230OOM\357\274\211\345\260\217\346\227\266\347\272\247\345\256\232\344\275\215\346\265\213\350\257\225\346\212\245\345\221\212.md" "b/Test_Result/openEuler_22.03_LTS_SP4/openEuler_22.03_LTS_SP4 AI\344\275\234\344\270\232\346\224\257\346\214\201\345\205\270\345\236\213\346\225\205\351\232\234\357\274\210\345\206\205\345\255\230OOM\357\274\211\345\260\217\346\227\266\347\272\247\345\256\232\344\275\215\346\265\213\350\257\225\346\212\245\345\221\212.md"
new file mode 100644
index 0000000..18d38f1
--- /dev/null
+++ "b/Test_Result/openEuler_22.03_LTS_SP4/openEuler_22.03_LTS_SP4 AI\344\275\234\344\270\232\346\224\257\346\214\201\345\205\270\345\236\213\346\225\205\351\232\234\357\274\210\345\206\205\345\255\230OOM\357\274\211\345\260\217\346\227\266\347\272\247\345\256\232\344\275\215\346\265\213\350\257\225\346\212\245\345\221\212.md"
@@ -0,0 +1,136 @@
+
+
+
+版权所有 © 2025 openEuler社区
+ 您对“本文档”的复制、使用、修改及分发受知识共享(Creative Commons)署名—相同方式共享4.0国际公共许可协议(以下简称“CC BY-SA 4.0”)的约束。为了方便用户理解,您可以通过访问https://creativecommons.org/licenses/by-sa/4.0/ 了解CC BY-SA 4.0的概要 (但不是替代)。CC BY-SA 4.0的完整协议内容您可以访问如下网址获取:https://creativecommons.org/licenses/by-sa/4.0/legalcode。
+
+修订记录
+
+| 日期 | 修订 版本 | 修改描述 | 作者 |
+| ---- | ----------- | -------- | ---- |
+| 2025-06-16 | v1.0 | 初稿 | leijie |
+| | | | |
+
+关键词: 内存定位 时间线 火焰图
+
+摘要:全栈故障自主诊断技术,内存和GC故障定位时长小于1h,大幅减少故障定位时间。
+
+
+缩略语清单:
+
+| 缩略语 | 英文全名 | 中文解释 |
+| ------ | -------- | -------- |
+
+# 1 特性概述
+
+性能故障中Host性能Profiler与XPU性能Profiler没有有效协同,Host侧内存问题和GC性能故障定位效率低。针对上述痛点问题,基于eBPF等技术实现AI作业进程Stack Mergeing, 支持典型故障(内存OOM)小时级定位。该方案能基于eBPF技术抓取Host侧内存和GC事件,分析内存和GC导致的训练性能问题,大幅减少故障定位时间。
+
+# 2 特性测试信息
+
+本节描述被测对象的版本信息和测试的时间及测试轮次,包括依赖的硬件。
+
+| 版本名称 | 测试起始时间 | 测试结束时间 |
+| -------- | ------------ | ------------ |
+| openEuler 22.03 LTS SP4 RC6 | 2025-05-30 | 2025-06-06 |
+| openEuler 22.03 LTS SP4 RC7 | 2025-06-07 | 2025-06-13 |
+
+描述特性测试的硬件环境信息
+
+| 硬件型号 | 硬件配置信息 | 备注 |
+| -------- | ------------ | ---- |
+| Atlas_d801/d802 | NPU训练卡 | |
+
+
+# 3 测试结论概述
+
+## 3.1 测试整体结论
+
+ 内存故障定位特性共执行3个用例,覆盖功能、资料测试,功能覆盖AI模型基础数据落盘正常,转换功能能够将落盘数据转化为timeline/内存的数据文件,上传到网页上可以看到内存和timeline的火焰图;资料覆盖内存故障定位使用说明,验证通过。
+
+| 测试活动 | 测试子项 | 活动评价 |
+| ------- | -------- | ------- |
+| 功能测试 | 新增特性测试 | 回归通过,无遗留风险 |
+| 资料测试 | 资料说明 | 检视意见已解决,无遗留风险 |
+
+
+## 3.2 约束说明
+
+仅针对NPU设备
+
+## 3.3 遗留问题分析
+
+### 3.3.1 遗留问题影响以及规避措施
+
+NA
+
+### 3.3.2 问题统计
+
+| | 问题总数 | 严重 | 主要 | 次要 | 不重要 |
+| ------ | -------- | ---- | ---- | ---- | ------ |
+| 数目 | 0 | 0 | 0 | 0 | 0 |
+| 百分比 | 0 | 0 | 0 | 0 | 0 |
+
+
+# 4 详细测试结论
+
+## 4.1 功能测试
+
+### 4.1.1 继承特性测试结论
+
+NA
+
+### 4.1.2 新增特性测试结论
+
+| 序号 | 组件/特性名称 | 特性质量评估 | 备注 |
+| --- | ----------- | :--------: | --- |
+|1 |AI模型数据落盘 | ■ | |
+|2 |模型数据转化timeline/内存文件 | ■ | |
+|3 |timeline/内存文件可转化成火焰图样式 | ■ | |
+
+## 4.2 兼容性测试结论
+
+NA
+
+## 4.3 DFX专项测试结论
+
+### 4.3.1 性能测试结论
+
+NA
+
+### 4.3.2 可靠性/韧性测试结论
+
+NA
+
+### 4.3.3 安全测试结论
+
+NA
+
+## 4.4 资料测试结论
+
+| 测试类型 | 测试内容 | 测试结论 |
+| ------- | ------- | -------- |
+| 资料测试 | 特性资料说明 | 测试通过 |
+
+https://gitee.com/openeuler/docs-centralized/pulls/15334
+
+## 4.5 其他测试结论
+
+NA
+
+# 5 测试执行
+
+## 5.1 测试执行统计数据
+
+*本节内容根据测试用例及实际执行情况进行特性整体测试的统计,可根据第二章的测试轮次分开进行统计说明。*
+
+| 版本名称 | 测试用例数 | 用例执行结果 | 发现问题单数 |
+| -------- | ---------- | ------------ | ------------ |
+| openEuler 22.03 LTS SP4 RC6 | 2 | 2 success | NA |
+| openEuler 22.03 LTS SP4 RC7 | 3 | 3 success | NA|
+
+
+# 6 测试说明
+
+本次仅验证arm架构软件包
+
+内核版本基于:kernel-5.10.0-227.0.0.129.oe2203sp4.aarch64 版本验证
--
Gitee