diff --git a/docs/appendix/qa.md b/docs/appendix/qa.md index d274da2f8f188141c96a199478029dbb37a8a8d5..c4e8ce56c098a790eca64d85eada526178f6dbb9 100644 --- a/docs/appendix/qa.md +++ b/docs/appendix/qa.md @@ -1,7 +1,6 @@ --- sidebar_position: 4 --- - # 常见问题 欢迎查看模力方舟的常见问题汇总,以下为各板块常见问题的解决方案: diff --git a/docs/compute/_category_.json b/docs/compute/_category_.json new file mode 100644 index 0000000000000000000000000000000000000000..91d74cb1e703544f258a39f6b181863aeb8d93e1 --- /dev/null +++ b/docs/compute/_category_.json @@ -0,0 +1,5 @@ +{ + "label": "算力市场", + "position": 5, + "collapsed": true +} \ No newline at end of file diff --git a/docs/compute/billing.md b/docs/compute/billing.md new file mode 100644 index 0000000000000000000000000000000000000000..638a9234f408030c777bb29ce8606c1981deca52 --- /dev/null +++ b/docs/compute/billing.md @@ -0,0 +1,55 @@ +--- +sidebar_position: 1 +--- +# 计费说明 +## 一、按量计费 +按量计费是一种后付费模式,即先使用后付费。您可以根据业务需求随时开启和销毁容器实例,费用将按照您的实际使用时长进行计算。这种方式灵活便捷,特别适合短期、临时或有爆发性业务需求的用户。 +### 计费规则 + - 计费周期:实例从 “开机” 状态开始计费,当您主动点击 “销毁/退还” 后,实例将进入销毁流程,计费随之结束。 + - 费用计算:总费用 = 使用时长 × 单价。 + - 使用时长:时长计算的起止时间为您实例的开机时间和销毁/退还时间,时长精确到分钟。 + - 单价:以您选择的实例规格每小时的价格为准。 +### 扣费方式 +- 扣费时机:系统会在每个整点进行一次扣费,并在您销毁/退还实例时进行最后一次扣费。 +- 扣费金额:每次扣费的金额为上一个扣费点到当前时间点之间产生的费用,使用时长精确到秒。 +- 示例说明: + - 如果您在 **10:00** 开机一个实例,并在 **11:30** 将其销毁/退还。 + - 系统会在 **11:00** 自动从您的账户扣除 **10:00** 到 **11:00** 这1个小时的费用。 + - 在您 **11:30** 点击“销毁/退还”后,系统会立即扣除 **11:00** 到 **11:30** 这 0.5 个小时的费用,并终止该实例的计费订单。 +### 订单与支付 + - **创建条件与订单生成**:当您选择按量计费方式创建实例时,系统会预先检查您的账户余额、代金券与算力券总额是否足以支付所选实例规格一小时的费用。如果不足,将无法创建,您可以前往 **"费用中心"** 进行充值。校验通过后,系统才会为您创建一个费用为 0 元的初始订单。 + :::tip + 此举仅为账户可用额度的校验,并不代表实例按小时起租,您的最终费用仍将按分钟级的实际使用时长精确计算。 + ::: + - **费用明细**:后续的每一次扣费,您都可以在“费用中心”的“费用明细”中查看到详细记录。 + - **自动扣款**:费用将自动从您的账户余额中扣除。 + - **代金券与算力券**:如果您的账户中有可用的代金券或算力券,系统将优先使用这些券进行费用抵扣。 +### 余额不足/销毁 + - **预警提醒**:当您的账户余额、代金券与算力券总额不足以支付所选实例规格一小时的费用时,系统将通过平台消息和邮件向您发送提醒。 + - **扣费与销毁**:若您收到提醒后未及时充值或主动销毁/退还实例,系统将继续按分钟进行扣费,直至账户余额为 0。余额耗尽后,您的容器实例将被立即自动销毁/退还,且所有数据都将丢失,无法恢复。因此为避免影响您的正常使用,请务必在使用过程中密切关注并确保账户余额充足。 +### 计费方式转换 + - 如果您发现需要长期使用某个实例,可以随时将按量计费方式转换为包周期计费(包日/包周/包月),以获取更优惠的价格。具体转换规则请参见下文的“计费方式转换”说明。 +### 优势 + - **灵活计费**:按实际使用时长计费,用多少付多少,不用即停,有效节约成本。 + - **快速启停**:适合需要频繁启停实例的开发、测试等场景。 +## 二、包周期(包日/包周/包月) +包周期是一种预付费模式,即先付费再使用。您需要预先支付所选周期(如日、周、月)的全部费用。这种方式适用于业务稳定、需要长期运行实例的场景,价格上更具优势。 +### 计费规则 + - **预付费**:在租用实例时,您需要一次性付清所选周期的全部费用,系统会生成一笔独立的订单。 + - **租用周期**:我们支持按日、按周、按月等多种租用周期。 +### 支付方式 + - **组合支付**:支付订单时,系统将优先使用您账户中的折扣券、代金券、算力券及账户余额进行抵扣。如果以上总额不足以支付订单全额,您需要通过微信、支付宝或对公转账等方式支付剩余差价。 + + :::warning + 对于需要补差价的订单,当您点击创建后,系统将为您生成一笔“待支付”订单,并跳转至支付页面。同时,系统会为您预留所选的GPU资源并锁定库存15分钟。请您务必在15分钟内完成支付,否则订单将被自动取消,锁定的 GPU 库存也将被释放。 + ::: +### 到期与续费 + - **到期处理**:包周期实例到期后,若未及时续费,其将被自动销毁,所有数据将无法恢复。系统会在到期前通过短信、邮件等方式提醒您。 + - **手动续费**:您可以在实例到期前,随时对其进行续费。续费周期同样支持按日、按周、按月等多种选择。 +### 优势 + - **价格优惠**:相较于按量计费,包周期的单位时间价格更低,长期使用更划算。 + - **资源预留**:预付费模式可以确保您在租用周期内稳定地拥有计算资源。 +## 三、计费方式转换 +我们支持按量收费更换成包周期收费,以满足您业务需求的变化。 +### 按量计费转包周期 +您可以随时将正在运行的按量收费实例转换为包周期实例。转换时,您需要选择希望购买的周期(日/周/月)并支付相应的费用。支付成功后,计费方式立即生效。 diff --git a/docs/compute/container.md b/docs/compute/container.md new file mode 100644 index 0000000000000000000000000000000000000000..25e01ae4d807558a0e2dcfab687eef82654ad4fb --- /dev/null +++ b/docs/compute/container.md @@ -0,0 +1,119 @@ +--- +sidebar_position: 2 +--- +# 容器说明 +## 一、操作说明 +:::important +重要事项:使用容器前必读!!! +::: +### 容器生命周期:没有“开关机”,只有“销毁” +- **唯一结束方式**:结束容器使用的唯一方式是点击"销毁/退还"按钮。这是一个**不可逆转**的操作。 +- **数据将永久删除**:一旦执行"销毁/退还",容器实例及其承载的**所有数据将被立即、永久地删除**,且无法以任何方式恢复。 +- **计费停止**:执行"销毁/退还"后,该实例的计费会立即停止。 +- **“重启”功能**:我们提供"重启"按钮。此功能仅用于解决**实例卡死、无响应**等异常情况。重启会重新加载容器环境,但不会影响您的计费状态,也不会像“销毁”一样删除您的持久化数据(见下一条)。 +:::caution +请将"销毁/退还"视为“彻底删除服务器”。在点击前,请务必确认您已备份所有重要数据。 +::: +### 数据持久化:请务必使用 /root 或 /data 目录 +容器实例的存储机制非常特殊,为了保证您的数据安全,请严格遵守以下规则: +- **唯一持久化目录**:请将您所有需要长期保存的数据、代码、模型等文件,全部存放在 `/root` 或 `/data` 目录下。这两个目录下的数据在更换镜像或重启实例后仍会保留。 +- **非持久化目录的数据丢失风险** + - **更换镜像**:当您更换实例的镜像时,只有 `/root` 和 `/data` 目录下的数据会被保留,其他所有目录都将被重置为新镜像的初始状态,原有数据将丢失。 + - **实例重启**:在极少数情况下,执行“重启”操作可能会导致 `/root` 和 `/data` 之外的其他目录数据丢失。 +- **实例销毁**:再次强调,无论数据存放在哪个目录,一旦实例被"销毁/退还",所有数据都将丢失。 +### 首次登录:设置高强度 SSH 密码 +为了保障您账户和容器实例的安全,首次通过 SSH 登录容器前,您必须设置一个安全的登录密码。 +- **设置时机**:在创建实例后、首次连接前,系统会引导您设置 SSH 密码。 +- **密码复杂度要求**:密码必须满足以下所有条件,否则无法设置成功:. + - **最小长度**:密码长度不少于 **12** 位。 + - **必须包含**:至少一个大写字母(A-Z)。 +## 二、如何进入容器实例的终端 +### Windows原生工具(以Windows11为例) +**步骤一**:在实例管理页设置SSH的登录密码 + +![设置SSH登录密码](/img/compute/compu01.png) + +密码复杂度校验:为了保证容器的安全,限制了密码至少需要12位,只能包含数字、大小写字母和英文标点符号,且必须至少包含一个大写字母 + +**步骤二**:复制SSH登录指令 + +![复制SSH登录指令](/img/compute/compu02.png) + +**步骤三**:在 Windows 上打开 PowerShell/cmd ,输入 SSH 登录指令和登录密码 + +![在Windows上打开PowerShell/cmd](/img/compute/compu03.png) +![在Windows上打开PowerShell/cmd](/img/compute/compu04.png) + +### Xshell工具: +**步骤一**:打开Xshell,点击"新建" + +![打开Xshell,点击"新建"](/img/compute/compu05.png) + +**步骤二**:在"连接"的设置页下输入主机的地址、端口号 + +![在"连接"的设置页下输入主机的地址、端口号](/img/compute/compu06.png) + +**步骤三**:在"用户身份验证"的设置页下用户名和密码 + +![在"用户身份验证"的设置页下用户名和密码](/img/compute/compu07.png) + +**步骤四**:点击"连接",进入到容器实例 + +![点击"连接",进入到容器实例的终端](/img/compute/compu08.png) +![点击"连接",进入到容器实例的终端](/img/compute/compu09.png) + +## 三、如何在容器实例上传/下载数据 +### JupyterLab工具: +**上传数据** + +**步骤一**:在实例管理页点击打开JupyterLab + +![步骤一](/img/compute/compu10.png) + +**步骤二(点击上传按钮)**:在JupyterLab点击上传按钮,打开本机的文件夹 + +![步骤二](/img/compute/compu11.png) + +**步骤三(文件拖动)**:直接将本机的文件夹拖动至JupyterLab + +![步骤三](/img/compute/compu12.png) + +**下载数据** + +**步骤一**:在实例管理页点击打开JupyterLab + +![步骤一](/img/compute/compu13.png) + +**步骤二**:在 JupyterLab 的文件夹中找到需要下载的文件,点击左键选中 "下载/download" ,下载对应的文件到本机,JupyterLab 不支持下载文件夹,可以以单个文件逐一下载的形式下载文件夹里所有文件 + +### XFtp工具: +**步骤一**:打开Xftp,点击"新建" + +![步骤一](/img/compute/compu14.png) + +**步骤二**:输入主机的地址、端口号、用户名和密码 + +![步骤二](/img/compute/compu15.png) + +**步骤三**:点击"连接",进入到容器实例 + +![步骤三](/img/compute/compu16.png) + +## 四、如何访问容器实例部署的Web服务 +由于安全问题暂不提供对外访问的公网端口,但是可以通过隧道代理的方式连接容器实例进而在本地主机访问容器实例上的 web 服务 +### Windows隧道代理 +**步骤一**:在 Windows 上打开 PowerShell/cmd ,输入 SSH 隧道代理指令和登录密码 + +![步骤一](/img/compute/compu17.png) + +SSH隧道代理指令:ssh-CNg-L6006:127.0.0.1:6006root@140.207.205.182-p50000 + +**-L6006:127.0.0.1:6006** + +这是本地端口转发的核心设置,其格式为本地端口:目标地址:目标端口。 + +- **6006**(第一个端口号):这是您本地计算机上将要监听的端口。建立隧道后,您将通过访问 [http://localhost:6006](http://localhost:6006) 来访问远端的Web服务。您可以根据需要更改此端口,但请确保所选端口未被本地其他程序占用。 +- **127.0.0.1**:这是目标地址,127.0.0.1通常代表远程服务器的本地回环地址 [localhost](localhost) 。这意味着我们想要连接的是远程服务器自身上的服务。 +- **6006**(第二个端口号):这是远程服务器上Web服务正在监听的端口。我们的隧道会将本地6006端口的流量转发到远程服务器的这个端口上。 + +![powershell](/img/compute/compu18.png) diff --git a/docs/compute/domestic-gpu.md b/docs/compute/domestic-gpu.md new file mode 100644 index 0000000000000000000000000000000000000000..fdba375ae4743b43c227d2d14abd278e411667e8 --- /dev/null +++ b/docs/compute/domestic-gpu.md @@ -0,0 +1,78 @@ +--- +sidebar_position: 3 +--- +# 国产芯片 +## 沐曦GPU使用指南与重要事项 +本平台采用强大的国产沐曦的 **曦云C500** GPU 为您提供算力支持。为了确保您获得最佳的开发与推理体验,请在使用前仔细阅读以下指南。沐曦 GPU 拥有其独立的驱动、软件生态和硬件特性,了解这些信息将帮助您规避常见问题。 +### 模型精度支持:请注意FP8限制 +沐曦 GPU 在处理不同计算精度时表现出色,但有其特定的支持范围。 +- **不支持FP8精度**:当前,沐曦硬件及软件栈**无法直接加载和推理使用FP8量化的模型**。如果您尝试直接从 Hugging Face 等社区使用官方示例代码部署最新的FP8模型(例如 DeepSeek-V2、Qwen2-72B-Instruct-GGUF 的某些FP8版本),将会遇到失败。 +- **支持的计算精度**:根据官方数据显示,沐曦 **曦云®C500 OAM** 加速卡支持以下主流精度,您在选择模型时应优先考虑这些格式: + - **FP32 (vector)**: 18 TFLOPS + - **FP32 (matrix)**: 36 TFLOPS + - **TF32**: 140 TFLOPS + - **FP16**: 280 TFLOPS + - **BF16**: 280 TFLOPS + - **INT8**: 560 TOPS +:::info +**建议**:在部署模型前,请确认模型的量化类型。对于需要高性能推理的场景,我们推荐您使用 **FP16** 或 **BF16** 格式的模型。 +::: +### 核心软件生态:MACA(兼容CUDA,轻松迁移) +MACA 是沐曦 GPU 的统一计算加速平台。为了最大化保护您在现有技术栈上的投资,MACA 在设计上**高度兼容主流的CUDA编程模型**。这意味着您基于 CUDA 开发的应用和算法,**无需重写或仅需少量适配**,即可平滑迁移至性能更强的沐曦 GPU 上运行,极大地降低了开发和迁移成本。 + +- **平台深度集成,开箱即用**:您无需担心任何驱动安装问题。平台上的所有沐曦 GPU 镜像均已预装最新、最稳定的 MACA 官方驱动,确保您随时可以开始工作。 +### AI开发库:注意版本适配与覆盖风险 +为了在沐曦 GPU 上实现最佳性能,许多主流的AI开发库(如 PyTorch, vllm 等)都经过了官方的专门适配和优化。 +- **预装优化库**:镜像中已为您预装了这些经过沐曦官方适配的AI库。 +- **检查适配库**:您可以通过以下命令,查看当前环境中哪些库是专门为沐曦 GPU 优化的版本。这些库的版本号通常会包含 `+metax` 或 `+maca` 的特殊标识。 + + ```python + pip list | grep -e torch -e maca -e metax -e + + ``` + + ```python + apex 0.1+metax... + flash_attn 2.6.3+metax... + ray 2.43.0+maca... + torch 2.6.0+metax... + torchvision 0.15.1+metax... + triton 3.0.0+metax... + vllm 0.8.5+maca... + xformers 0.0.22+metax... + # ... 以及其他适配库 + ``` +- **操作警告:防止覆盖!** +在自行安装或更新 Python 包时,请**极度小心**。执行标准的 `pip install ` 或 `pip install --upgrade ` 命令,会造成社区的版本覆盖掉沐曦的特定版本,从而导致程序运行失败或性能大幅下降。 +- **最佳实践**: +1. 在安装新库前,先用 `pip list` 检查是否已存在 `+metax` 或 `+maca` 版本。 +2. 如需安装或更新,优先访问沐曦官方软件中心查找正确的版本和安装方式。 +### 模型部署与问题排查 +在部署模型或开发应用时,如果遇到环境问题,可以参考以下建议: +- **通用模型部署**:对于大多数主流模型,直接使用 Hugging Face 或 ModelScope 社区提供的标准示例代码即可成功拉取和部署。 +- **部署失败怎么办?** + - **检查模型兼容性**:确认模型未使用FP8等暂不支持的特性。 + - **使用沐曦官方镜像**:如果您发现缺少特定的AI开发库,或在部署复杂大模型时遇到困难,推荐使用沐曦官方发布的容器镜像。这些镜像通常拥有最高的适配度和最全的优化库。 + - **等待官方适配**:对于最新发布的模型,可能需要等待沐曦官方进行适配。请关注官方的驱动和AI开发库更新。 +### 沐曦 mx-smi 工具使用简介 +欢迎使用沐曦(MetaX)GPU 计算资源。为了帮助您更好地管理和监控租用的 GPU 实例,我们提供了这篇 mx-smi 工具的简明使用文档。mx-smi 是用于管理曦云®系列 GPU 的命令行工具,功能类似于 NVIDIA 的 nvidia-smi ,但部分指令有所不同。如需了解更多高级功能,例如性能等级设置、拓扑关系查询、固件管理等,请访问官方提供的完整版[《曦云系列通用计算GPUmx-smi使用手册》](https://developer.metax-tech.com/api/client/document/preview/549/C500_mxsmiManual_CN.html#)。 +- **快速概览GPU状态**:您可以直接在终端中运行 `mx-smi` 命令,以获取当前所有 GPU 资源的核心信息摘要。这是最常用、最重要的命令。 + - `mx-smi`执行后,系统会返回一个列表,展示每张卡的功耗、显存使用情况、温度、版本信息、GPU 利用率以及当前在卡上运行的进程等。 +- **常用查询命令** +您可以组合使用不同的查询选项来获取更具体的信息。 + - 查询 GPU 和 VPU 利用率:`mx-smi--show-usage` + - 查询显存使用情况:`mx-smi--show-memory` + - 查询温度:`mx-smi--show-temperature` + - 查看当前运行的进程:`mx-smi--show-process` +- 高级用法 + - 指定 GPU 卡:如果您的实例中有多张 GPU 卡,可以使用 `-i` 参数指定要查询的卡(ID 从 0 开始)。 + + 例如,查询第一张卡(ID 为 0 )的利用率: `mx-smi -i 0 --show-usage` + + - 持续监控:如果您需要实时监控GPU状态,可以使用 `-l` 参数(loop)来设置刷新间隔(单位为毫秒)。 + + 例如,每秒(1000毫秒)刷新一次所有卡的温度、功耗和利用率信息,按下Ctrl+C可以退出监控。 + + `mx-smi--show-temperature--show-board-power--show-usage-l1000` +### 官方资源 +获取最新的驱动、开发库、教程和文档,请访问沐曦官方软件中心。 +- 沐曦软件中心与官方教程: https://sw-download.metax-tech.com/index \ No newline at end of file diff --git a/static/img/compute/compu01.png b/static/img/compute/compu01.png new file mode 100644 index 0000000000000000000000000000000000000000..c5bf273963fe5af6c99a7e81eee5bad02e71ce23 Binary files /dev/null and b/static/img/compute/compu01.png differ diff --git a/static/img/compute/compu02.png b/static/img/compute/compu02.png new file mode 100644 index 0000000000000000000000000000000000000000..5383dd9ed8ae2a43ba32b07847712f64722ac7f0 Binary files /dev/null and b/static/img/compute/compu02.png differ diff --git a/static/img/compute/compu03.png b/static/img/compute/compu03.png new file mode 100644 index 0000000000000000000000000000000000000000..ace3dad35469391b4fcc26eb735a93fb1d93d6bd Binary files /dev/null and b/static/img/compute/compu03.png differ diff --git a/static/img/compute/compu04.png b/static/img/compute/compu04.png new file mode 100644 index 0000000000000000000000000000000000000000..8768c5fea3353b58aa5ae9e83e6d73a473b389ec Binary files /dev/null and b/static/img/compute/compu04.png differ diff --git a/static/img/compute/compu05.png b/static/img/compute/compu05.png new file mode 100644 index 0000000000000000000000000000000000000000..05521e94ed675428ff7b7aedfc23f4a5603c4af2 Binary files /dev/null and b/static/img/compute/compu05.png differ diff --git a/static/img/compute/compu06.png b/static/img/compute/compu06.png new file mode 100644 index 0000000000000000000000000000000000000000..bf36d6d9249b5a1b888451168441d31f6b01f93f Binary files /dev/null and b/static/img/compute/compu06.png differ diff --git a/static/img/compute/compu07.png b/static/img/compute/compu07.png new file mode 100644 index 0000000000000000000000000000000000000000..d1e7c37fdd70507d919087c9fd19e2e7bf53ffee Binary files /dev/null and b/static/img/compute/compu07.png differ diff --git a/static/img/compute/compu08.png b/static/img/compute/compu08.png new file mode 100644 index 0000000000000000000000000000000000000000..9f293ddfc6fe022688553e05bf28a216d8ed5f9c Binary files /dev/null and b/static/img/compute/compu08.png differ diff --git a/static/img/compute/compu09.png b/static/img/compute/compu09.png new file mode 100644 index 0000000000000000000000000000000000000000..5ff8ca71f62b78bcf19d0e15d119418fc397e3c9 Binary files /dev/null and b/static/img/compute/compu09.png differ diff --git a/static/img/compute/compu10.png b/static/img/compute/compu10.png new file mode 100644 index 0000000000000000000000000000000000000000..3de8a94827e908031887e6564db6633fac8309a1 Binary files /dev/null and b/static/img/compute/compu10.png differ diff --git a/static/img/compute/compu11.png b/static/img/compute/compu11.png new file mode 100644 index 0000000000000000000000000000000000000000..34c9e55dcf800c56a9a2645fad51f368a16b2d6b Binary files /dev/null and b/static/img/compute/compu11.png differ diff --git a/static/img/compute/compu12.png b/static/img/compute/compu12.png new file mode 100644 index 0000000000000000000000000000000000000000..ad164db92c94da091898ccd2138a4c467c7bb706 Binary files /dev/null and b/static/img/compute/compu12.png differ diff --git a/static/img/compute/compu13.png b/static/img/compute/compu13.png new file mode 100644 index 0000000000000000000000000000000000000000..3de8a94827e908031887e6564db6633fac8309a1 Binary files /dev/null and b/static/img/compute/compu13.png differ diff --git a/static/img/compute/compu14.png b/static/img/compute/compu14.png new file mode 100644 index 0000000000000000000000000000000000000000..21024b860ae4a74bcabb8d5f7f63347d292a80c0 Binary files /dev/null and b/static/img/compute/compu14.png differ diff --git a/static/img/compute/compu15.png b/static/img/compute/compu15.png new file mode 100644 index 0000000000000000000000000000000000000000..5859f7328bbfcdc2b1b3442e037e8cd0eed9cf19 Binary files /dev/null and b/static/img/compute/compu15.png differ diff --git a/static/img/compute/compu16.png b/static/img/compute/compu16.png new file mode 100644 index 0000000000000000000000000000000000000000..e4de9356c1856968b685cebd1436535b3612939a Binary files /dev/null and b/static/img/compute/compu16.png differ diff --git a/static/img/compute/compu17.png b/static/img/compute/compu17.png new file mode 100644 index 0000000000000000000000000000000000000000..128ac2213234837add5587accbbc1b0c6e3b6be0 Binary files /dev/null and b/static/img/compute/compu17.png differ diff --git a/static/img/compute/compu18.png b/static/img/compute/compu18.png new file mode 100644 index 0000000000000000000000000000000000000000..f7cceceb892fcd2e246a35c1da2fca3431388805 Binary files /dev/null and b/static/img/compute/compu18.png differ