# YH-Coll **Repository Path**: e-level-parallel-algorithm/yh-coll ## Basic Information - **Project Name**: YH-Coll - **Description**: 随着E级计算的到来,HPC系统的节点数量可以达到十万以上。对于使用了通信密集型程序而言,全局的聚合通信很可能成为严峻的通信瓶颈,从而制约通信性能。阿贡国家实验室的研究人员对Mira/Cetus超算系统的MPI实际使用情况进行了追踪,涉及两年内运行的约十万作业,提供了实际生产环境中科学计算应用对MPI使用特点的观察与分析:1) 应用运行过程中花在MPI库中的执行时间要长于预期,相当多的应用超过一半的执行时间花在MPI中。2) MPI聚合通信的使用显著多于点到点操作,而少数的由点到点通信主导的应用则以结构化最近邻居通信模式为主,可由MPI邻居聚合通信取代。3) 多线程应用需求高于预期,约30%的应用依赖MPI的多线程支持。4) 虽然小消息(不超过256字节)归约操作是利用最多的MPI通信,有将近20%的作业利用到大消息(超过512KB)归约。可见,聚合通信是今后MPI优化的重点。 - **Primary Language**: C - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 4 - **Forks**: 1 - **Created**: 2021-02-24 - **Last Updated**: 2023-12-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # YH-Coll #### 介绍 随着E级计算的到来,HPC系统的节点数量可以达到十万以上。对于使用了通信密集型程序而言,全局的聚合通信很可能成为严峻的通信瓶颈,从而制约通信性能。阿贡国家实验室的研究人员对Mira/Cetus超算系统的MPI实际使用情况进行了追踪,涉及两年内运行的约十万作业,提供了实际生产环境中科学计算应用对MPI使用特点的观察与分析:1) 应用运行过程中花在MPI库中的执行时间要长于预期,相当多的应用超过一半的执行时间花在MPI中。2) MPI聚合通信的使用显著多于点到点操作,而少数的由点到点通信主导的应用则以结构化最近邻居通信模式为主,可由MPI邻居聚合通信取代。3) 多线程应用需求高于预期,约30%的应用依赖MPI的多线程支持。4) 虽然小消息(不超过256字节)归约操作是利用最多的MPI通信,有将近20%的作业利用到大消息(超过512KB)归约。可见,聚合通信是今后MPI优化的重点。 在此背景下,我们拟提供一个天河E级计算机专用的高度优化的聚合通信库TH-coll (Tianhe collevtives)。 TH-coll基于天河底层通信接口GLEX,并拟覆盖常用的MPI聚合通信。目前已支持的聚合通信有: 单数据GLEX_allreduce (对比MPICH-glex加速约4-7.5x(节点间)或9.6x(节点内)), GLEX_Alltoall (对比MPICH-glex最大加速约3.7倍), GLEX_Alltoallv (对比MPICH-glex最大加速约2-3x) GLEX_Reduce (中小消息对比MPI加速比达2.8x)。 发展方向:未来拟为部分并行编程框架提供支撑。优化编程框架在天河系列机器上的性能表现。从而使得基于并行编程框架的批量应用在天河E级机器上能够不做修改的提升可扩展性。 #### 软件架构 软件架构说明 #### 安装教程 1. 在天河系列机器上配置一键执行脚本 2. 设置MPI环境 3. 运行一键脚本即可 #### 使用说明 见test目录下的程序。