# ai **Repository Path**: starboot/ai ## Basic Information - **Project Name**: ai - **Description**: AI 大模型核心算法构建、及训练的手动实现 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 0 - **Created**: 2025-07-24 - **Last Updated**: 2025-09-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: 大模型, AI, 算法, 预训练, 强化训练 ## README # AI 大模型核心算法构建、及训练的手动实现 - **llm_pretain_sft_dpo.py** :+1: :是训练大语言模型的完整代码,包括**模型构建**、**预训练**、**监督训练**、**DPO算法训练(内含手写DPO算法实现)**。

- **model_zhiqing.py** :+1: :基于**PyTorch**框架纯手写实现**Transformer Only Decoder**的**GPT2**大模型。

- **rl** :+1: :是强化训练算法的实现,包括:**RLHF算法**、**PPO训练算法**实现、**Reward Model训练**的具体实现。

- **trl** :+1: : 是基于**Hugging Face**官方**trl**库来实现训练大语言模型的三种常用算法,包括:DPO、RLHF-PPO、GRPO训练。适用于多机多卡分布式训练,生产级显卡A100。

- **train_r1** :+1: :本实验是基于**Deep Seek**的GRPO强化学习算法,将**Instruction**【指令型】模型训练成具备思考能力的【R1】模型。

- **starboot** :+1: :是train.py的依赖项,包含构建大语言模型算法的具体实现、训练过程的显存占用等日志监控、训练数据的预处理。

- **train_gpt2_deepspeed.py** :+1: :基于**Microsoft AI**团队的**Deep Speed**实现分布式多机多卡训练***GPT2***系列大模型。

- **train_gpt2_fsdp.py** :+1: :基于**PyTorch**团队的**全分片数据并行技术 FSDP**实现分布式多机多卡训练***GPT2***系列大模型。

- **checkpoint.py** :+1: :是基于pytorch框架手动实现:梯度检查点、混合精度能力,并且清楚展示了所带来的显存性能优化效果。

实验证明: ``` java 设备: NVIDIA GeForce RTX 3090 24GB (1)未做内存优化:1554MiB (2)仅混合精度:1200MiB (3)梯度检查点+混合精度:718MiB ```

- **flash_atten.py** :+1: :是基于PyTorch框架手动实现多头注意力机制计算、与基于【flash-attn】算法实现多头注意力机制计算所带来的计算性能提升情况。

- 实验结果证明:随着计算矩阵的扩大计算性能显著提升。

有任何问题可以随时联系我,作者邮箱:mixiaodong1998@163.com