培训天数:3天/24课时
课程概述
本课程聚焦于 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实践操作,旨在让学员掌握模型蒸馏的全流程,包括环境部署、数据集准备、蒸馏过程及调用测试,提升学员在大模型应用与优化领域的实践能力。课程还包含DeepSeek V3 模型核心原理、整体架构、分布式基础概念、MLA嵌在注意力从自回归掩码看KV缓存机制,针对KV缓存的改进,DeepSeek MOE架构与创新介绍。
课程目标
· 能够独立搭建 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实验环境,包括创建虚拟环境、安装相关依赖和工具。
· 熟悉多种可用于模型蒸馏的数据集,掌握数据集的清洗和准备方法,能根据需求筛选和处理数据。
· 理解并熟练执行模型蒸馏过程,运用 Llama - Factory 进行全量指令微调,优化模型性能。
· 学会对蒸馏前后的模型进行调用测试,准确评估模型在实际问题解决中的表现,分析模型的优势与不足。
课程亮点
实战派学习
从DeepSee-R1入门介绍,到模型蒸馏项目实战的讲解,再到核心原理介绍,由浅入深便于理解世界顶级大模型背后的奥秘。
完整的训练脚本和数据集
课程会分享讲解过程中所使用的训练脚本、代码、数据集,并提供参考的部署环境,可通过课后练习复现加深印象。
技术报告创新点剖析
不用通篇阅读官方技术报告的,通过课程讲解即可了解到DeepSeek-R1/V3核心创新点。
本地部署与私有化方案
介绍本地部署所需要的软硬件资源调配。
第一天 DeepSeek-R1蒸馏Qwen1.5B实战
(一)模型蒸馏环境部署
1. 操作系统与配置说明
2. 创建虚拟环境
3. 创建 Jupyter Kernel
4. 安装 wand
5. 创建主目录与下载原始模型
6. 安装 Llama - Factory
(二)模型蒸馏数据集准备
1. 主流推理数据集介绍
2. 数据清洗过程
3. 数据集下载与准备
(三)模型蒸馏过程
1. 上传微调脚本
2. 执行微调
(四)调用测试
1. 测试问题设置
2. 普通模型调用测试
3. 蒸馏模型调用测试
第二天 DeepSeek-V3模型核心原理与架构介绍
(一)DeepSeekv3 架构图解与基本参数配置
(1)整体架构
(2)不同规模模型参数
(3)关键参数配置
(二)分布式并行化嵌入与映射
(1)ParallelEmbedding 层
(2)线性层相关实现
(3)行并行与列并行
(三)RMS Norm 层
(1)Layer Normalization 介绍
(2)LN 与 BN、RMSNorm 的差别
(3)RMSNorm 实现
(四)旋转位置编码 ROPE
(1)原理与优势
(2)具体流程
(3)相关代码实现
(五)DeepSeek v3 的 KV 缓存机制
(1)工作原理
(2)类定义与初始化
(3)forward 方法
第三天 DeepSeek v3 MLA 机制与混合专家模型介绍
(一)DeepSeek v3 的 MOE 混合专家模型
(1)与常见前馈网络对比
(2)SwiGLU 激活函数
(3)MoE 原理与优势
(4)MoE 训练流程
(5)专家选择机制
(6)瓶颈问题与辅助损失
(7)MoE 推理过程
(8)相关类定义
(二)DeepSeek v3 的 KV 缓存机制
(1)自回归算法与 KV 缓存
(2)注意力机制计算分析
(3)KV 缓存工作流程
(4)MLA 潜在注意力机制
(5)相关类定义与初始化