x
DeepSeek蒸馏技术与模型核心原理 课程周期:

培训天数:3天/24课时

课程概述

本课程聚焦于 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实践操作,旨在让学员掌握模型蒸馏的全流程,包括环境部署、数据集准备、蒸馏过程及调用测试,提升学员在大模型应用与优化领域的实践能力。课程还包含DeepSeek V3 模型核心原理、整体架构、分布式基础概念、MLA嵌在注意力从自回归掩码看KV缓存机制,针对KV缓存的改进,DeepSeek MOE架构与创新介绍。


课程目标

·  能够独立搭建 DeepSeek R1 模型蒸馏 Qwen2 1.5B 的实验环境,包括创建虚拟环境、安装相关依赖和工具。

·  熟悉多种可用于模型蒸馏的数据集,掌握数据集的清洗和准备方法,能根据需求筛选和处理数据。

·  理解并熟练执行模型蒸馏过程,运用 Llama - Factory 进行全量指令微调,优化模型性能。

·  学会对蒸馏前后的模型进行调用测试,准确评估模型在实际问题解决中的表现,分析模型的优势与不足。


课程亮点

实战派学习

从DeepSee-R1入门介绍,到模型蒸馏项目实战的讲解,再到核心原理介绍,由浅入深便于理解世界顶级大模型背后的奥秘。

完整的训练脚本和数据集

课程会分享讲解过程中所使用的训练脚本、代码、数据集,并提供参考的部署环境,可通过课后练习复现加深印象。

技术报告创新点剖析

不用通篇阅读官方技术报告的,通过课程讲解即可了解到DeepSeek-R1/V3核心创新点。

本地部署与私有化方案

介绍本地部署所需要的软硬件资源调配。


第一天 DeepSeek-R1蒸馏Qwen1.5B实战 

(一)模型蒸馏环境部署

1. 操作系统与配置说明

2. 创建虚拟环境

3. 创建 Jupyter Kernel

4. 安装 wand

5. 创建主目录与下载原始模型

6. 安装 Llama - Factory

(二)模型蒸馏数据集准备

1. 主流推理数据集介绍

2. 数据清洗过程

3. 数据集下载与准备

(三)模型蒸馏过程

1. 上传微调脚本

2. 执行微调

(四)调用测试

1. 测试问题设置

2. 普通模型调用测试

3. 蒸馏模型调用测试


第二天 DeepSeek-V3模型核心原理与架构介绍

(一)DeepSeekv3 架构图解与基本参数配置

(1)整体架构

(2)不同规模模型参数

(3)关键参数配置

(二)分布式并行化嵌入与映射

(1)ParallelEmbedding 层

(2)线性层相关实现

(3)行并行与列并行

(三)RMS Norm 层

(1)Layer Normalization 介绍

(2)LN 与 BN、RMSNorm 的差别

(3)RMSNorm 实现

(四)旋转位置编码 ROPE

(1)原理与优势

(2)具体流程

(3)相关代码实现

(五)DeepSeek v3 的 KV 缓存机制

(1)工作原理

(2)类定义与初始化

(3)forward 方法


第三天 DeepSeek v3 MLA 机制与混合专家模型介绍 

(一)DeepSeek v3 的 MOE 混合专家模型

(1)与常见前馈网络对比

(2)SwiGLU 激活函数

(3)MoE 原理与优势

(4)MoE 训练流程

(5)专家选择机制

(6)瓶颈问题与辅助损失

(7)MoE 推理过程

(8)相关类定义

(二)DeepSeek v3 的 KV 缓存机制

(1)自回归算法与 KV 缓存

(2)注意力机制计算分析

(3)KV 缓存工作流程

(4)MLA 潜在注意力机制

(5)相关类定义与初始化

推荐课程
参加任意课程培训考核合格
上海交大教育集团颁发结业证书
热线:400-820-7975   邮箱:ch@sjtu-gr.com
Copyright © 上海交大教育集团