该文档是北京大学AI肖睿团队关于 DeepSeek大模型私有化部署和一体机解决方案 的技术研讨材料,内容涵盖从个人到企业级的部署方法、技术选型及实际案例,核心内容如下:
1. 人工智能与DeepSeek模型介绍
大模型基础:定义多模态、通用模型(LLM)、行业模型等术语,梳理大模型发展历程(规则驱动→知识工程→机器学习→深度学习→Transformer架构)。
DeepSeek模型演进:
V2:基于改进版MoE架构,参数量2360亿,降低训练成本42.5%。
V3:引入多Token预测(MTP),参数量6710亿,接近GPT-4o性能。
R1:强化学习驱动的推理模型,数学和代码能力对标OpenAI o1,支持推理过程可视化。
模型对比:对比生成模型(如GPT-4o)与推理模型(如o1)的定位、能力差异和应用场景。
蒸馏模型:定义模型蒸馏原理(知识迁移),提供不同蒸馏版本(1.5B~70B)的适用场景建议(如“7B适合对话,32B适合知识问答”)。
2. 个人部署DeepSeek
3. 企业级部署DeepSeek
4. DeepSeek一体机
5. 总结与参考