导航

北京大学|DeepSeek 私有化部署和一体机

日期:2025-03-12文章来源: 浏览次数:

该文档是北京大学AI肖睿团队关于 DeepSeek大模型私有化部署和一体机解决方案 的技术研讨材料,内容涵盖从个人到企业级的部署方法、技术选型及实际案例,核心内容如下:

1. 人工智能与DeepSeek模型介绍

  • 大模型基础:定义多模态、通用模型(LLM)、行业模型等术语,梳理大模型发展历程(规则驱动→知识工程→机器学习→深度学习→Transformer架构)。

  • DeepSeek模型演进

    • V2:基于改进版MoE架构,参数量2360亿,降低训练成本42.5%。

    • V3:引入多Token预测(MTP),参数量6710亿,接近GPT-4o性能。

    • R1:强化学习驱动的推理模型,数学和代码能力对标OpenAI o1,支持推理过程可视化。

  • 模型对比:对比生成模型(如GPT-4o)与推理模型(如o1)的定位、能力差异和应用场景。

  • 蒸馏模型:定义模型蒸馏原理(知识迁移),提供不同蒸馏版本(1.5B~70B)的适用场景建议(如“7B适合对话,32B适合知识问答”)。


2. 个人部署DeepSeek

  • 硬件要求:按模型参数量(1.5B~671B)提供最低和推荐配置(CPU、内存、显存、硬盘)。

    • 示例:7B模型需8核CPU、32GB内存、8GB显存;70B模型需服务器级硬件。

  • 部署工具Ollama

    • 安装与环境配置(Docker、Ollama客户端、环境变量)。

    • 常用命令(ollama pull下载模型,ollama run运行模型)。

    • 前端工具:浏览器插件(PageAssist)、桌面应用(Chatbox)、Web服务(Open WebUI)的配置与使用。

  • 常见问题:安全漏洞、模型升级后性能退化、网络配置问题及解决方案。


3. 企业级部署DeepSeek

  • 高性能方案

    • Transformers:快速验证模型能力,提供代码示例及生成参数(如temperaturetop_p)。

    • vLLM:基于PagedAttention技术提升吞吐量(24倍于Transformers),分享70B模型企业部署案例(8卡4090配置、并发性能数据)。

  • 低成本方案

    • llama.cpp:纯CPU/GPU混合推理,速度较慢(3~5 tokens/s)。

    • KTransformers:清华大学开源方案,CPU+GPU混合推理(8~14 tokens/s)。

    • Unsloth动态量化:灵活量化模型层,兼容Ollama框架,优化显存占用。

  • 性能对比:不同方案的吞吐量、显存占用及适用场景总结。


4. DeepSeek一体机

  • 概念与优势:软硬协同、本地化部署,降低AI使用门槛,保障数据安全。

  • 国产厂商配置

    • 基础版(7B):FP16精度,8.8万元,适用轻量任务(文本摘要、客服)。

    • 标准版(32B):FP16精度,16.8万元,支持科研与复杂推理。

    • 旗舰版(671B):FP8精度,199万元,适用于国家级AI研究。

  • 北大青鸟案例:高校AI实验室建设方案,集成模型训练、推理、监控与管理功能。


5. 总结与参考

  • 文档系统梳理了DeepSeek从个人到企业级部署的全流程,提供技术选型、实操指南及成本效益分析。

  • 引用GitHub仓库(Ollama、vLLM、llama.cpp)及arXiv论文作为技术支撑。