公司定制DeepSeek模型训练方案

一、技术选型与总结

1、需求简述

假如公司有100W数据，包括新闻，企业，个人，方案等数据。需要将公司数据投喂给DeepSeek继续训练（模型微调），从而达到提问公司数据时可以正常返回，其次可以完成一些创造性的任务。

特别说明：新闻文章、产品数据属于非结构化数据，企业、个人、参展等数据属于结构化数据。

2、实现方案及优缺点

目前主流的实现方案有两种：

二次训练：在预训练模型的基础上，用自己的数据继续训练，调整模型的参数，使其更适应特定的任务或领域。
知识库：将数据存储在结构化的数据库中，当需要查询或生成相关内容时，模型可以检索知识库中的信息并整合到回答中。由检索增强生成（RAG）实现。
混合方案：知识库 + 轻量微调，核心数据轻量微调，普通数据使用知识库。达到平衡性能和成本。

二次训练的优缺点：

优点：更好的学习到公司数据特征，在特定的任务重表现更出色
缺点：大量的计算资源，训练时长，对数据质量要求高，且需要一定的机器学习专业知识，扩充数据需要重新训练

知识库的优缺点

优点：灵活，不需要重新训练模型，节省资源，知识库可随时更新
缺点：在处理复杂问题时，模型可能无法像二次训练那样深入理解数据的内在关系，回答的准确性和深度可能受限。

混合方案的优缺点

优点：性能与成本的平衡
缺点：需对数据前期处理和分类投入更多工作

总结：如果需要结合公司数据做深层次的推理，做更多创造性的工作，建议二次训练；如果更多做一些检索查询/问答和其相关推理，建议使用知识库模式；两者兼顾使用混合方案。

资源投入对比

维度	二次训练	知识库（RAG）
技术门槛	需ML专业知识（训练、调参）	需工程能力（数据库、检索系统）
计算资源	高（需GPU/TPU，训练时间长）	低（依赖检索算力，无需训练）
维护成本	高（需定期重训练适应新数据）	低（仅需更新数据库）
响应速度	模型推理可能较慢	检索+生成通常更快

微调模型时，显存需求通常会比本地部署时更高，因为微调过程中需要同时处理模型参数和数据集。

硬件成本参考

苹果产品线
Mac mini M4 32G内存，1T硬盘，京东10446元
Mac mini M4 Pro 48GB内存，1T硬盘，京东15421元
Mac mini M4 Pro 64GB内存，1T硬盘，京东16914元

英伟达产品线
显卡NVIDIA Tesla v100 32G显存，京东23999元
显卡NVIDIA Tesla v100 16G显存，京东6999元
其他硬件CPU+内存+SSD硬盘，预计5000上下

云产品线

阿里云：
GPU 计算型 gn7i，CPU 8核，内存 30G，GPU NVIDIA A10 24GB，参考费用￥9.5326/时
GPU 计算型 gn7i，CPU 32核，内存 128G，GPU 2 NVIDIA A10 2 24 GB，参考费用￥20.1867/时

腾讯云：
GPU计算型GN7，CPU 8核，内存 32G，GPU NVIDIA T4 16G，参考费用8.68元/小时
GPU计算型GN10X，CPU 8核，内存 40G，GPU NVIDIA V100 32G，参考费用18.04元/小时

总结：苹果电脑的显存共享依赖于统一内存架构，CPU、GPU和其他核心共享同一块物理内存池，显存与GPU之间的通讯延迟对训练影响较大，算力差别也相差很大，其次苹果系统对深度学习的支持不如英伟达的CUDA平台。但苹果产品线的价格和能效总表现出色。

二、数据集处理

在数据集进行处理前需要对数据进行清洗操作。

主要数据集

主要数据集包括：企业数据、观众数据、产品数据、展会数据、会议论坛数据、报告等

主要数据集用于模型微调，每半年或每年更新一次数据。

次要数据集

次要数据集包括：新闻文章、圈子、评论等

次要数据集用于知识库的建立，每周批量更新一次数据。

三、训练阶段（模型微调）

基础模型的选择

DeepSeek-R1-Distill-Qwen-1.5B（可超越GPT 4o的编程性能）
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B（可达到GPT o1 mini的综合推理性能）

模型	量化精度	显存需求(GB)	推荐硬件(英伟达)	推荐硬件(苹果)	推荐硬件(租用)
7B	LoRA(FP16)	16	RTX4090(24G)	Mac mini M4 32G	英伟达同等算力
7B	QLoRA(INT8)	10	RTX4080(16G)	Mac mini M4 32G	-
7B	QLoRA(INT4)	6	RTX3060(12G)	Mac mini M4 16G	-
14B	LoRA(FP16)	32	RTX4090*2	Mac mini M4 pro 48G	-
14B	QLoRA(INT8)	20	RTX4090	Mac mini M4 32G	-
14B	QLoRA(INT4)	12	RTX3060	Mac mini M4 32G	-
32B	LoRA(FP16)	65	A100(80G)	Mac mini M4 pro 48G * 2	-
32B	QLoRA(INT8)	40	L40(48G)	Mac mini M4 64G	-
32B	QLoRA(INT4)	24	RTX4090	Mac mini M4 32G	-

全量微调

全量微调可以对基础模型进行深度的改造，它会将模型的全部参数进行带入训练，需要消耗大量算力，且有一定的技术门槛。不建议进行全量微调

高效微调

在绝大数场景中，如果我们只想提升模型的某个具体领域的能力，那么选择高效微调更加合适。现在适用于大模型的主要高效微调方法是LoRA/QLoRA。其在通过引入低秩矩阵来减少未调试需要调整的参数量，从而显著降低显存和计算资源的消耗。其中QLoRA采用量化版本的LoRA，可以更加显著的减少显存和算力的消耗。

高效微调框架

unsloth

Llama-Factory

ms-SWIFT

四、部署阶段（本地部署）

模型	量化精度	显存需求(GB)	推荐硬件(英伟达)	推荐硬件(苹果)
7B	FP16	16	RTX4090(24G)	Mac mini M4 32G
7B	INT8	10	RTX4080(16G)	Mac mini M4 32G
7B	INT4	6	RTX3060(12G)	Mac mini M4 16G
14B	FP16	32	RTX4090*2	Mac mini M4 pro 48G
14B	INT8	20	RTX4090	Mac mini M4 32G
14B	INT4	12	RTX3060	Mac mini M4 32G
32B	FP16	65	A100(80G)	Mac mini M4 pro 48G * 2
32B	INT8	40	L40(48G)	Mac mini M4 64G
32B	INT4	24	RTX4090	Mac mini M4 32G

检索增强生成（RAG）

简单概述，利用已有的文档、内部知识生成向量知识库，在提问的时候结合库的内容一起给大模型，让其回答的更准确，它结合了信息检索和大模型技术。

请输入图片描述

建立索引：需要将日常的业务知识，以文件形式给分成较短的块（chunk），然后进行编码，向量化存入到向量化的库中；nomic-embed-text-v1模型就是做这个事情的。
检索向量库：根据用户的提问，到向量库中去进行向量匹配，检索出相似的chunk，作为提问的上下文；
生成回复：将用户的提问内容和检索的块结合发送给大模型，大模型结合两者进行问题的回复；

五、持续优化（迭代更新）

最后更新于 2025-02-14 15:51:21 并被添加「deepseek」标签，已有 2750 位童鞋阅读过。

本站使用「署名 4.0 国际」创作共享协议，可自由转载、引用，但需署名作者且注明文章出处

DeepSeek核心技术简介~为什么这么牛？

沉迷于学习，无法自拔^_^