公司定制DeepSeek模型训练方案

一、技术选型与总结

1、需求简述

假如公司有100W数据, 包括新闻,企业,个人,方案等数据。需要将公司数据投喂给DeepSeek继续训练(模型微调),从而达到提问公司数据时可以正常返回,其次可以完成一些创造性的任务。

特别说明:新闻文章、产品数据属于非结构化数据,企业、个人、参展等数据属于结构化数据。

2、实现方案及优缺点

目前主流的实现方案有两种:

  • 二次训练:在预训练模型的基础上,用自己的数据继续训练,调整模型的参数,使其更适应特定的任务或领域。
  • 知识库:将数据存储在结构化的数据库中,当需要查询或生成相关内容时,模型可以检索知识库中的信息并整合到回答中。由检索增强生成(RAG)实现。
  • 混合方案:知识库 + 轻量微调,核心数据轻量微调,普通数据使用知识库。达到平衡性能和成本。

二次训练的优缺点:

  • 优点:更好的学习到公司数据特征,在特定的任务重表现更出色
  • 缺点:大量的计算资源,训练时长,对数据质量要求高,且需要一定的机器学习专业知识,扩充数据需要重新训练

知识库的优缺点

  • 优点:灵活,不需要重新训练模型,节省资源,知识库可随时更新
  • 缺点:在处理复杂问题时,模型可能无法像二次训练那样深入理解数据的内在关系,回答的准确性和深度可能受限。

混合方案的优缺点

  • 优点:性能与成本的平衡
  • 缺点:需对数据前期处理和分类投入更多工作

总结:如果需要结合公司数据做深层次的推理,做更多创造性的工作,建议二次训练;如果更多做一些检索查询/问答和其相关推理,建议使用知识库模式;两者兼顾使用混合方案。

资源投入对比

维度 二次训练 知识库(RAG)
技术门槛 需ML专业知识(训练、调参) 需工程能力(数据库、检索系统)
计算资源 高(需GPU/TPU,训练时间长) 低(依赖检索算力,无需训练)
维护成本 高(需定期重训练适应新数据) 低(仅需更新数据库)
响应速度 模型推理可能较慢 检索+生成通常更快

微调模型时,显存需求通常会比本地部署时更高,因为微调过程中需要同时处理模型参数和数据集。

硬件成本参考

苹果产品线
Mac mini M4 32G内存,1T硬盘,京东10446元
Mac mini M4 Pro 48GB内存,1T硬盘,京东15421元
Mac mini M4 Pro 64GB内存,1T硬盘,京东16914元

英伟达产品线
显卡NVIDIA Tesla v100 32G显存,京东23999元
显卡NVIDIA Tesla v100 16G显存,京东6999元
其他硬件CPU+内存+SSD硬盘,预计5000上下

云产品线

阿里云:
GPU 计算型 gn7i,CPU 8核,内存 30G,GPU NVIDIA A10 24GB,参考费用¥9.5326/时
GPU 计算型 gn7i,CPU 32核,内存 128G,GPU 2 NVIDIA A10 2 24 GB,参考费用¥20.1867/时

腾讯云:
GPU计算型GN7,CPU 8核,内存 32G,GPU NVIDIA T4 16G,参考费用8.68元/小时
GPU计算型GN10X,CPU 8核,内存 40G,GPU NVIDIA V100 32G,参考费用18.04元/小时

总结:苹果电脑的显存共享依赖于统一内存架构,CPU、GPU和其他核心共享同一块物理内存池,显存与GPU之间的通讯延迟对训练影响较大,算力差别也相差很大,其次苹果系统对深度学习的支持不如英伟达的CUDA平台。但苹果产品线的价格和能效总表现出色。

二、数据集处理

在数据集进行处理前需要对数据进行清洗操作。

主要数据集

主要数据集包括:企业数据、观众数据、产品数据、展会数据、会议论坛数据、报告等

主要数据集用于模型微调,每半年或每年更新一次数据。

次要数据集

次要数据集包括:新闻文章、圈子、评论等

次要数据集用于知识库的建立,每周批量更新一次数据。

三、训练阶段(模型微调)

基础模型的选择

DeepSeek-R1-Distill-Qwen-1.5B(可超越GPT 4o的编程性能)
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-32B(可达到GPT o1 mini的综合推理性能)

模型 量化精度 显存需求(GB) 推荐硬件(英伟达) 推荐硬件(苹果) 推荐硬件(租用)
7B LoRA(FP16) 16 RTX4090(24G) Mac mini M4 32G 英伟达同等算力
7B QLoRA(INT8) 10 RTX4080(16G) Mac mini M4 32G -
7B QLoRA(INT4) 6 RTX3060(12G) Mac mini M4 16G -
14B LoRA(FP16) 32 RTX4090*2 Mac mini M4 pro 48G -
14B QLoRA(INT8) 20 RTX4090 Mac mini M4 32G -
14B QLoRA(INT4) 12 RTX3060 Mac mini M4 32G -
32B LoRA(FP16) 65 A100(80G) Mac mini M4 pro 48G * 2 -
32B QLoRA(INT8) 40 L40(48G) Mac mini M4 64G -
32B QLoRA(INT4) 24 RTX4090 Mac mini M4 32G -

全量微调

全量微调可以对基础模型进行深度的改造,它会将模型的全部参数进行带入训练,需要消耗大量算力,且有一定的技术门槛。不建议进行全量微调

高效微调

在绝大数场景中, 如果我们只想提升模型的某个具体领域的能力,那么选择高效微调更加合适。现在适用于大模型的主要高效微调方法是LoRA/QLoRA。其在通过引入低秩矩阵来减少未调试需要调整的参数量,从而显著降低显存和计算资源的消耗。其中QLoRA采用量化版本的LoRA,可以更加显著的减少显存和算力的消耗。

高效微调框架

unsloth

Llama-Factory

ms-SWIFT

四、部署阶段(本地部署)

模型 量化精度 显存需求(GB) 推荐硬件(英伟达) 推荐硬件(苹果)
7B FP16 16 RTX4090(24G) Mac mini M4 32G
7B INT8 10 RTX4080(16G) Mac mini M4 32G
7B INT4 6 RTX3060(12G) Mac mini M4 16G
14B FP16 32 RTX4090*2 Mac mini M4 pro 48G
14B INT8 20 RTX4090 Mac mini M4 32G
14B INT4 12 RTX3060 Mac mini M4 32G
32B FP16 65 A100(80G) Mac mini M4 pro 48G * 2
32B INT8 40 L40(48G) Mac mini M4 64G
32B INT4 24 RTX4090 Mac mini M4 32G

检索增强生成(RAG)

简单概述,利用已有的文档、内部知识生成向量知识库,在提问的时候结合库的内容一起给大模型,让其回答的更准确,它结合了信息检索和大模型技术。

请输入图片描述

  • 建立索引: 需要将日常的业务知识,以文件形式给分成较短的块(chunk),然后进行编码,向量化存入到向量化的库中;nomic-embed-text-v1模型就是做这个事情的。
  • 检索向量库: 根据用户的提问,到向量库中去进行向量匹配,检索出相似的chunk,作为提问的上下文;
  • 生成回复: 将用户的提问内容和检索的块结合发送给大模型,大模型结合两者进行问题的回复;

五、持续优化(迭代更新)

相关文章

此处评论已关闭