网上资料显示,可以用ollama、lmstudio安装
本地跑7b32b的蒸馏模型感觉实际意义不大,不是很聪明,调用api会好很多,而且api价格低的离谱,不过1.5b的模型可以拿来给一些应用内置个小ai,吸引客户感觉挺好的
一、本地部署
CPU -> 8B Q4 或 1.5B Q8
什么是B?什么是Q?
B是billion(十亿),表示模型的参数量,8B就是80亿参数,参数量越大模型的效果越好,也越占资源
Q是quantify(量化),比如量化到Q4,等于是减小模型大小,会在一定程度上损失精度
比如8B量化到Q8和Q4相差10%精度
“对不起,我还没有学会回答这个问题”
你触碰到了模型的审查机制了
主站:https://huggingface.co 访问不了
镜像站:https://hf-mirror.com
国内模型社区:https://www.modelscope.cn/home
在工具里勾选“Use LM Studio’s Hugging Face Proxy”,可以通过代理下载模型
models文件夹下面必须有两级路径,否则无法识别
文件DeepSeek-R1-Distill-Qwen-1.5B.Q8_0.gguf中的distill qwen表示它是用大模型蒸馏技术,蒸馏了通义千问的结果
二、模型参数
1、Context Length
上下文长度,模型最多能够从多少信息中推理,建议给到4096以上
2、GPU Offload
表示GPU承担多少层计算,需要测试显存占用情况
3、CPU Thread Pool Size
显示用多少CPU核心
4、Evaluation Batch Size
默认512
三、Preset(预设)
1、System Prompt
指挥AI按照预设的思路去思考问题、输出内容
比如:
你是一个数学家,你需要解决一些数学问题
2、Temperature(温度)
引入多少随机性和不确定性,官方推荐是0.6
四、独立显卡配置(没试验成功)
1、安装最新的显卡驱动
2、安装cuda
地址:https://developer.nvidia.com/cuda-zone
操作文档:
(1)Installation Guide for Microsoft Windows
https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/index.html
(2)CUDA Quick Start Guide
https://docs.nvidia.com/cuda/cuda-quick-start-guide/index.html
注意:CUDA版本和显卡驱动版本要匹配,nvidia-smi查看驱动与CUDA的对应情况,下载相应的CUDA版本
不同的显卡驱动版本支持不同的CUDA版本,可以通过访问NVIDIA官方文档来查看显卡驱动与CUDA版本的对应关系:
参考网站:https://docs.nvidia.com/deploy/cuda-compatibility/index.html
历史版本下载地址:
https://developer.nvidia.com/cuda-toolkit-archive
3、安装cudnn
NVIDIA cuDNN is a GPU-accelerated library of primitives for deep neural networks
https://developer.nvidia.com/cudnn
历史版本下载地址:
https://developer.nvidia.com/cudnn-archive