引言
本来我是想用AI帮我生成的。后面想了一下这有什么意思,所以不废话了,今天给大家走一遍本地部署Deepseek的教程,顺便分享一些目前测试的数据,帮大家找找本地部署Deepseek有什么捷径。
前提知识
目前网上可以下载到的Deepseek模型分为两大类。
分别为Deepseek-R1与Deepseek-V3。前者趋向于创作性,后者趋向于总结型。而根据模型大小划分,又可以再细分很多类。
671B:大小约为641GB,全能体,无所不能
70B:大小约为49GB,蒸馏体,具备较高智能,可以满足日常使用
14B:大小约为9GB,进一步蒸馏体,能做一些高级数理逻辑,代码生成
8B:大小约为4.9GB,彻底蒸馏体,已经趋于弱智,能做一些的文本撰写
7B:大小约为4.9GB,为8G内存而生,比8B还弱智一点。
1.5B:大小约为1.1GB,纯纯一个复读机。
由于模型在不断对话的过程中,可能慢慢会变化,有时候有些软件还会进行空间释放,所以以上大小都是最小运行容量。当然有些朋友可能不太懂,我们直观体验一下区别。
截图证明不是我编的
今天是情人节,你可以扮演一只猫娘和我聊天多说点话吗,并且每句话后面都加一个喵~,好吗?
1.5B
喵~ 感觉你今天太可爱了!你是不是也在想,怎么才能变成我的朋友呢?喵~ 可是别忘了,我要好好陪在你身边哦!喵~ 你今天的开心吗?或者你总是这么温柔,却总是让我忍不住笑得肚子疼啊~喵~ 看来我得每天都是这样的小猫奴,不说话也不发脾气,只是默默地陪着你,直到你变成我的“狗奴”了。喵~ 哦,等你成为我的“猫奴”,我就把你的毛oretical故事都给你讲给你听啦~
7B
好的,今天是情人节,我会尽量多和你聊一些有趣的事情,并且每句话后面都加一个喵~,希望你能喜欢!有什么特别想聊的吗?或者你想听我讲个故事?
8B
当然可以!让我来扮演你的小猫咪哦~喵~
今天也是情人节,亲爱的主人的心情是不是很甜蜜呢?我都能感觉到你身上传来的幸福感~喵~
想要聊些什么呀?是想听听我的故事,还是想和我一起分享一些美好的时光?无论怎样,我都会在这里陪伴着你哦~喵~
等等,你知道吗?我好像想到了一个特别的礼物给你!是不是很期待呢?嗯,当然,甜甜的巧克力和最美丽的红玫瑰啊~喵~
对了,今天要不要一起做点什么特别的事情呀?比如一起看星星,或者在月光下散步?听起来好浪漫嘛~喵~
你最近是不是也有心事呢?我可以一直陪着你,一起聊天、一起笑,总之,一直在你身边~喵~
等等,你可别忘了今天是情人节哦!最重要的不是送礼物,而是表达心意,对吧?所以,不管有什么想说的话,我都愿意倾听哦~喵~
嗯,看来我们可以聊很多呀!无论是现在,还是以后,我都会在这里等着你呢~喵~
好了,今天就到这儿,我会一直在这里陪伴你的哦~喵~
14B
喵~ 今天是情人节呢,真是个特别的日子呀!你是不是也有很多有趣的事情想和我分享呀?喵~ 我可是最喜欢听你的故事啦!喵~
32B
当然可以喵~ 今天是情人节,你好呀!有什么特别的计划吗?我可是准备好了一整天的温柔哦喵~
70B
喵~ 情人节快乐!今天是特别的日子,我可以陪你聊很多话,喵~ 具体想聊些什么呢?或者我们可以一起庆祝这个浪漫的节日,喵~
部署教程
这里以两个主流且方便部署的平台——Ollama与LM Studio 为例。两者都可以在Linux与Windows下运行。这里以Windows平台为例。
LM Studio
带UI界面,易于操作
支持CPU AVX2/N卡/A卡/Mac M CPU
模型下载速度慢(走Huggingface)
发生硬件变动很多时候不识别
超强硬件支持(除了传统硬件,一些加速器,国产显卡也可以使用)
性能优化极佳,下载速度非常快
什么模型都支持使用,范围超广
纯代码运作,需要一些基本的编程能力
LM Studio安装教程(https://lmstudio.ai/)
这里直接引用笔吧评测室的视频,里面教了基本的安装方式,我们集中性的把一些安装过程遇到的问题列出来。
1.LM Studio下不下来
*LM Studio可以用RyzenAI加速,安装包记得使用Ryzen AI版。
2.LM Studio模型下载速度慢
可以有两种方法,第一种方法是修改下载源。具体参考:
https://blog.csdn.net/mervyn0318/article/details/144468568
需要用到的一些参数:
Appdata打开方式:
C:\Users\%username%\AppData\Local\LM-Studio
VSCode复制内容:huggingface.co -> hf-mirror.com
第二种方法则是去到官网(hf-mirror.com或者huggingface.co),复制下载路径,然后用下载器下载。需要注意的是hf-mirror.com相当于国内映射版的 huggingface.co,可能有部分模型缺,或者依旧下载不下来的问题。
这时候一般会自动调用LM-Studio,如果没有反应,就切到File手动下载。然后覆盖到对应位置。记住下载的时候,先去LM-Studio上看一下LM-Studio自动下载的模型名字,然后再去网页选择对应模型下载。
3.LM Studio不识别显卡
如果你更新驱动,突然LM Studio不识别显卡了,那么你需要卸载LM Studio再重装即可。
4.LM Studio负载不高,甚至负载很低
一般只要设置正确,能看到显卡,能选择显卡,基本就不是显卡的问题,而是单纯模型负载的问题。因为LM Studio的模型性能优化问题比较差,所以不可避免。
Ollama安装教程(https://ollama.com/)
Ollama的安装及其简单,双击运行就行。装好之后,右下角会有一个羊驼。
1.Ollama下不下来
2.Ollama不支持安装路径修改
这个问题已经提交社区了,预计几个版本后就会更新。目前只可以手动修改。修改教程如下:
https://www.cnblogs.com/LaiYun/p/18696931
在修改之前,记得要关闭Ollama,修改完之后,一般在Windows内的快捷图标也会失效,那么修改的方法自然不用过多介绍了吧?
需要用到的一些参数:
模型路径变量名:OLLAMA_MODELS
安装好,修改好的Ollama就可以在CMD内使用了。Ollama的运行逻辑类似Docker,所以直接使用如下指令
ollama run (模型)
比如:
ollama run deepseek-r1:1.5b
ollama run deepseek-r1:7b
ollama run deepseek-r1:8b
当然还有一些从hf-mirror.com上下来的模型,一般会给你链接。
直接复制到cmd中 运行即可。
当然如果你想用网页运行,那么就需要装载Webui,参考:
https://blog.csdn.net/web15085096641/article/details/144384896
性能测试因为LM Studio的性能优化一般,所以这里用Ollama进行测试。先说结论,Deepseek是纯粹的空间密集型模型。网上有很多通过各种层优化搬运加速的操作虽然看似花哨或者有用。但是考虑到目前家用单卡最大32GB,企业单卡最大80GB的环境下,我们都没有能力在一张显卡上直接部署完整版的Deepseek,因此大家搭建平台的时候,无论是CPU还是GPU,都是带宽至上,而且是单颗芯片的带宽之上。
本次测试平台引入3套配置:
七彩虹 Geforce RTX 5090 D 火神 OC(单卡带宽1792GB/s)
AMD Ryzen R9 9950X+32Gx2 6000C36(单U带宽96GB/s)
AMD Ryzen R9 9950X+16Gx2 8000C36(单U带宽128GB/s)
那么直接放图不跟你多BB,可以看到显卡毫无疑问是最快的。但是受限于显卡最大32GB的显存,是没办法运行70B的模型。但是CPU就无所谓。同时我们可以看到,6000C36升级到8000C36之后,CPU的Token/s提升非常明显,小模型最高2倍的性能,大模型也有接近1.5倍的性能。
如果我们用Token/s除以理论带宽,那么我们就能获得每理论带宽Token/s数,这个数越高越好。可以看到除了小模型以外,Tokens/s的收益基本和显存带宽成正比。而且比例近乎于与模型大小有关。这也就意味着我们可以用一个粗略的函数来计算你运行的模型的Tokens数。我把这个粗略的系数成为Win8函数。公式大致为
Z = B×0.4013x-0.773
也可以简化计算
Z1.5=B*0.2933(1.5B模型)
Z7=B*0.089(75B模型)
Z8=B*0.080(8B模型)
Z14=B*0.052(14B模型)
Z32=B*0.028(32B模型)
Z70=B*0.015(70B模型)
Z671=B*0.0026(671B模型)
其中Z为最终的Token/s数,
B为带宽GB/s,
x为模型大小B。
好吧其实这就只是Excel趋势图罢了,最多只能简单预测,而且还必须同模型同软件,如果遇到一些老构架,可能还会因为内部带宽问题,有更低的表现。那么以此计算,假如有一颗768GB的RTX 4090 D,那应该会有约2.64Token/s。
先前有人提及使用AMD EPYC 9005搭配12通道DDR5-6000,放完整的671B模型,可以实现几个Token/s,那么通过以上公式,可以算出来约为1.51Token/s,基本符合。
配置推荐
说了那么多,该聊聊配置了。部署一些32B的小模型没什么参考意义,所以主要部署70B和671B的模型。
这里先说70B模型配置。大家也看到了。只需要大约64GB的空间就可以全部放下来。所以两张RTX 5090 D,或者一张H100 80G就可以满足。
当然为了方便,这里还是说一些大家能买到的显卡吧。同时为了体验,70B至少能实现10个Tokens,也就是带宽要达到666GB/s或以上。考虑到目前家用方便部署,所以最多双卡配置,也既单卡要大于24GB。那么此时最好的选择便是能够输出视频还有超大显存的Quadro显卡,目前单张Quadro RTX8000价格为18000左右。
CPU:AMD Ryzen 5 7600X(1229)
内存:任意32G D5内存即可(600)
主板:华硕 ROG X870E HERO(4899)
备选:微星 MPG X870E CARBON WIFI(3499)
最便宜保兼容:技嘉 冰雕 X870E AORUS PRO ICE(2599)
主显卡:Quadro RTX8000 48G*2(36000)
核心显卡:用作紧急启动
硬盘:至少1TB(400)
散热:盒装自带或任意散热器
电源:鑫谷 KE-1300P ATX3.1 全模组 1300W (1599,或其他1200W以上电源)
机箱:任意7-ATX机箱(300)
核算下来也就不到51125,对比5万美金部署671B模型, 价格还可以。当然如果想要压缩性能,可以继续找更便宜的显卡,还有压缩别的配置,到3,4W不是问题。可这会是下一篇文章了,先不多说了,大家情人节快乐!什么?你没情人?你再说一遍?教你找硅基老婆你都找不到?
买电脑讨论群:386615430
电脑吧评测室二手群:829132489
