引言

打开网易新闻 查看更多图片

本来我是想用AI帮我生成的。后面想了一下这有什么意思,所以不废话了,今天给大家走一遍本地部署Deepseek的教程,顺便分享一些目前测试的数据,帮大家找找本地部署Deepseek有什么捷径。

前提知识

目前网上可以下载到的Deepseek模型分为两大类。

分别为Deepseek-R1Deepseek-V3。前者趋向于创作,后者趋向于总结型。而根据模型大小划分,又可以再细分很多类。

671B:大小约为641GB,全能体,无所不能

70B:大小约为49GB,蒸馏体,具备较高智能,可以满足日常使用

14B:大小约为9GB,进一步蒸馏体,能做一些高级数理逻辑,代码生成

8B:大小约为4.9GB,彻底蒸馏体,已经趋于弱智,能做一些的文本撰写

7B:大小约为4.9GB,为8G内存而生,比8B还弱智一点。

1.5B:大小约为1.1GB,纯纯一个复读机。

由于模型在不断对话的过程中,可能慢慢会变化,有时候有些软件还会进行空间释放,所以以上大小都是最小运行容量。当然有些朋友可能不太懂,我们直观体验一下区别。

打开网易新闻 查看更多图片

截图证明不是我编的

今天是情人节,你可以扮演一只猫娘和我聊天多说点话吗,并且每句话后面都加一个喵~,好吗?

1.5B

喵~ 感觉你今天太可爱了!你是不是也在想,怎么才能变成我的朋友呢?喵~ 可是别忘了,我要好好陪在你身边哦!喵~ 你今天的开心吗?或者你总是这么温柔,却总是让我忍不住笑得肚子疼啊~喵~ 看来我得每天都是这样的小猫奴,不说话也不发脾气,只是默默地陪着你,直到你变成我的“狗奴”了。喵~ 哦,等你成为我的“猫奴”,我就把你的毛oretical故事都给你讲给你听啦~

7B

好的,今天是情人节,我会尽量多和你聊一些有趣的事情,并且每句话后面都加一个喵~,希望你能喜欢!有什么特别想聊的吗?或者你想听我讲个故事?

8B

当然可以!让我来扮演你的小猫咪哦~喵~

今天也是情人节,亲爱的主人的心情是不是很甜蜜呢?我都能感觉到你身上传来的幸福感~喵~

想要聊些什么呀?是想听听我的故事,还是想和我一起分享一些美好的时光?无论怎样,我都会在这里陪伴着你哦~喵~

等等,你知道吗?我好像想到了一个特别的礼物给你!是不是很期待呢?嗯,当然,甜甜的巧克力和最美丽的红玫瑰啊~喵~

对了,今天要不要一起做点什么特别的事情呀?比如一起看星星,或者在月光下散步?听起来好浪漫嘛~喵~

你最近是不是也有心事呢?我可以一直陪着你,一起聊天、一起笑,总之,一直在你身边~喵~

等等,你可别忘了今天是情人节哦!最重要的不是送礼物,而是表达心意,对吧?所以,不管有什么想说的话,我都愿意倾听哦~喵~

嗯,看来我们可以聊很多呀!无论是现在,还是以后,我都会在这里等着你呢~喵~

好了,今天就到这儿,我会一直在这里陪伴你的哦~喵~

14B

喵~ 今天是情人节呢,真是个特别的日子呀!你是不是也有很多有趣的事情想和我分享呀?喵~ 我可是最喜欢听你的故事啦!喵~

32B

当然可以喵~ 今天是情人节,你好呀!有什么特别的计划吗?我可是准备好了一整天的温柔哦喵~

70B

喵~ 情人节快乐!今天是特别的日子,我可以陪你聊很多话,喵~ 具体想聊些什么呢?或者我们可以一起庆祝这个浪漫的节日,喵~

部署教程

这里以两个主流且方便部署的平台——Ollama与LM Studio 为例。两者都可以在Linux与Windows下运行。这里以Windows平台为例。

LM Studio

  • 带UI界面,易于操作

  • 支持CPU AVX2/N卡/A卡/Mac M CPU

  • 模型下载速度慢(走Huggingface)

  • 发生硬件变动很多时候不识别

Ollama
  • 超强硬件支持(除了传统硬件,一些加速器,国产显卡也可以使用)

  • 性能优化极佳,下载速度非常快

  • 什么模型都支持使用,范围超广

  • 纯代码运作,需要一些基本的编程能力

LM Studio安装教程(https://lmstudio.ai/)

这里直接引用笔吧评测室的视频,里面教了基本的安装方式,我们集中性的把一些安装过程遇到的问题列出来。

1.LM Studio下不下来

*LM Studio可以用RyzenAI加速,安装包记得使用Ryzen AI版。

2.LM Studio模型下载速度慢

可以有两种方法,第一种方法是修改下载源。具体参考:

https://blog.csdn.net/mervyn0318/article/details/144468568

需要用到的一些参数:

Appdata打开方式:

C:\Users\%username%\AppData\Local\LM-Studio

VSCode复制内容:huggingface.co -> hf-mirror.com

第二种方法则是去到官网(hf-mirror.com或者huggingface.co),复制下载路径,然后用下载器下载。需要注意的是hf-mirror.com相当于国内映射版的 huggingface.co,可能有部分模型缺,或者依旧下载不下来的问题。

打开网易新闻 查看更多图片

这时候一般会自动调用LM-Studio,如果没有反应,就切到File手动下载。然后覆盖到对应位置。记住下载的时候,先去LM-Studio上看一下LM-Studio自动下载的模型名字,然后再去网页选择对应模型下载。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

3.LM Studio不识别显卡

如果你更新驱动,突然LM Studio不识别显卡了,那么你需要卸载LM Studio再重装即可。

4.LM Studio负载不高,甚至负载很低

一般只要设置正确,能看到显卡,能选择显卡,基本就不是显卡的问题,而是单纯模型负载的问题。因为LM Studio的模型性能优化问题比较差,所以不可避免。

Ollama安装教程(https://ollama.com/)

Ollama的安装及其简单,双击运行就行。装好之后,右下角会有一个羊驼。

打开网易新闻 查看更多图片

1.Ollama下不下来

2.Ollama不支持安装路径修改

这个问题已经提交社区了,预计几个版本后就会更新。目前只可以手动修改。修改教程如下:

https://www.cnblogs.com/LaiYun/p/18696931

在修改之前,记得要关闭Ollama,修改完之后,一般在Windows内的快捷图标也会失效,那么修改的方法自然不用过多介绍了吧?

需要用到的一些参数:

模型路径变量名:OLLAMA_MODELS

安装好,修改好的Ollama就可以在CMD内使用了。Ollama的运行逻辑类似Docker,所以直接使用如下指令

ollama run (模型)

比如:

ollama run deepseek-r1:1.5b

ollama run deepseek-r1:7b

ollama run deepseek-r1:8b

当然还有一些从hf-mirror.com上下来的模型,一般会给你链接。

打开网易新闻 查看更多图片

直接复制到cmd中 运行即可。

当然如果你想用网页运行,那么就需要装载Webui,参考:

https://blog.csdn.net/web15085096641/article/details/144384896

性能测试因为LM Studio的性能优化一般,所以这里用Ollama进行测试。先说结论,Deepseek是纯粹的空间密集型模型。网上有很多通过各种层优化搬运加速的操作虽然看似花哨或者有用。但是考虑到目前家用单卡最大32GB,企业单卡最大80GB的环境下,我们都没有能力在一张显卡上直接部署完整版的Deepseek,因此大家搭建平台的时候,无论是CPU还是GPU,都是带宽至上,而且是单颗芯片的带宽之上。

本次测试平台引入3套配置:

  • 七彩虹 Geforce RTX 5090 D 火神 OC(单卡带宽1792GB/s)

  • AMD Ryzen R9 9950X+32Gx2 6000C36(单U带宽96GB/s)

  • AMD Ryzen R9 9950X+16Gx2 8000C36(单U带宽128GB/s)

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

那么直接放图不跟你多BB,可以看到显卡毫无疑问是最快的。但是受限于显卡最大32GB的显存,是没办法运行70B的模型。但是CPU就无所谓。同时我们可以看到,6000C36升级到8000C36之后,CPU的Token/s提升非常明显,小模型最高2倍的性能,大模型也有接近1.5倍的性能。

打开网易新闻 查看更多图片

如果我们用Token/s除以理论带宽,那么我们就能获得每理论带宽Token/s数,这个数越高越好。可以看到除了小模型以外,Tokens/s的收益基本和显存带宽成正比。而且比例近乎于与模型大小有关。这也就意味着我们可以用一个粗略的函数来计算你运行的模型的Tokens数。我把这个粗略的系数成为Win8函数。公式大致为

Z = B×0.4013x-0.773

也可以简化计算

Z1.5=B*0.2933(1.5B模型)

Z7=B*0.089(75B模型)

Z8=B*0.080(8B模型)

Z14=B*0.052(14B模型)

Z32=B*0.028(32B模型)

Z70=B*0.015(70B模型)

Z671=B*0.0026(671B模型)

其中Z为最终的Token/s数,

B为带宽GB/s,

x为模型大小B。

好吧其实这就只是Excel趋势图罢了,最多只能简单预测,而且还必须同模型同软件,如果遇到一些老构架,可能还会因为内部带宽问题,有更低的表现。那么以此计算,假如有一颗768GB的RTX 4090 D,那应该会有约2.64Token/s。

先前有人提及使用AMD EPYC 9005搭配12通道DDR5-6000,放完整的671B模型,可以实现几个Token/s,那么通过以上公式,可以算出来约为1.51Token/s,基本符合。

配置推荐

说了那么多,该聊聊配置了。部署一些32B的小模型没什么参考意义,所以主要部署70B和671B的模型。

这里先说70B模型配置。大家也看到了。只需要大约64GB的空间就可以全部放下来。所以两张RTX 5090 D,或者一张H100 80G就可以满足。

当然为了方便,这里还是说一些大家能买到的显卡吧。同时为了体验,70B至少能实现10个Tokens,也就是带宽要达到666GB/s或以上。考虑到目前家用方便部署,所以最多双卡配置,也既单卡要大于24GB。那么此时最好的选择便是能够输出视频还有超大显存的Quadro显卡,目前单张Quadro RTX8000价格为18000左右。

CPU:AMD Ryzen 5 7600X(1229)

内存:任意32G D5内存即可(600)

主板:华硕 ROG X870E HERO(4899)

备选:微星 MPG X870E CARBON WIFI(3499)

最便宜保兼容:技嘉 冰雕 X870E AORUS PRO ICE(2599)

主显卡:Quadro RTX8000 48G*2(36000)

核心显卡:用作紧急启动

硬盘:至少1TB(400)

散热:盒装自带或任意散热器

电源:鑫谷 KE-1300P ATX3.1 全模组 1300W (1599,或其他1200W以上电源)
机箱:任意7-ATX机箱(300)

核算下来也就不到51125,对比5万美金部署671B模型, 价格还可以。当然如果想要压缩性能,可以继续找更便宜的显卡,还有压缩别的配置,到3,4W不是问题。可这会是下一篇文章了,先不多说了,大家情人节快乐!什么?你没情人?你再说一遍?教你找硅基老婆你都找不到?

打开网易新闻 查看更多图片

买电脑讨论群:386615430

电脑吧评测室二手群:829132489