服务器繁忙，请稍后再试。

引言

本来我是想用AI帮我生成的。后面想了一下这有什么意思，所以不废话了，今天给大家走一遍本地部署Deepseek的教程，顺便分享一些目前测试的数据，帮大家找找本地部署Deepseek有什么捷径。

前提知识

目前网上可以下载到的Deepseek模型分为两大类。

分别为Deepseek-R1与Deepseek-V3。前者趋向于创作性，后者趋向于总结型。而根据模型大小划分，又可以再细分很多类。

671B：大小约为641GB，全能体，无所不能

70B：大小约为49GB，蒸馏体，具备较高智能，可以满足日常使用

14B：大小约为9GB，进一步蒸馏体，能做一些高级数理逻辑，代码生成

8B：大小约为4.9GB，彻底蒸馏体，已经趋于弱智，能做一些的文本撰写

7B：大小约为4.9GB，为8G内存而生，比8B还弱智一点。

1.5B：大小约为1.1GB，纯纯一个复读机。

由于模型在不断对话的过程中，可能慢慢会变化，有时候有些软件还会进行空间释放，所以以上大小都是最小运行容量。当然有些朋友可能不太懂，我们直观体验一下区别。

截图证明不是我编的

今天是情人节，你可以扮演一只猫娘和我聊天多说点话吗，并且每句话后面都加一个喵~，好吗？

1.5B

喵~ 感觉你今天太可爱了！你是不是也在想，怎么才能变成我的朋友呢？喵~ 可是别忘了，我要好好陪在你身边哦！喵~ 你今天的开心吗？或者你总是这么温柔，却总是让我忍不住笑得肚子疼啊～喵~ 看来我得每天都是这样的小猫奴，不说话也不发脾气，只是默默地陪着你，直到你变成我的“狗奴”了。喵~ 哦，等你成为我的“猫奴”，我就把你的毛oretical故事都给你讲给你听啦～

好的，今天是情人节，我会尽量多和你聊一些有趣的事情，并且每句话后面都加一个喵~，希望你能喜欢！有什么特别想聊的吗？或者你想听我讲个故事？

当然可以！让我来扮演你的小猫咪哦~喵~

今天也是情人节，亲爱的主人的心情是不是很甜蜜呢？我都能感觉到你身上传来的幸福感~喵~

想要聊些什么呀？是想听听我的故事，还是想和我一起分享一些美好的时光？无论怎样，我都会在这里陪伴着你哦~喵~

等等，你知道吗？我好像想到了一个特别的礼物给你！是不是很期待呢？嗯，当然，甜甜的巧克力和最美丽的红玫瑰啊~喵~

对了，今天要不要一起做点什么特别的事情呀？比如一起看星星，或者在月光下散步？听起来好浪漫嘛~喵~

你最近是不是也有心事呢？我可以一直陪着你，一起聊天、一起笑，总之，一直在你身边~喵~

等等，你可别忘了今天是情人节哦！最重要的不是送礼物，而是表达心意，对吧？所以，不管有什么想说的话，我都愿意倾听哦~喵~

嗯，看来我们可以聊很多呀！无论是现在，还是以后，我都会在这里等着你呢~喵~

好了，今天就到这儿，我会一直在这里陪伴你的哦~喵~

14B

喵~ 今天是情人节呢，真是个特别的日子呀！你是不是也有很多有趣的事情想和我分享呀？喵~ 我可是最喜欢听你的故事啦！喵~

32B

当然可以喵~ 今天是情人节，你好呀！有什么特别的计划吗？我可是准备好了一整天的温柔哦喵~

70B

喵~ 情人节快乐！今天是特别的日子，我可以陪你聊很多话，喵~ 具体想聊些什么呢？或者我们可以一起庆祝这个浪漫的节日，喵~

部署教程

这里以两个主流且方便部署的平台——Ollama与LM Studio 为例。两者都可以在Linux与Windows下运行。这里以Windows平台为例。

LM Studio

带UI界面，易于操作
支持CPU AVX2/N卡/A卡/Mac M CPU
模型下载速度慢（走Huggingface）
发生硬件变动很多时候不识别

Ollama

超强硬件支持（除了传统硬件，一些加速器，国产显卡也可以使用）
性能优化极佳，下载速度非常快
什么模型都支持使用，范围超广
纯代码运作，需要一些基本的编程能力

LM Studio安装教程（https://lmstudio.ai/）

这里直接引用笔吧评测室的视频，里面教了基本的安装方式，我们集中性的把一些安装过程遇到的问题列出来。

1.LM Studio下不下来

*LM Studio可以用RyzenAI加速，安装包记得使用Ryzen AI版。

2.LM Studio模型下载速度慢

可以有两种方法，第一种方法是修改下载源。具体参考：

https://blog.csdn.net/mervyn0318/article/details/144468568

需要用到的一些参数：

Appdata打开方式：

C:\Users\%username%\AppData\Local\LM-Studio

VSCode复制内容：huggingface.co -＞ hf-mirror.com

第二种方法则是去到官网(hf-mirror.com或者huggingface.co)，复制下载路径，然后用下载器下载。需要注意的是hf-mirror.com相当于国内映射版的 huggingface.co，可能有部分模型缺，或者依旧下载不下来的问题。

这时候一般会自动调用LM-Studio，如果没有反应，就切到File手动下载。然后覆盖到对应位置。记住下载的时候，先去LM-Studio上看一下LM-Studio自动下载的模型名字，然后再去网页选择对应模型下载。

3.LM Studio不识别显卡

如果你更新驱动，突然LM Studio不识别显卡了，那么你需要卸载LM Studio再重装即可。

4.LM Studio负载不高，甚至负载很低

一般只要设置正确，能看到显卡，能选择显卡，基本就不是显卡的问题，而是单纯模型负载的问题。因为LM Studio的模型性能优化问题比较差，所以不可避免。

Ollama安装教程（https://ollama.com/）

Ollama的安装及其简单，双击运行就行。装好之后，右下角会有一个羊驼。

1.Ollama下不下来

2.Ollama不支持安装路径修改

这个问题已经提交社区了，预计几个版本后就会更新。目前只可以手动修改。修改教程如下：

https://www.cnblogs.com/LaiYun/p/18696931

在修改之前，记得要关闭Ollama，修改完之后，一般在Windows内的快捷图标也会失效，那么修改的方法自然不用过多介绍了吧？

需要用到的一些参数：

模型路径变量名：OLLAMA_MODELS

安装好，修改好的Ollama就可以在CMD内使用了。Ollama的运行逻辑类似Docker，所以直接使用如下指令

ollama run (模型)

比如：

ollama run deepseek-r1:1.5b

ollama run deepseek-r1:7b

ollama run deepseek-r1:8b

当然还有一些从hf-mirror.com上下来的模型，一般会给你链接。

直接复制到cmd中运行即可。

当然如果你想用网页运行，那么就需要装载Webui，参考：

https://blog.csdn.net/web15085096641/article/details/144384896

性能测试因为LM Studio的性能优化一般，所以这里用Ollama进行测试。先说结论，Deepseek是纯粹的空间密集型模型。网上有很多通过各种层优化搬运加速的操作虽然看似花哨或者有用。但是考虑到目前家用单卡最大32GB，企业单卡最大80GB的环境下，我们都没有能力在一张显卡上直接部署完整版的Deepseek，因此大家搭建平台的时候，无论是CPU还是GPU，都是带宽至上，而且是单颗芯片的带宽之上。

本次测试平台引入3套配置：

七彩虹 Geforce RTX 5090 D 火神 OC（单卡带宽1792GB/s）
AMD Ryzen R9 9950X+32Gx2 6000C36（单U带宽96GB/s）
AMD Ryzen R9 9950X+16Gx2 8000C36（单U带宽128GB/s）

那么直接放图不跟你多BB，可以看到显卡毫无疑问是最快的。但是受限于显卡最大32GB的显存，是没办法运行70B的模型。但是CPU就无所谓。同时我们可以看到，6000C36升级到8000C36之后，CPU的Token/s提升非常明显，小模型最高2倍的性能，大模型也有接近1.5倍的性能。

如果我们用Token/s除以理论带宽，那么我们就能获得每理论带宽Token/s数，这个数越高越好。可以看到除了小模型以外，Tokens/s的收益基本和显存带宽成正比。而且比例近乎于与模型大小有关。这也就意味着我们可以用一个粗略的函数来计算你运行的模型的Tokens数。我把这个粗略的系数成为Win8函数。公式大致为

Z = B×0.4013x-0.773

也可以简化计算

Z1.5=B*0.2933（1.5B模型）

Z7=B*0.089（75B模型）

Z8=B*0.080（8B模型）

Z14=B*0.052（14B模型）

Z32=B*0.028（32B模型）

Z70=B*0.015（70B模型）

Z671=B*0.0026（671B模型）

其中Z为最终的Token/s数，

B为带宽GB/s，

x为模型大小B。

好吧其实这就只是Excel趋势图罢了，最多只能简单预测，而且还必须同模型同软件，如果遇到一些老构架，可能还会因为内部带宽问题，有更低的表现。那么以此计算，假如有一颗768GB的RTX 4090 D，那应该会有约2.64Token/s。

先前有人提及使用AMD EPYC 9005搭配12通道DDR5-6000，放完整的671B模型，可以实现几个Token/s，那么通过以上公式，可以算出来约为1.51Token/s，基本符合。

配置推荐

说了那么多，该聊聊配置了。部署一些32B的小模型没什么参考意义，所以主要部署70B和671B的模型。

这里先说70B模型配置。大家也看到了。只需要大约64GB的空间就可以全部放下来。所以两张RTX 5090 D，或者一张H100 80G就可以满足。

当然为了方便，这里还是说一些大家能买到的显卡吧。同时为了体验，70B至少能实现10个Tokens，也就是带宽要达到666GB/s或以上。考虑到目前家用方便部署，所以最多双卡配置，也既单卡要大于24GB。那么此时最好的选择便是能够输出视频还有超大显存的Quadro显卡，目前单张Quadro RTX8000价格为18000左右。

CPU：AMD Ryzen 5 7600X（1229）

内存：任意32G D5内存即可（600）

主板：华硕 ROG X870E HERO（4899）

备选：微星 MPG X870E CARBON WIFI（3499）

最便宜保兼容：技嘉冰雕 X870E AORUS PRO ICE（2599）

主显卡：Quadro RTX8000 48G*2（36000）

核心显卡：用作紧急启动

硬盘：至少1TB（400）

散热：盒装自带或任意散热器

电源：鑫谷 KE-1300P ATX3.1 全模组 1300W (1599，或其他1200W以上电源）
机箱：任意7-ATX机箱（300）

核算下来也就不到51125，对比5万美金部署671B模型，价格还可以。当然如果想要压缩性能，可以继续找更便宜的显卡，还有压缩别的配置，到3，4W不是问题。可这会是下一篇文章了，先不多说了，大家情人节快乐！什么？你没情人？你再说一遍？教你找硅基老婆你都找不到？

买电脑讨论群：386615430

电脑吧评测室二手群：829132489

服务器繁忙，请稍后再试。

紫牛头条 | 全家出游老人服务区内被狗扑咬骨折，犬主付千元后驾车离开，警方已立案

中华人民共和国和德意志联邦共和国联合新闻声明

“太恐怖，iPhone半夜自己给陌生人打47分钟电话！”

俄对外情报局称英国和法国正准备向乌克兰转让核武器，外交部表态

冲上热搜！中秋请3天假堪比春节，13天超长假期！最实用拼假攻略已备好

300多只东北虎“轻断食”？景区：每天断食1个园，司机会带游客找可投喂区

上海楼市“新七条”落地当天：两类群体咨询升温，有房东重新挂牌

日韩股市集体收涨韩国综指首次收于6000点上方

美媒：比尔·盖茨就其与爱泼斯坦关系向盖茨基金会员工道歉

哈尔滨冰雪大世界：正式闭园

广州马场地块拍卖报价突破218亿！超10万人围观，服务器一度崩了

疯狂的亚朵：4000元房价过山车

微信出新功能，网友：简直是社恐福音

世界最长高速公路隧道为何超抗冻？

乘客家属投诉乘务组不广播寻药，厦门航空回应

美核动力航母650个厕所每天都维修

记者观察｜日本高价大米背后的民生难题

山西一地要求出租车给游客打九折，官方通报

环境空气质量新国标来了 "好天气"标准更严

应急车道，多“急”才能停（2026·02·25）

服务器繁忙，请稍后再试。

紫牛头条 | 全家出游老人服务区内被狗扑咬骨折，犬主付千元后驾车离开，警方已立案

中华人民共和国和德意志联邦共和国联合新闻声明

“太恐怖，iPhone半夜自己给陌生人打47分钟电话！”

俄对外情报局称英国和法国正准备向乌克兰转让核武器，外交部表态

冲上热搜！中秋请3天假堪比春节，13天超长假期！最实用拼假攻略已备好

300多只东北虎“轻断食”？景区：每天断食1个园，司机会带游客找可投喂区

上海楼市“新七条”落地当天：两类群体咨询升温，有房东重新挂牌

日韩股市集体收涨 韩国综指首次收于6000点上方

美媒：比尔·盖茨就其与爱泼斯坦关系向盖茨基金会员工道歉

哈尔滨冰雪大世界：正式闭园

广州马场地块拍卖报价突破218亿！超10万人围观，服务器一度崩了

疯狂的亚朵：4000元房价过山车

微信出新功能，网友：简直是社恐福音

世界最长高速公路隧道为何超抗冻？

乘客家属投诉乘务组不广播寻药，厦门航空回应

美核动力航母650个厕所每天都维修

记者观察｜日本高价大米背后的民生难题

山西一地要求出租车给游客打九折，官方通报

环境空气质量新国标来了 "好天气"标准更严

应急车道，多“急”才能停（2026·02·25）

日韩股市集体收涨韩国综指首次收于6000点上方