告别“云端降智”与“订阅割肉”:Mac mini M4开启本地AI算力自由之路

月是故乡明,网是免费香。曾几何时,我们习惯了指尖轻点,云端大模型便如百晓生般有问必答(一个小游戏里的数学问题,难倒了所有的人工智能:ChatGPT、DeepSeek、豆包、通义千问、文心一言)。

不知道大家最近发现没有,自从OpenClaw这种“神级Agent”爆火之后(警惕!OpenClaw隐藏的致命Bug:网络超时误报上下文溢出,可导致系统陷入死循环),市面上的AI厂商像是商量好了一样,开始集体“割韭菜”。收费门槛越提越高,老用户的体验却像王小二过年,一年不如一年。

对于免费平台(同一个问题,Gemini、ChatGPT、Copilot、通义千问和文心一言会怎么答?),比如DeepSeek-R1,春节之后出现了严重的“赛博脑卒中”降智现象,回答质量相比之前大幅下降。

对于付费平台,比如Gemini(Gemini 3 Pro翻车实测:深度思考3分钟,算不过GPT-5.1-high的3秒钟?),即使开启了思考模式,或者使用Pro模型,知识库貌似被锁定到了2025年甚至2024年,经常你问他qwen3.5他跟你说qwen2.5,你跟他说gemma4他跟你聊gemma3,还义正言辞的跟你说提供的模型不存在。对话中上传,经常不识别内容就开始胡说八道,你追问他,他就开始道歉,说刚才识别接口阻塞了,让你把内容描述给他。

还有各种agent客户端(我用谷歌Antigravity部署AI手机,结果…远超CodeBuddy的智能,却败给一个开源BUG!),之前一天跑几个项目都没有问题,现在一个项目跑不完,甚至第一轮任务还没执行完就提示额度耗尽了!

现在看来,这个token以后怕不是人人都能用得起了!

那怎么办呢?自己搭环境,本地运行大模型。如果你有NVIDIA显卡,除了可以直接用ollama跑大模型(目前来看,ollama量化过的DeepSeek模型应该就是最具性价比的选择),还可以使用vLLM框架跑大模型(桌面显卡RTX4070部署AnythingLLM调用vLLM搭建本地大模型知识库)。如果你有Mac mini,用ollama跑大模型是个不错的选择(Mac mini M4运行DeepSeek-R1实测:两步搞定,效率惊人!)。再不济,手机你总有吧,也可以使用ollama运行本地模型(手机也能跑DeepSeek-R1/Qwen3了:零成本搭建AI推理平台)。

要说性价比,Mac mini应该还算不错。丐中丐版本可以轻松运行14B参数模型(29瓦功耗运行140亿参数模型!Mac mini M4的AI能效革命),比一般8 GB显存的NVIDIA显卡能力稍强一些。

如果算价格,Qwen3.5-9B模型的输出价格大约为4 元/M,而本地运行时,输出速度在13-14 TPS之间,按照每天满负荷计算,一天大概输出1.16 M词元,折合费用4.6元。而你的电费成本大概是30瓦24小时0.52=0.37元,抛开输入产生的利用,一天盈利4元以上。

当然,Qwen3.5-9B模型显存占用只有6 GB,如果用RTX4070来跑,输出速度在26-27 TPS之间,按照每天满负荷计算,一天大概输出2.3 M词元,折合费用9.2元。而你的电费成本大概是67瓦24小时0.52=0.84元,抛开输入产生的利用,一天盈利8元以上。

这基本上就是目前个人算力机房的运营模式,这哪里还是电脑?这分明是放在桌面上的算力转钞机啊!

当然,现在大家已经不满足于普通的AI对话,而要转向开发模式,那我们今天简单测试一下Mac mini能运行的本地编程模型的输出效率。

本次,我选取了支持本地运行的7个主流大模型,分别是最新的高傲黑马gemma4:e2b/e4b、国产全能王者qwen3.5:9b、逻辑破局者deepseek-r1:7b、平衡性之王qwen2.5-coder:7b/14b、智商上限deepseek-coder-v2:16b。

首先,我们对比对话模式下的token输出速度。测试问题如下:

针对Ubuntu 24.04系统,设计一个简单的内存清理shell脚本。

首先上场的是gemma4:e2b。

输入token用量为33,输出token用量为2101,输出速度为48.65 TPS。

任务执行时,内存占用量为7.31 GB。

然后调用codex再试一遍。

没报错,但也没有实质进展,跟agent对接效果不好。

接下来,我们测试参数量稍微大一些的gemma4:e4b。

输入token用量为33,输出token用量为2396,输出速度为27.27 TPS。

任务执行时,内存占用量为9.96 GB。

然后调用codex再试一遍。

效果更差了,竟然说我没有提供需求,跟agent对接效果很差。

接下来,我们测试qwen3.5:9b。

输入token用量为27,输出token用量为1150,输出速度为13.39 TPS,速度一下子就慢下来了。

任务执行时,内存占用量为7.77 GB。

然后调用codex再试一遍。

有输出效果了,跟agent对接的效果比gemma4要强得多。

接下来,我们测试deepseek-r1:7b。

输入token用量为22,输出token用量为1300,输出速度为22.37 TPS,7B模型的输出速度比9B快了这么多。

任务执行时,内存占用量为350.7 MB,用量怎么一下子这么低了?

然后调用codex再试一遍。

直接报错了,deepseek-r1不支持跟agent对接。

接下来,我们测试qwen2.5-coder:7b,这也是几乎所有AI模型都推荐的模型。

输入token用量为48,输出token用量为328,输出速度为22.49 TPS。

任务执行时,内存占用量为351.4 MB。

然后调用codex再试一遍。

很有意思,有输出效果,也有逻辑,核心就是sudo sysctl vm.drop_caches=3,清理所有缓存,但是这个输出有点不友好啊。难道这就是跟agent对接时,agent要的效果?

接下来,我们测试参数量更大的qwen2.5-coder:14b。

输入token用量为48,输出token用量为433,输出速度为11.69 TPS。

任务执行时,内存占用量只有901.9 MB,这么算,我是不是能运行更大的32B模型?

不过,通过btop查看,内存占用为9.1 GB,应该是跑不了32B模型了。

然后调用codex再试一遍。

果然,这个跟agent对接的输出效果就好很多了。

最后,我们测试一下deepseek-coder-v2:16b。

输入token用量为28,输出token用量为590,输出速度为55.33 TPS,作为今天测试的模型参数最大的模型,输出速度竟然比gemma4:e2b还要高。

任务执行时,内存占用量为1.17 GB,实际通过btop查看内存占用在9.2 GB左右。

然后调用codex再试一遍。

可惜了,这么强的模型,竟然跟deepseek-r1一样,不支持对接agent。

最后,我们汇总一下今天的测试数据,如下所示:

从运行效果来看,deepseek-coder-v2:16b无疑是今天的冠军,但是直接使用ollama launch调用codex应用,却因为不支持工具无法调用。不过,虽然直接调用不行,通过API调用应该问题不大。

这一圈测试跑下来,正是应了那句老话:求人如吞三尺剑,靠人如上九重天。 在AI时代,求云不如求己,求己不如求本地。

虽然Mac mini M4的丐版只有16 GB内存,但凭借着苹果的统一内存架构,它在运行14 B甚至16 B模型时,依然表现出了四两拨千斤的性价比。与其每个月给大厂上供,还要忍受随时的降智和限流,不如把这笔钱攒下来升级一下你的物理装备。

算力自由,才是真正的自由。

声明:来自铁军哥,仅代表创作者观点。链接:https://eyangzhen.com/7399.html

铁军哥的头像铁军哥

相关推荐

添加微信
添加微信
Ai学习群
返回顶部