告别“云端降智”与“订阅割肉”：Mac mini M4开启本地AI算力自由之路

月是故乡明，网是免费香。曾几何时，我们习惯了指尖轻点，云端大模型便如百晓生般有问必答（一个小游戏里的数学问题，难倒了所有的人工智能：ChatGPT、DeepSeek、豆包、通义千问、文心一言）。

不知道大家最近发现没有，自从OpenClaw这种“神级Agent”爆火之后（警惕！OpenClaw隐藏的致命Bug：网络超时误报上下文溢出，可导致系统陷入死循环），市面上的AI厂商像是商量好了一样，开始集体“割韭菜”。收费门槛越提越高，老用户的体验却像王小二过年，一年不如一年。

对于免费平台（同一个问题，Gemini、ChatGPT、Copilot、通义千问和文心一言会怎么答？），比如DeepSeek-R1，春节之后出现了严重的“赛博脑卒中”降智现象，回答质量相比之前大幅下降。

对于付费平台，比如Gemini（Gemini 3 Pro翻车实测：深度思考3分钟，算不过GPT-5.1-high的3秒钟？），即使开启了思考模式，或者使用Pro模型，知识库貌似被锁定到了2025年甚至2024年，经常你问他qwen3.5他跟你说qwen2.5，你跟他说gemma4他跟你聊gemma3，还义正言辞的跟你说提供的模型不存在。对话中上传，经常不识别内容就开始胡说八道，你追问他，他就开始道歉，说刚才识别接口阻塞了，让你把内容描述给他。

还有各种agent客户端（我用谷歌Antigravity部署AI手机，结果…远超CodeBuddy的智能，却败给一个开源BUG！），之前一天跑几个项目都没有问题，现在一个项目跑不完，甚至第一轮任务还没执行完就提示额度耗尽了！

现在看来，这个token以后怕不是人人都能用得起了！

那怎么办呢？自己搭环境，本地运行大模型。如果你有NVIDIA显卡，除了可以直接用ollama跑大模型（目前来看，ollama量化过的DeepSeek模型应该就是最具性价比的选择），还可以使用vLLM框架跑大模型（桌面显卡RTX4070部署AnythingLLM调用vLLM搭建本地大模型知识库）。如果你有Mac mini，用ollama跑大模型是个不错的选择（Mac mini M4运行DeepSeek-R1实测：两步搞定，效率惊人！）。再不济，手机你总有吧，也可以使用ollama运行本地模型（手机也能跑DeepSeek-R1/Qwen3了：零成本搭建AI推理平台）。

要说性价比，Mac mini应该还算不错。丐中丐版本可以轻松运行14B参数模型（29瓦功耗运行140亿参数模型！Mac mini M4的AI能效革命），比一般8 GB显存的NVIDIA显卡能力稍强一些。

如果算价格，Qwen3.5-9B模型的输出价格大约为4 元/M，而本地运行时，输出速度在13-14 TPS之间，按照每天满负荷计算，一天大概输出1.16 M词元，折合费用4.6元。而你的电费成本大概是30瓦24小时0.52=0.37元，抛开输入产生的利用，一天盈利4元以上。

当然，Qwen3.5-9B模型显存占用只有6 GB，如果用RTX4070来跑，输出速度在26-27 TPS之间，按照每天满负荷计算，一天大概输出2.3 M词元，折合费用9.2元。而你的电费成本大概是67瓦24小时0.52=0.84元，抛开输入产生的利用，一天盈利8元以上。

这基本上就是目前个人算力机房的运营模式，这哪里还是电脑？这分明是放在桌面上的算力转钞机啊！

当然，现在大家已经不满足于普通的AI对话，而要转向开发模式，那我们今天简单测试一下Mac mini能运行的本地编程模型的输出效率。

本次，我选取了支持本地运行的7个主流大模型，分别是最新的高傲黑马gemma4:e2b/e4b、国产全能王者qwen3.5:9b、逻辑破局者deepseek-r1:7b、平衡性之王qwen2.5-coder:7b/14b、智商上限deepseek-coder-v2:16b。

首先，我们对比对话模式下的token输出速度。测试问题如下：

针对Ubuntu 24.04系统，设计一个简单的内存清理shell脚本。

首先上场的是gemma4:e2b。

输入token用量为33，输出token用量为2101，输出速度为48.65 TPS。

任务执行时，内存占用量为7.31 GB。

然后调用codex再试一遍。

没报错，但也没有实质进展，跟agent对接效果不好。

接下来，我们测试参数量稍微大一些的gemma4:e4b。

输入token用量为33，输出token用量为2396，输出速度为27.27 TPS。

任务执行时，内存占用量为9.96 GB。

然后调用codex再试一遍。

效果更差了，竟然说我没有提供需求，跟agent对接效果很差。

接下来，我们测试qwen3.5:9b。

输入token用量为27，输出token用量为1150，输出速度为13.39 TPS，速度一下子就慢下来了。

任务执行时，内存占用量为7.77 GB。

然后调用codex再试一遍。

有输出效果了，跟agent对接的效果比gemma4要强得多。

接下来，我们测试deepseek-r1:7b。

输入token用量为22，输出token用量为1300，输出速度为22.37 TPS，7B模型的输出速度比9B快了这么多。

任务执行时，内存占用量为350.7 MB，用量怎么一下子这么低了？

然后调用codex再试一遍。

直接报错了，deepseek-r1不支持跟agent对接。

接下来，我们测试qwen2.5-coder:7b，这也是几乎所有AI模型都推荐的模型。

输入token用量为48，输出token用量为328，输出速度为22.49 TPS。

任务执行时，内存占用量为351.4 MB。

然后调用codex再试一遍。

很有意思，有输出效果，也有逻辑，核心就是sudo sysctl vm.drop_caches=3，清理所有缓存，但是这个输出有点不友好啊。难道这就是跟agent对接时，agent要的效果？

接下来，我们测试参数量更大的qwen2.5-coder:14b。

输入token用量为48，输出token用量为433，输出速度为11.69 TPS。

任务执行时，内存占用量只有901.9 MB，这么算，我是不是能运行更大的32B模型？

不过，通过btop查看，内存占用为9.1 GB，应该是跑不了32B模型了。

然后调用codex再试一遍。

果然，这个跟agent对接的输出效果就好很多了。

最后，我们测试一下deepseek-coder-v2:16b。

输入token用量为28，输出token用量为590，输出速度为55.33 TPS，作为今天测试的模型参数最大的模型，输出速度竟然比gemma4:e2b还要高。

任务执行时，内存占用量为1.17 GB，实际通过btop查看内存占用在9.2 GB左右。

然后调用codex再试一遍。

可惜了，这么强的模型，竟然跟deepseek-r1一样，不支持对接agent。

最后，我们汇总一下今天的测试数据，如下所示：

从运行效果来看，deepseek-coder-v2:16b无疑是今天的冠军，但是直接使用ollama launch调用codex应用，却因为不支持工具无法调用。不过，虽然直接调用不行，通过API调用应该问题不大。

这一圈测试跑下来，正是应了那句老话：求人如吞三尺剑，靠人如上九重天。在AI时代，求云不如求己，求己不如求本地。

虽然Mac mini M4的丐版只有16 GB内存，但凭借着苹果的统一内存架构，它在运行14 B甚至16 B模型时，依然表现出了四两拨千斤的性价比。与其每个月给大厂上供，还要忍受随时的降智和限流，不如把这笔钱攒下来升级一下你的物理装备。

算力自由，才是真正的自由。

阅读原文 >>

声明：来自铁军哥，仅代表创作者观点。链接：https://eyangzhen.com/7399.html

告别“云端降智”与“订阅割肉”：Mac mini M4开启本地AI算力自由之路

相关推荐