手机也能跑DeepSeek-R1/Qwen3了：零成本搭建AI推理平台

科技改变生活，但更多时候是创意惊艳岁月！

最近OpenClaw这个冷饭真是炒了又炒，关于云服务器部署，我们之前已经介绍过了（开源AI助手ClawdBot部署成功了，但“免费”的午餐到底能吃多久？）。为了更大限度地挖掘免费Token，我还特地从6大平台上百个免费模型中，依据能力与额度精选出20多个最佳模型（OpenClaw(原ClawdBot)免费AI模型终极配置指南：精选20+精英模型，打造你的低成本AI军团）。如果你会玩的话，也可以免费使用最强模型Gemini 3.1 Pro和Claude 4.6（还在为AI API费用发愁？我找到了免费使用Gemini 3和Claude 4.5的方法）。

为了进一步降低成本，我们又把手机免Root安装Ubuntu系统的方法介绍了一遍（告别云服务器费用：零成本将旧手机改造Linux服务器实战指南），这种方法适合Android 7以上的手机。Android 6版本请参考（你想在旧Android手机上装Linux系统吗？看这里）。对于老华为设备，请参考（使用UserLAnd给华为平板装个Linux系统），目前最低能支持到Android4手机（Android4也能跑Linux了，Linux Deploy了解一下！）。

现在，我们已经有了部署OpenClaw用的超低成本的服务器，不过人民日报官方也发文提醒了（AI“养龙虾”走红，官方提示→），要注意数据安全，那我们还是考虑一下本地部署大模型的方式。

对于带有NVIDIA显卡的电脑，可以参考（哪怕用笔记本的4070显卡运行DeepSeek，都要比128核的CPU快得多！）。对于数据中心GPU服务器，可以参考（A10本地部署的QwQ做小学数学题）。对于Mac用户，可以参考（29瓦功耗运行140亿参数模型！Mac mini M4的AI能效革命）。

那有没有一种可能，你的手机也能用来跑大模型呢？

我已经测试过了，完全可以，而且性能还很高。今天就用2024年的荣耀Magic 7手机测试一下，看看这个两年前的中端手机性能如何。

骁龙8至尊版作为两年前的旗舰芯片，采用Oryon自研架构，有2个4.32GHz的超大核和6个3.53GHz的大核。搭载Hexagon NPU和Adreno 830 GPU，最高有80 TOPS的AI算力。

此外，他还支持跟Mac一样的UMA统一内存架构（Uniform Memory Architecture），搭配的LPDDR5X内存带宽约为84 GB/s。由于CPU和GPU共享同一块手机运存，数据不需要像电脑那样通过PCIe总线在内存和显存之间来回拷贝，使用手机跑大模型，效率非常恐怖。

用手机跑大模型，还是得依赖我们前面安装好的Ubuntu系统。运行时有两种思路，第一种非常简单，直接运行ollama即可，跟我们之前测试的ollama流程完全一致，上手零难度。第二种稍微复杂一些，不过对于操作过命令行的人而言，也难度不大，那就是手工编译llama.cpp，性能比ollama要好一些，但是从Huggingface平台下载模型可能要花一些时间。

当然，不管用哪种，只要手机没有Root权限，都只能跑在CPU上，无法调用GPU或者NPU，没办法发挥出满血性能。

为了保证性能，我先重启手机看一下初始状态。

因为没有Root权限，无法监控实际的CPU使用率，所以测试过程中，我们重点关注内存和swap使用情况。为了确保性能，已经关闭智慧运存功能。

测试使用的ollama版本为最新版本0.17.7。

考虑到实际可用运存只有8.9 GB，而我们之前测试ollama模型中（目前来看，ollama量化过的DeepSeek模型应该就是最具性价比的选择）：INT8量化的8B模型大约占用9.1 GB运存或者显存，不够用；INT8量化的7B模型大约占用8.3 GB运存或者显存，勉强够用。这些经验数据决定了我们今天测试的模型大小上限。

第一局，我们先测试一个小模型deepseek-r1:1.5b。模型加载前的内存占用情况为：MEM 6.23 G、Swap 370 M。

模型加载后的内存占用情况为：MEM 7.47 G、Swap 370 M，相当于占用1.24 GB内存。

发个小问题测试一下输出速度。简单介绍一下什么是比特币？

从汇总数据来看，我问的13个字被视为8个token，输出内容被视为379 token，耗时18.1秒，折合速率20.9 TPS。

然后，我们换个大一点模型deepseek-r1:7b。模型加载前的内存占用情况为：MEM 5.63 G、Swap 1.36 G。模型加载后的内存占用情况为：MEM 10.2 G、Swap 1.5 G，相当于占用4.6 GB内存。同时还有不少内存被放到了Swap中。

发个小问题测试一下输出速度。简单介绍一下什么是区块链？

这次就触发深度思考了，输出内容被视为247 token，耗时26.3秒，折合速率9.4 TPS。

然后，我们换个更大一点模型deepseek-r1:8b。模型加载前的内存占用情况为：MEM 5.36 G、Swap 1.87 G。模型加载后的内存占用情况为：MEM 10.8 G、Swap 1.89 G，相当于占用5.5 GB内存。

发个小问题测试一下输出速度。简单介绍一下什么是数字孪生？

同样触发了深度思考，输出内容被视为891 token，耗时113秒，折合速率7.9 TPS。已经很慢了。

然后，我们换个最新发布，但是超级轻量的小模型qwen3.5:0.8b。模型加载前的内存占用情况为：MEM 5.44 G、Swap 1.75 G。模型加载后的内存占用情况为：MEM 7.60 G、Swap 1.75 G，相当于占用2.16 GB内存。

发个小问题测试一下输出速度。简单介绍一下什么是比特币？

触发了深度思考，但在输出前一直会过度思考，动不动就wait，然后再想一遍。或者说这是强化学习，出现了思维反刍现象，在CPU算力受限时会显得尤为明显。最终输出内容2083 token，耗时133秒，折合速率15.6 TPS，竟然比1.5B参数的DeepSeek慢了25%。

然后，我们换个模型参数稍微大一点的小模型qwen3.5:2b。模型加载前的内存占用情况为：MEM 5.34 G、Swap 1.92 G。模型加载后的内存占用情况为：MEM 9.18 G、Swap 1.94 G，相当于占用3.84 GB内存。

发个小问题测试一下输出速度。简单介绍一下什么是区块链？

触发了深度思考，输出前同样思考时间比较长。最终输出内容2463 token，耗时209秒，折合速率11.8 TPS，比0.8B参数的小模型慢了24%。

然后，我们换个模型参数更大一点的小模型qwen3.5:4b。模型加载前的内存占用情况为：MEM 5.36 G、Swap 2.03 G。模型加载后的内存占用情况为：MEM 10.3 G、Swap 2.08 G，相当于占用5 GB内存，比7B参数的DeepSeek占用还要高。

发个小问题测试一下输出速度。简单介绍一下什么是数字孪生？

触发了深度思考，最终输出内容1250 token，耗时243秒，折合速率5.14 TPS，输出速度只有2B参数小模型的44 %。

最后，我们换个模型参数最大qwen3.5:9b。模型加载前的内存占用情况为：MEM 5.15 G、Swap 2.37 G。模型加载后的内存占用情况为：MEM 12.1 G、Swap 3.06 G，相当于占用7 GB内存。内存利用率已经达到81.2 %了，估计再大的模型，应该跑不起来了。

发个小问题测试一下输出速度。简单介绍一下什么是区块链？

最终输出内容1713 token，耗时347秒，折合速率4.94 TPS。模型比qwen3.5:4b大了一倍多，输出速度却只降低了不到4 %。不过，相比8B参数的DeepSeek，速度只有62.5 %。

此外，对于春节期间发布，热度比较高的另外三款模型，暂不支持加载到本地进行运行，仅支持在云端运行。

这里的cloud就是这个意思。

相同的，还设有Kimi-k2.5，也是一个云端大模型。

运行这些模型时，Ollama就从本地推理引擎演变成了统一API网关，这时候测试再CPU或者GPU的性能？那真是盲人摸象，摸不到真东西了。

当然，ollama的运算速度相比还是低一些，如果要充分压榨CPU性能，榨出这颗芯片的最后一滴油水，可以再试试llama.cpp，实测运行3B参数的qwen2.5输出速度最快有25.6 TPS，比我们今天测试最快的1.5B参数DeepSeek的20.9 TPS还要再快22.5 %。模型参数更大，速度更快，说明什么？说明llama.cpp架构比ollama性能更优，更能压榨CPU的性能。

当然，在后面的测试过程中，手机有微微发热的情况，暖手但是不烫。不过别担心，我用冰块对手机进行了降温处理，整体测试数据还是有一定的参考价值的。

通过本次实测，我们见证了手机运行大模型的可行性。从deepseek-r1到qwen3.5，各模型表现各有千秋。虽然性能无法与专业服务器相提并论，但其零成本、易部署的优势令人刮目相看。为了测试大模型，我也算拼了我和我的手机的老命了！

山不在高，有仙则名。这个方案为AI普惠提供了新思路。如果你也有闲置手机，不妨动手尝试这个变废为宝的改造。

阅读原文 >>

声明：来自铁军哥，仅代表创作者观点。链接：https://eyangzhen.com/6576.html

手机也能跑DeepSeek-R1/Qwen3了：零成本搭建AI推理平台

相关推荐