科技改变生活,但更多时候是创意惊艳岁月!
最近OpenClaw这个冷饭真是炒了又炒,关于云服务器部署,我们之前已经介绍过了(开源AI助手ClawdBot部署成功了,但“免费”的午餐到底能吃多久?)。为了更大限度地挖掘免费Token,我还特地从6大平台上百个免费模型中,依据能力与额度精选出20多个最佳模型(OpenClaw(原ClawdBot)免费AI模型终极配置指南:精选20+精英模型,打造你的低成本AI军团)。如果你会玩的话,也可以免费使用最强模型Gemini 3.1 Pro和Claude 4.6(还在为AI API费用发愁?我找到了免费使用Gemini 3和Claude 4.5的方法)。
为了进一步降低成本,我们又把手机免Root安装Ubuntu系统的方法介绍了一遍(告别云服务器费用:零成本将旧手机改造Linux服务器实战指南),这种方法适合Android 7以上的手机。Android 6版本请参考(你想在旧Android手机上装Linux系统吗?看这里)。对于老华为设备,请参考(使用UserLAnd给华为平板装个Linux系统),目前最低能支持到Android4手机(Android4也能跑Linux了,Linux Deploy了解一下!)。
现在,我们已经有了部署OpenClaw用的超低成本的服务器,不过人民日报官方也发文提醒了(AI“养龙虾”走红,官方提示→),要注意数据安全,那我们还是考虑一下本地部署大模型的方式。
对于带有NVIDIA显卡的电脑,可以参考(哪怕用笔记本的4070显卡运行DeepSeek,都要比128核的CPU快得多!)。对于数据中心GPU服务器,可以参考(A10本地部署的QwQ做小学数学题)。对于Mac用户,可以参考(29瓦功耗运行140亿参数模型!Mac mini M4的AI能效革命)。
那有没有一种可能,你的手机也能用来跑大模型呢?
我已经测试过了,完全可以,而且性能还很高。今天就用2024年的荣耀Magic 7手机测试一下,看看这个两年前的中端手机性能如何。
骁龙8至尊版作为两年前的旗舰芯片,采用Oryon自研架构,有2个4.32GHz的超大核和6个3.53GHz的大核。搭载Hexagon NPU和Adreno 830 GPU,最高有80 TOPS的AI算力。
此外,他还支持跟Mac一样的UMA统一内存架构(Uniform Memory Architecture),搭配的LPDDR5X内存带宽约为84 GB/s。由于CPU和GPU共享同一块手机运存,数据不需要像电脑那样通过PCIe总线在内存和显存之间来回拷贝,使用手机跑大模型,效率非常恐怖。
用手机跑大模型,还是得依赖我们前面安装好的Ubuntu系统。运行时有两种思路,第一种非常简单,直接运行ollama即可,跟我们之前测试的ollama流程完全一致,上手零难度。第二种稍微复杂一些,不过对于操作过命令行的人而言,也难度不大,那就是手工编译llama.cpp,性能比ollama要好一些,但是从Huggingface平台下载模型可能要花一些时间。
当然,不管用哪种,只要手机没有Root权限,都只能跑在CPU上,无法调用GPU或者NPU,没办法发挥出满血性能。
为了保证性能,我先重启手机看一下初始状态。
因为没有Root权限,无法监控实际的CPU使用率,所以测试过程中,我们重点关注内存和swap使用情况。为了确保性能,已经关闭智慧运存功能。
测试使用的ollama版本为最新版本0.17.7。
考虑到实际可用运存只有8.9 GB,而我们之前测试ollama模型中(目前来看,ollama量化过的DeepSeek模型应该就是最具性价比的选择):INT8量化的8B模型大约占用9.1 GB运存或者显存,不够用;INT8量化的7B模型大约占用8.3 GB运存或者显存,勉强够用。这些经验数据决定了我们今天测试的模型大小上限。
第一局,我们先测试一个小模型deepseek-r1:1.5b。模型加载前的内存占用情况为:MEM 6.23 G、Swap 370 M。
模型加载后的内存占用情况为:MEM 7.47 G、Swap 370 M,相当于占用1.24 GB内存。
发个小问题测试一下输出速度。简单介绍一下什么是比特币?
从汇总数据来看,我问的13个字被视为8个token,输出内容被视为379 token,耗时18.1秒,折合速率20.9 TPS。
然后,我们换个大一点模型deepseek-r1:7b。模型加载前的内存占用情况为:MEM 5.63 G、Swap 1.36 G。模型加载后的内存占用情况为:MEM 10.2 G、Swap 1.5 G,相当于占用4.6 GB内存。同时还有不少内存被放到了Swap中。
发个小问题测试一下输出速度。简单介绍一下什么是区块链?
这次就触发深度思考了,输出内容被视为247 token,耗时26.3秒,折合速率9.4 TPS。
然后,我们换个更大一点模型deepseek-r1:8b。模型加载前的内存占用情况为:MEM 5.36 G、Swap 1.87 G。模型加载后的内存占用情况为:MEM 10.8 G、Swap 1.89 G,相当于占用5.5 GB内存。
发个小问题测试一下输出速度。简单介绍一下什么是数字孪生?
同样触发了深度思考,输出内容被视为891 token,耗时113秒,折合速率7.9 TPS。已经很慢了。
然后,我们换个最新发布,但是超级轻量的小模型qwen3.5:0.8b。模型加载前的内存占用情况为:MEM 5.44 G、Swap 1.75 G。模型加载后的内存占用情况为:MEM 7.60 G、Swap 1.75 G,相当于占用2.16 GB内存。
发个小问题测试一下输出速度。简单介绍一下什么是比特币?
触发了深度思考,但在输出前一直会过度思考,动不动就wait,然后再想一遍。或者说这是强化学习,出现了思维反刍现象,在CPU算力受限时会显得尤为明显。最终输出内容2083 token,耗时133秒,折合速率15.6 TPS,竟然比1.5B参数的DeepSeek慢了25%。
然后,我们换个模型参数稍微大一点的小模型qwen3.5:2b。模型加载前的内存占用情况为:MEM 5.34 G、Swap 1.92 G。模型加载后的内存占用情况为:MEM 9.18 G、Swap 1.94 G,相当于占用3.84 GB内存。
发个小问题测试一下输出速度。简单介绍一下什么是区块链?
触发了深度思考,输出前同样思考时间比较长。最终输出内容2463 token,耗时209秒,折合速率11.8 TPS,比0.8B参数的小模型慢了24%。
然后,我们换个模型参数更大一点的小模型qwen3.5:4b。模型加载前的内存占用情况为:MEM 5.36 G、Swap 2.03 G。模型加载后的内存占用情况为:MEM 10.3 G、Swap 2.08 G,相当于占用5 GB内存,比7B参数的DeepSeek占用还要高。
发个小问题测试一下输出速度。简单介绍一下什么是数字孪生?
触发了深度思考,最终输出内容1250 token,耗时243秒,折合速率5.14 TPS,输出速度只有2B参数小模型的44 %。
最后,我们换个模型参数最大qwen3.5:9b。模型加载前的内存占用情况为:MEM 5.15 G、Swap 2.37 G。模型加载后的内存占用情况为:MEM 12.1 G、Swap 3.06 G,相当于占用7 GB内存。内存利用率已经达到81.2 %了,估计再大的模型,应该跑不起来了。
发个小问题测试一下输出速度。简单介绍一下什么是区块链?
最终输出内容1713 token,耗时347秒,折合速率4.94 TPS。模型比qwen3.5:4b大了一倍多,输出速度却只降低了不到4 %。不过,相比8B参数的DeepSeek,速度只有62.5 %。
此外,对于春节期间发布,热度比较高的另外三款模型,暂不支持加载到本地进行运行,仅支持在云端运行。
这里的cloud就是这个意思。
相同的,还设有Kimi-k2.5,也是一个云端大模型。
运行这些模型时,Ollama就从本地推理引擎演变成了统一API网关,这时候测试再CPU或者GPU的性能?那真是盲人摸象,摸不到真东西了。
当然,ollama的运算速度相比还是低一些,如果要充分压榨CPU性能,榨出这颗芯片的最后一滴油水,可以再试试llama.cpp,实测运行3B参数的qwen2.5输出速度最快有25.6 TPS,比我们今天测试最快的1.5B参数DeepSeek的20.9 TPS还要再快22.5 %。模型参数更大,速度更快,说明什么?说明llama.cpp架构比ollama性能更优,更能压榨CPU的性能。
当然,在后面的测试过程中,手机有微微发热的情况,暖手但是不烫。不过别担心,我用冰块对手机进行了降温处理,整体测试数据还是有一定的参考价值的。
通过本次实测,我们见证了手机运行大模型的可行性。从deepseek-r1到qwen3.5,各模型表现各有千秋。虽然性能无法与专业服务器相提并论,但其零成本、易部署的优势令人刮目相看。为了测试大模型,我也算拼了我和我的手机的老命了!
山不在高,有仙则名。这个方案为AI普惠提供了新思路。如果你也有闲置手机,不妨动手尝试这个变废为宝的改造。
声明:来自铁军哥,仅代表创作者观点。链接:https://eyangzhen.com/6576.html