从不可用到10分钟，再到10秒！我优化了AI手机操作，实现流畅运行

上回书说到（我用谷歌Antigravity部署AI手机，结果…远超CodeBuddy的智能，却败给一个开源BUG！），我们雄心勃勃地用Antigravity搭配Claude Opus 4.5，在我的RTX4070笔记本电脑上部署AutoGLM（桌面显卡RTX4070部署AnythingLLM调用vLLM搭建本地大模型知识库），试图打造类似豆包手机的AI手机，最终，天不遂人愿，因为transformers框架与GLM-4V的模型配置不兼容，折戟沉沙，Claude也只能引导我换用更大显存的GPU。
山重水复疑无路，柳暗花明又一村！就在我以为要此路不通时，奇迹竟悄然发生——时隔一日，Claude精准地给出了解决方案！

跟昨天不同，今天的Claude直接指出，是老版transformers（v4.57.3）与GLM-4V的模型配置不兼容，升级transformers到5.0.0rc0即可解决。看transformers这个版本号，怎么感觉像是新发布的呢？
不过，使用transformers 5.0.0rc0可能会导致与vLLM 0.12.0的依赖冲突，但不影响直接使用transformers加载模型。
source ~/miniconda3/bin/activate autoglm
pip install ‘transformers>=5.0.0rc0’ –pre

查看运行方式，发现依旧是前6层在GPU，需要CPU卸载。
source ~/miniconda3/bin/activate autoglm
cd /root/.gemini/antigravity/scratch/Open-AutoGLM
python main.py –base-url http://localhost:8000/v1 –model autoglm-phone-9b

不过，现在再次执行【打开设置】这个曾经遥不可及的指令，终于可以成功执行了。

但喜悦很快被速度问题冲淡，十分钟完成一个操作，这AI手机的智商未免有点太迟钝了。把问题抛给Claude，让他优化一下！

更令人惊喜的是，Claude还找到了免费的云端API方案，不错！貌似用质谱的API就能解决问题，Claude让我先去搜GLM-4-9B，我发现都是免费的。

但是，后来Claude又说这两个是对话用的，没有视觉，需要用GLM-4.6V。

可以看到，GLM-4.6V的发布时间跟宣传的Open-AutoGLM项目/AutoGLM-Phone-9B模型的发布时间是一样的，12月8日，但是不叫AutoGLM-Phone-9B，而且我在硅基流动也没有搜到这个模型。而且，这个模型还是收费的，具体不知道这个token消耗情况怎么样。
就连HuggingFace官网，还有评论在找INT8量化版本，估计也是显存不够吧。

而另外一个GLM-4.1V-9B-Thinking模型，Claude说这个就是AutoGLM-Phone-9B的基础架构，而且也是免费的！这个就是最佳选择！

面对本地部署的性能瓶颈，我决定采纳Claude的建议，借船出海——使用硅基流动的免费GLM-4.1V-9B-Thinking模型API。这一招四两拨千斤，彻底绕开了本地硬件限制。来个小试牛刀。
source ~/miniconda3/bin/activate autoglm
cd /root/.gemini/antigravity/scratch/Open-AutoGLM
python main.py \
–base-url https://api.siliconflow.cn/v1 \
–model THUDM/GLM-4.1V-9B-Thinking \
–apikey sk-nssesszssessssesszsesszssesszsszssesszesszssessz

现在，我们再执行指令操作，发现可以成功执行，并且耗时大幅缩短。

可以看到，这个执行逻辑，其实就是抓取一张屏幕截图，然后分析屏幕元素，同时结合用户指令，转换成操作手机的ADB指令，过程中和最后，多次抓取屏幕截图，检测执行进展。原理就是这么简单。
现在，通过调用API，已经可以实现比较流畅的交互操作，比如【打开系统设置】，然后在设置页面【打开快手极速版】，这是他也会先返回桌面，再找到相关应用，最后模拟点击，来完成操作。
操作时间的话，每执行一次操作，大概需要60秒左右的时间，如果是复杂指令，操作时间会成倍增加。
为此，我还让Claude做了针对性的调优，压缩截图大小、降低分辨率，同时还能降低请求所消耗的token数量；同时，还针对应用做了指向性的打开优化，无需模拟点击即可直接打开，一次操作的时间成功压缩到了10秒左右，体验获得了质的飞跃。

这次破局之旅证明，面对技术难题，有时需要的只是一次关键的版本升级或一个巧妙的架构选择。
要这么看的话，AI手机的落地模式是不是就是云端智能 + 本地执行呢？因为在手机本地直接跑一个大模型，成本终究还是太高了！通过API调用云端最强大脑，或许是更务实和高效的选择。这条路，越走越宽了！

声明：来自铁军哥，仅代表创作者观点。链接：https://eyangzhen.com/4610.html

从不可用到10分钟，再到10秒！我优化了AI手机操作，实现流畅运行

相关推荐