救命啊!我要被AI抢劫了!
今天上午,我在正常使用Google相关产品时,发现产品页面部分功能有问题,临近中午的时候才恢复。
之后,查看Gemini页面风格,就发生了变化,新推出了一个3.5 Flash模型,思考等级也分成了标准和扩展两个。
上网搜了一下,才发现今天上午(美国当地时间5月19日),Google I/O 2026开发者大会正式开幕了,核心主题就是:Gemini正式跨入智能体时代。底层模型迎来了3.5时代的首次迭代,Gemini 3.5 Flash成为新默认主模,并且已经全面接管并成为网页端和App的默认免费模型。
虽然Gemini 3.5 Flash名字带Flash,但据说它的多步推理、工具调用和代码编写能力大幅飙升,在多项智能体基准测试中甚至超越了3.1 Pro核心模型。此外,据说还推出了全新世界模型Gemini Omni,这个多模态大模型专攻高质量视频生成与编辑,能理解重力、动能等物理定律。目前看来,Gemini中生成视频的模型好像确实已经从之前的Veo切换成了Omni,不过好想免费用户还不能用,至少需要是AI Plus订阅用户才能体验。
不过,这不是我最关注的,我最关注的是Antigravity怎么样了(我用谷歌Antigravity部署AI手机,结果…远超CodeBuddy的智能,却败给一个开源BUG!)。
可以看到,相比之前,Gemini 3 Flash已经下线,替换为了3.5 Flash,而且区分成了High和Medium两个版本。
我之前开通了包年的Gemini AI Pro订阅,刚开始使用antigravity时的体验还不错,当时使用Claude、Gemini Pro这些模型的感觉是几乎不限量,没有出现过额度耗尽的情况。
大约到了今年2月份,开始频繁出现Claude模型额度紧张的情况,跑两个任务就会提醒额度耗尽,后来我才知道是更新了额度刷新机制(千呼万唤始出来!Windows用户终于吃上了Codex+GPT-5.4这口“热豆腐”,但额度有点一言难尽)。
再后来,大约是3月份之后,Gemini Pro也开始出现额度耗尽的情况。等到了4月份以后,最低配的Gemini 3 Flash模型也开始频繁出现额度耗尽的情况。
而今天更新之后,模型的额度消耗速度怎么样了?这么说吧,更快了!真是应了那句老话:一顿操作猛如虎,一看额度已入土。
Gemini 3.5 Flash的模型额度大概只用了24分钟就耗尽了,同时显示Gemini 3.1 Pro模型的额度也没有了,貌似Flash模型和Pro模型不再分开计算额度了。
然后,我又切换成Claude模型继续工作,大概使用了27分钟,额度也耗尽了。
好久没有体验到这种弹尽粮绝的感觉了,不到一个小时,两大巨头轮番给我拉响了弹尽粮绝的警报,直接Game Over。
面对这种情况,官方给出的明路只有一条:打钱,升级AI Ultra。虽说订阅费从抢钱级的250刀/月“大满减”到了100刀/月 ,但这依然是笔不小的开销。看来地主家也没有余粮了,AI巨头们算是把养套杀的策略玩明白了。
AI伙伴下线了,我就去搜了一下相关情况,发现还是高手在民间,有一位订阅了AI Pro的开发者在Reddit发帖称,“1月以前,每周能使用超过3亿input token/1-2百万output token的Gemini Pro模型,但后来一周仅用了不到900万input token/20万output token就达到了每周限额。
同时也是在2026年3月,大量Antigravity用户已开始报告免费层配额大幅削减92 %,以及被频繁推送250刀/月的AI Ultra订阅。
虽然根据AI Pro订阅的描述,AI Pro计划的配额每五小时刷新一次,直到达到每周上限,但实际情况是,需要每周等待一次刷新,而非每五小时,期间若不购买额外积分或升级计划,就无法继续工作。
不过,你以为升级了Ultra就万事大吉了?错了,即使是Ultra用户,也反映30分钟内就能耗尽Claude配额,然后还要等待数小时才能重新访问。
不过,据说今天调价之后,100刀/月的AI Ultra订阅可以提供比Pro计划高5倍的使用限额,按照这个强度算,好像勉强能将我的空窗期压缩至一小时。如果是100刀/月的AI Ultra订阅,可以提供比Pro计划高20倍的使用限额,几乎可以全天候工作了。
那市面上其他Agent的定价策略怎么样呢?
可以看到,2026年主流订阅价格带已经高度分层:轻中度用户主要在20刀/月,想要持续不断档的中重度agent工作流,要么每月花销100-200刀,要么选择那种允许超额按量付费继续跑的产品,
那如果不想多花钱,该怎么办呢?
首先,我们之前统计的免费模型(OpenClaw(原ClawdBot)免费AI模型终极配置指南:精选20+精英模型,打造你的低成本AI军团),现在也开始逐渐不可用了,一方面是用的人越来越多,API调用越来越拥挤;另一方面,现在Agent调用的上下文越来越长,以Hermes为例,要求上下文长度不小于64K,这就导致Groq平台的模型直接用不了了,他的免费模型限速为8000 TPM,连请求的上下文都放不下。
其次,就是本地运行模型,无论是GPU也好(Ollama连夜跳版本,只为迎接Google扮猪吃老虎的Gemma 4?)、手机也好(手机也能跑DeepSeek-R1/Qwen3了:零成本搭建AI推理平台)、Mac mini也好(告别“云端降智”与“订阅割肉”:Mac mini M4开启本地AI算力自由之路),都绕不开一个显存或者内存的问题。要跟上市面上主流模型的性能,成本还是稍微有一点点大。
面对高达百刀的月租,咱们普通打工人只能新三年、旧三年、缝缝补补又三年。如果你和我一样,只想死守着20刀的基础订阅过日子,不妨试试下面这三招抠门榨干法:
1、每20分钟做一次快照,并开新对话。Gemini和Claude明确表示把聊天长度、当前对话长度算进用量,别把对话养太肥,对话越长,你每发一句话系统要带着更长的历史一起推理,单次成本会越来越高。
2、所有请求默认短输出、diff、不讲课。输出越长,越耗token;用补丁式协作,别让它重写世界;模型默认会附上大量解释文字,这些解释本身也会消耗token配额。
3、先让模型开清单再补料,大文件不上传整份,只贴最小片段。官方明确把 文件附件大小、复杂度、功能、聊天长度计入用量,大文件/大上下文通常会显著提高复杂度与处理成本。
这三条加在一起,不需要多花一分钱,通常就能让同样的额度多撑2-3倍。
从2026年的这场计费风暴可以看出,AI工具已经从前两年的跑马圈地、免费狂欢,正式进入了精打细算、按量收割的下半场。以前写代码是看CPU占用率,以后写代码恐怕得盯着钱包余额了。
虽然学会控制Token是我们的必修课,但面对越来越高昂的AI“同事”雇佣费,大家是怎么看的呢?你是宁愿花100刀买个痛快,还是坚持用开源模型平替?又或者有更绝的白嫖姿势?欢迎在评论区留言,我们一起抱团取暖!
如果觉得这三个省额度的小技巧对你有用,别忘了点个在看和转发,救救那些还在频繁吃配额警告的兄弟们吧!
声明:来自铁军哥,仅代表创作者观点。链接:https://eyangzhen.com/8277.html