“王炸”!“颠覆”!“史上最强”!
2025年11月19日,Google在11月18日新发布的Gemini 3 Pro的发布引发了科技圈的海啸,全网都在狂欢。但热闹是他们的,我只有一个疑问:是骡子是马,咱得拉出来遛遛!是真正的实力王者,还是营销天王?今天,我就来当这个拆台的人。
Gemini 3是Google对标OpenAI稍早发布(11月12日)的GPT-5.1的重磅回应,不仅推出了Pro版本,还引入了新的深度思考(Deep Think)模式。该说不说,老外也是吃上DeepSeek的细糠了。
眼下都是鼓吹Gemini 3 Pro有多么多么好,包括:
Gemini 3 Pro发布后迅速以1501 Elo的分数登顶LMArena排行榜,超越了之前的领跑者;
Deep Think模式下,在Humanity’s Last Exam(人类终极考试,一个专门测试 AI 极限推理的基准)中得分高达41%,显著高于GPT-5.1的26.5%;
Gemini 3 Pro是原生的多模态模型,意味着它可以像理解文字一样顺畅地理解视频、音频和图像,其实2 Pro就可以;
相比于GPT-5.1的“快”和“人性化”(更适合日常对话、快速编码、文案写作),Gemini 3 Pro胜在“深”和“全能”(更适合科研推理、分析长视频、处理超长文档)。
说得天花乱坠,用起来会更好用吗?
说到这里,我不得不采访一下Gemini 3 Pro本尊。
我先是问他目前LMArena排行榜的前三名是谁,已经最新上线的模型都有哪些。深度思考模式果然名不虚传!为了回答第一个问题,Gemini 3 Pro开启了它的脑内小剧场,经历了15步的复杂推演:Exploring Top Performers、Retrieving Rankings & Releases、Assessing Date Discrepancies、Refining Search Queries、Pinpointing New Additions、Spotting the Trend、Analyzing the Data、Considering the Context、Clarifying Assumptions、Verifying the Findings、Reassessing the Strategy、Refining the Approach、Updating the Landscape、Defining the Hierarchy、Identifying Key Leaders,架势十足!他给出了以下结论:
一顿操作猛如虎,一看战绩零杠五,给出的居然是过时的排行榜信息。这深度首先用在了穿越上?
没办法,他要是这么说,我就不得不怼他一下了。
好在他意识到了自己的错误,马上触发了更新机制,将最新的三皇争霸替换成了Gemini 3 Pro(Google)、GPT-5.1(OpenAI)和DeepSeek V3.2(深度求索)。
有趣的是,他竟然还调侃了一下。
并且,我还给了他一次扬名立万的机会,问他GPT的哪个模型可以对标Gemini 3 Pro,他回答是gpt-5.1-high。
而且,他丝毫不隐晦的表示,gpt-5.1-high虽然是一个优秀的模型,但也是能跟Gemini 3 Pro掰掰手腕而已。而且,他还拿自己的优势来炫耀,表示要出题考一考gpt-5.1-high模型。
看起来信心满满是不是?实际上这才是Gemini 3 Pro给自己挖的坑。
给大家展示一下测试视频:
整个测试过程持续了五分多钟,打脸的时刻终于来了!它自己精心设计的四道考题,竟成了照自己的照妖镜。
gpt-5.1-high模型回答第一个问题耗时9秒,Gemini 3 Pro耗时31秒,输出结果差不多,但是gpt-5.1-high更快。
在第二个问题上,gpt-5.1-high模型用时11秒,输出的是纯代码;而Gemini 3 Pro用时57秒,整起了花活儿,还带了相关的介绍信息。
不过,慢工可不一定出细活儿,Gemini 3 Pro给出的代码竟然运行报错了。
而gpt-5.1-high的代码运行成功了。
搬起石头砸自己的脚,史诗级场面出现了!最后一道本是Gemini想给对手挖坑的逻辑陷阱,结果自己却深陷其中,算了足足3分钟,而GPT-5.1-high仅用3秒就给出了正确答案。
这波操作,堪称本想秀操作,结果秀了智商下限,节目效果直接拉满!就这,还好意思说自己天下第一?
纸上谈兵终觉浅,绝知此事要实测。本次评测无疑给狂热的舆论泼了一盆沉静的冷水。它告诉我们:发布会上的神话,永远不如自己亲手测出的实话来得可靠。Gemini 3 Pro或许在某些长板领域很强,但至少在今天的擂台赛上,它并没能从GPT手中夺走综合最优的王冠。
声明:来自铁军哥,仅代表创作者观点。链接:https://eyangzhen.com/4029.html