Gemini 3 Pro翻车实测：深度思考3分钟，算不过GPT-5.1-high的3秒钟？

“王炸”！“颠覆”！“史上最强”！
2025年11月19日，Google在11月18日新发布的Gemini 3 Pro的发布引发了科技圈的海啸，全网都在狂欢。但热闹是他们的，我只有一个疑问：是骡子是马，咱得拉出来遛遛！是真正的实力王者，还是营销天王？今天，我就来当这个拆台的人。
Gemini 3是Google对标OpenAI稍早发布（11月12日）的GPT-5.1的重磅回应，不仅推出了Pro版本，还引入了新的深度思考（Deep Think）模式。该说不说，老外也是吃上DeepSeek的细糠了。
眼下都是鼓吹Gemini 3 Pro有多么多么好，包括：
Gemini 3 Pro发布后迅速以1501 Elo的分数登顶LMArena排行榜，超越了之前的领跑者；
Deep Think模式下，在Humanity’s Last Exam（人类终极考试，一个专门测试 AI 极限推理的基准）中得分高达41%，显著高于GPT-5.1的26.5%；
Gemini 3 Pro是原生的多模态模型，意味着它可以像理解文字一样顺畅地理解视频、音频和图像，其实2 Pro就可以；
相比于GPT-5.1的“快”和“人性化”（更适合日常对话、快速编码、文案写作），Gemini 3 Pro胜在“深”和“全能”（更适合科研推理、分析长视频、处理超长文档）。
说得天花乱坠，用起来会更好用吗？
说到这里，我不得不采访一下Gemini 3 Pro本尊。
我先是问他目前LMArena排行榜的前三名是谁，已经最新上线的模型都有哪些。深度思考模式果然名不虚传！为了回答第一个问题，Gemini 3 Pro开启了它的脑内小剧场，经历了15步的复杂推演：Exploring Top Performers、Retrieving Rankings & Releases、Assessing Date Discrepancies、Refining Search Queries、Pinpointing New Additions、Spotting the Trend、Analyzing the Data、Considering the Context、Clarifying Assumptions、Verifying the Findings、Reassessing the Strategy、Refining the Approach、Updating the Landscape、Defining the Hierarchy、Identifying Key Leaders，架势十足！他给出了以下结论：

一顿操作猛如虎，一看战绩零杠五，给出的居然是过时的排行榜信息。这深度首先用在了穿越上？

没办法，他要是这么说，我就不得不怼他一下了。

好在他意识到了自己的错误，马上触发了更新机制，将最新的三皇争霸替换成了Gemini 3 Pro（Google）、GPT-5.1（OpenAI）和DeepSeek V3.2（深度求索）。

有趣的是，他竟然还调侃了一下。

并且，我还给了他一次扬名立万的机会，问他GPT的哪个模型可以对标Gemini 3 Pro，他回答是gpt-5.1-high。

而且，他丝毫不隐晦的表示，gpt-5.1-high虽然是一个优秀的模型，但也是能跟Gemini 3 Pro掰掰手腕而已。而且，他还拿自己的优势来炫耀，表示要出题考一考gpt-5.1-high模型。

看起来信心满满是不是？实际上这才是Gemini 3 Pro给自己挖的坑。

给大家展示一下测试视频：
整个测试过程持续了五分多钟，打脸的时刻终于来了！它自己精心设计的四道考题，竟成了照自己的照妖镜。
gpt-5.1-high模型回答第一个问题耗时9秒，Gemini 3 Pro耗时31秒，输出结果差不多，但是gpt-5.1-high更快。

在第二个问题上，gpt-5.1-high模型用时11秒，输出的是纯代码；而Gemini 3 Pro用时57秒，整起了花活儿，还带了相关的介绍信息。

不过，慢工可不一定出细活儿，Gemini 3 Pro给出的代码竟然运行报错了。

而gpt-5.1-high的代码运行成功了。

搬起石头砸自己的脚，史诗级场面出现了！最后一道本是Gemini想给对手挖坑的逻辑陷阱，结果自己却深陷其中，算了足足3分钟，而GPT-5.1-high仅用3秒就给出了正确答案。

这波操作，堪称本想秀操作，结果秀了智商下限，节目效果直接拉满！就这，还好意思说自己天下第一？

纸上谈兵终觉浅，绝知此事要实测。本次评测无疑给狂热的舆论泼了一盆沉静的冷水。它告诉我们：发布会上的神话，永远不如自己亲手测出的实话来得可靠。Gemini 3 Pro或许在某些长板领域很强，但至少在今天的擂台赛上，它并没能从GPT手中夺走综合最优的王冠。

阅读原文 >>

声明：来自铁军哥，仅代表创作者观点。链接：https://eyangzhen.com/4029.html

Gemini 3 Pro翻车实测：深度思考3分钟，算不过GPT-5.1-high的3秒钟？

相关推荐