Claude 终于承认,AI 太会哄人了。

Anthropic 发了一篇挺有意思的研究。

这篇研究的标题可以看原文 https://www.anthropic.com/research/claude-personal-guidance 。

翻译过来,就是大家到底会怎么找 Claude 问人生建议。

这事乍一看像产品调研,但它看的不是大家怎么让 Claude 写代码、总结会议、改邮件。

他们在研究大家怎么问,比如:

我该不该换工作?我该怎么跟喜欢的人开口?我是不是该搬去另一个城市?我这段关系是不是出问题了?

这已经不只是“AI 工具好不好用”的问题了,而且 AI 渗透的已经让大家通过 AI 来做重大决定了。

6% 不多,但也很多
Anthropic 这次抽样了 2026 年 3 月和 4 月的 100 万条 Claude 官网对话。

去掉重复用户之后,大概剩 63.9 万条。然后他们用分类器找出一种对话:用户不是在问客观信息,也不是泛泛问观点,而是在问“我自己该怎么办”。

最后找出来大约 3.8 万条,换算一下,差不多 6%。

6% 看着不高,但你想一下,这不是“帮我写个周报”的 6%,也不是“解释一下服务器报错”的 6%。

这是用户在把自己的生活选择丢给 AI,而且这些问题还不是小事。

Claude 给出的意见大家听不听的吧,最终还是要 Do Your Own Research。但通过这个统计,确实能看出来大家现实里都在焦虑什么事情。

Anthropic 把它们分成了 9 个领域:关系、职业、个人成长、财务、法律、健康、育儿、伦理、灵性。

其中超过四分之三集中在四类:健康与身心状态 27%,职业与工作 26%,关系 12%,个人财务 11%。

image-20260506102757090
图源:Anthropic。图中统计了 37,657 条个人指导类对话的主题分布。

这几个词放在一起,基本就是普通人最容易睡不着的那几件事:身体不舒服怎么办啊,工作要不要换啊,对象到底什么意思啊,钱该怎么花啊。

大家不是只把它当搜索框了。很多时候,大家是在把它当一个半夜能回消息的人。

以前你问搜索引擎,它最多给你一堆链接。现在你问 AI,它会给你一个像人一样的回应。听起来只是交互变好了,但人的信任就是这样慢慢丧失的。

以前我们担心 AI,更多担心它胡说八道,比如编一个论文,编一个链接,编一个公司政策。这个风险还在,只是这次 Anthropic 指向的是另一个更隐蔽的问题:过度迎合,也可以直接叫谄媚。

别被这个词吓到,它说的不是 AI 拍马屁的问题。

更常见的情况是,AI 太容易顺着用户给出的叙事走。

你说伴侣是不是在控制我,它根据你单方面描述,可能就开始强化这个判断。

你说我明天裸辞是不是对的,它可能说“这听起来是忠于自己的选择”。

你说我花大价钱买个东西是不是投资自己,它可能顺手给你包装成成长型消费。

虽然这话听着舒服,但舒服和有用之间,从来没有强绑定关系。有些系统把这个边界处理不好,就会把自己训练成一个很会递烟的助手。你刚想抽,它已经把火点上了。

一个真正靠谱的朋友,不会只听你一面之词就帮你宣判别人有罪。

一个真正靠谱的职业顾问,也不会在你情绪上头的时候鼓励你明天裸辞。

一个真正靠谱的财务顾问,更不会把所有冲动消费都说成“投资自己”。

这类 AI 最麻烦的地方是,它可以把迎合包装成理解你。

这里面有一点产品设计上的阴暗幽默:用户满意度上去了,判断力下来了。指标看起来挺好,却让情绪脑直接做了决定。

Anthropic 的数据里,Claude 在所有个人指导对话里的谄媚率大约是 9%。这个数字不算离谱,但是到了关系类对话,谄媚率涨到了 25%。灵性类更高,到了 38%。

image-20260506102818168
图源:Anthropic。关系类和灵性类对话里的谄媚比例明显更高。

不过 Anthropic 最后重点抓的是关系类,原因也简单:涉及关系类问题的数量更旁大。

因为关系问题天然适合把 AI 带偏,因为你跟 AI 讲一段关系,基本不可能把双方视角都讲全。就算讲全了,立场也不一样,你根本不可能客观的站在他人视角看问题。

你会讲你记得的细节,讲你受伤的部分,讲你已经形成判断的证据。

然后它很容易进入一个姿势:先共情,再分析,再给一个看似成熟的建议。流程看似很完整,但问题也可能很完整地跑偏。

关系里最难的不是分析文本,最难的是承认信息不完整。很多时候,你不是缺一个结论,你缺的是有人提醒你:先别急着把自己这版故事当全貌。

Anthropic 还发现了一个细节:关系指导里,用户反驳 Claude 的比例是 21%,高于其他领域平均 15%。而一旦用户开始反驳,AI 更容易谄媚。

有用户反驳的对话里,谄媚率是 18%;没有用户反驳的对话里是 9%。

很像我们平时会遇到的场景:

AI 一开始比较谨慎,说“也许还有其他解释”。

用户马上补充一堆细节,说“不,你没懂,他就是这样的人”。

然后 AI 为了显得有帮助、显得共情,就开始按照人类的方式来讲话。毕竟从优化目标上看,“让用户觉得被理解”比“让用户承认自己信息不完整”容易多了。

免责声明能免责,但不能让人清醒
很多产品遇到高风险问题,喜欢套免责声明:我不是医生,我不是律师,请咨询专业人士。

这当然需要,但只靠这几句话,解决不了“AI 太会哄人”的问题。免责声明解决的是平台风险,不一定解决用户风险。

用户真正要的不是法律责任边界。用户要的是一个能接住情绪、还能帮他看清局面的人。

这两件事放在一起,非常难。你太硬,用户觉得你没共情;你太软,用户听完更确信自己原来的判断。中间那条线很细,偏一点就不像帮助了。

Anthropic 这次的做法,是从失败场景里抓模式,比如用户批评 Claude 一开始的判断、突然补充大量单方面细节、反复要求 Claude 站队。

然后他们用这些模式构造合成的关系指导训练数据,拿去训练 Opus 4.7 和 Mythos Preview。

后面还做了一个压力测试。

它不是从干净对话开始测,而是把以前那些已经有谄媚倾向的真实反馈对话,预填给新模型,让 AI 接着往下说。

这有点像车已经开始偏了,你再看司机能不能把方向盘打回来。不是在直路上考驾照,是在打滑的时候看手上有没有活。

结果是,Opus 4.7 在关系指导里的谄媚率大约降到 Opus 4.6 的一半。

Mythos Preview 也有类似改进,而且这种改进还扩展到了其他个人指导领域。

image-20260506103000673
图源:Anthropic。新模型在关系指导和整体个人指导场景里,都减少了谄媚行为。

这条路是对的。不是让 AI 变得更会安慰人,而是让它在用户最想被安慰的时候,还能保留一点不顺从。

Anthropic 在文章里用了一个说法:Claude 应该像一个智慧的朋友。

智慧的朋友。这个比喻挺好。朋友有时候会偏袒你,会跟你一起骂人,也会因为怕你难受,不会把话说的太严重。

可 AI 如果真的承担“个人指导”的角色,它不能只学朋友的陪伴感。

它还得学的像一点专业人士。

它要能说:你现在给的信息不够;我不能判断对方一定有问题;这个决定风险太大,等你冷静下来再说;你可能是在寻找共鸣,而不是寻找建议。

这些话不一定好听,但有些场景里就得这么说。一直给台阶下,最后人就顺着台阶走偏了。

我之前一直觉得,AI 产品最容易卷错方向。

大家都在卷谁更懂我,谁回复更温柔,谁更像一个永远在线的搭子。但这篇研究提醒了一个更现实的方向:

好的 AI,不该永远站在你这边,它得能拦你一下。

这句话对写代码也成立。你让 AI 看你的架构,它不能只说“设计得很清晰”;你让它看你的文章,它不能只说“观点很有洞察”;你让它看你的商业计划,它不能只说“这个方向很有潜力”。

它得敢说:这里没证据,这里太乐观,这里成本没算,这里其实是你自己在骗自己。话难听,但省钱,也省时间。

否则它只是一个很高级的情绪放大器。

记住一个很朴素的原则:问 AI 人生建议时,别只问“我该怎么办”。

你要逼它做三件事。第一,让它列出信息缺口:

“基于我现在给的信息,你还缺哪些关键事实,不能直接下判断?”

第二,让它反驳你:

“请你不要顺着我说,专门指出我这段描述里可能偏见最重的地方。”

第三,让它给低风险下一步:

“不要替我做最终决定,只给我一个 24 小时内可以验证的小动作。”

这不是提示词技巧,这是给自己加刹车。

说得难听一点,是给那个“已经很想相信自己判断”的大脑加个 debug 。

尤其是关系、健康、法律、财务这些事,AI 可以帮你整理思路,但别让它替你盖章。

你要的不是一个判官,你要的是一个能帮你把问题拆开的人。

Anthropic 这篇研究还有一段限制说明。

他们也承认,这只是 Claude 用户的数据,不代表所有人;自动分类器和自动评分器也可能误判;他们只能看到聊天记录,看不到用户后来到底怎么做。

这段限制说明让这篇研究没那么像公关稿。AI 能把话说得很像答案,但它负责不了后果。

AI 参与人的决策,真正难测的不是它当时说了什么,而是它有没有改变人的判断。

用户会不会听到一句“你值得更好”,就对这段关系做了一个决定?

会不会听到一句“这是一笔值得的投资”,就让你直接刷了信用卡?

会不会听到一句“你的症状看起来不严重”,就让你推迟就医?

这些都不是模型分数能完全覆盖的。

所以我看完最大的感受不是“Claude 又进步了”,而是这些产品终于开始承认一件事:

当用户把生活交给 AI 讨论时,它输出的不是文本,它会开始影响你的判断。

这事很方便,但也异常危险。你随时能问的一句话,也有可能让你走偏了。

我不是说以后别问 AI,我自己也会问。但越是重要的问题,是你把它当做辅助驾驶还是自动驾驶。

辅助驾驶可以让你把车开好。但方向盘,还是得握在自己手里。

声明:来自cxuanAI,仅代表创作者观点。链接:https://eyangzhen.com/8007.html

cxuanAI的头像cxuanAI

相关推荐

添加微信
添加微信
Ai学习群
返回顶部