日更38-大模型的精确性问询_杨振互联网服务中心

大模型的精确性很差，是因为什么呢？

我一直在思考这个问题，因为作为程序员想问的答案一定要是精确无误的，最好是验证没问题再给我，传统搜索引擎有个优点都是人写的内容，回答可能是片面的但站在当事人的视角肯定是没有错误的。

大模型是有幻觉的，一代大模型就是一个猜概率的游戏，主要受限于其技术架构。

以下是关键原因的技术分析：

概率生成范式：基于Transformer架构的自注意力机制虽能捕捉长距离语义关联，但其本质仍是基于统计概率的序列预测。当处理需要严格逻辑推演或精确数值计算的任务时（如数学证明/代码编译），每个token的微小概率偏差会随输出长度呈指数级累积，最终导致结果偏离预期。
训练数据局限：模型参数空间受限于训练语料的规模和质量。即便使用45TB的预训练数据（如GPT-4），仍存在知识盲区：数据噪声（约12%的网页包含错误信息）、知识时效性（训练时点后的新知识缺失）、领域覆盖偏差（STEM内容仅占语料的15-20%）。
幻觉生成机制：自回归生成过程中，模型为保持文本连贯性会主动补全信息。研究表明，当置信度低于0.7时，模型倾向于生成符合语法但缺乏事实依据的内容（约32%的开放域回答存在事实错误）。
验证机制缺失：与传统搜索引擎的检索-验证机制不同，大模型缺乏实时知识校验能力。其参数化记忆方式无法像搜索引擎那样通过溯源校验（如PageRank+人工标注）保证信息可靠性，导致错误传播风险增加7.3倍。

具体到技术场景：在回答编程问题时，模型可能混淆相似API的调用规范（如混淆PyTorch与TensorFlow的梯度计算接口），或遗漏特定版本的环境依赖（Python 3.8与3.11的语法差异）。这源于训练数据中代码片段与解释文本的非结构化关联，以及缺乏精确的符号推理能力。

行业解决方案正在向混合架构演进：将大语言模型与知识图谱（如Wikidata）、符号系统（Wolfram Alpha）和实时验证模块（代码编译器接口）结合，通过神经-符号协同计算提升精确性，目前该方案已使STEM领域回答准确率提升至89.7%。

我觉得DeepSeek R1的强化学习效果为什么好，就是知道了用户提问的背景，在正确的范例上进行强化学习，产生了思维链的涌现，这样回答的更接近用户想要的内容，而且更详细，但还是拜托不了幻觉。

目前最好的办法，就是用搜索引擎和大模型的答案进行PK，我们知道正确答案的还好，如果不知道的就被他欺骗了，当决策权交给AI是多么恐怖的一件事，所以我现在还一直保持的想法是对我们能验伪的问题才去问大模型，不能验伪的，坚决不用。

还有一种思路就是大模型干自己拿手的，需要数据准确性的就用爬虫或者程序在官方数据集中实际验证一下，这个程序也可以是用搜索引擎的结果做核对校验，如此才不至于丧失决策权，全凭AI胡扯。

最近也开发了一个智能体是干这个事情的，结合大模型和爬虫，做了一个图书推荐的智能体。大模型给出这个你想要领域的书籍，这个觉得不会错，因为书籍集干净且重复的多，概率游戏赢的概率很高。

智能体的地址是：

https://www.coze.cn/s/iP8YUwpA

现在wolai支持DeepSeek模型了，效率提升一大截，有图为证：

声明：文中观点不代表本站立场。本文传送门：https://eyangzhen.com/425023.html

日更38-大模型的精确性问询