受够了AI总是胡说八道，OpenAI让GPT变笨！但这才是对你负责-AI Express News

抓住风口

本期要点：如何让AI值得依赖？靠更大的模型吗？

你好，我是王煜全，这里是王煜全要闻评论。

2025年终，AI行业出现了一个分裂状况，究竟是要追求“靠谱”，还是要显得“聪明”？

前段时间，在谷歌压力之下，OpenAI不仅亮起了所谓红色警报，还提前上线了GPT-5.2模型。

可是，第三方评测结果显示，GPT-5.2并没有飞跃性的进步，甚至有的报告称GPT-5.2仍落后于Gemini 3 Pro。

更是有不少用户吐槽，GPT-5.2的回答变得冰冷生硬，甚至逻辑推理能力还有倒退的迹象。种种主观感受汇成一个结论，那就是GPT-5.2好像“降智”了。

被寄予厚望的GPT-5.2 怎么反而没那么聪明了？GPT-5.2滑铁卢的背后，其实反映出整个AI大模型产业撞到了一个隐形的天花板。

2025年12月9日，谷歌DeepMind低调推出了FACTS基准测试套件（FACTS Benchmark Suite），用科学的评估数据给所有大模型泼了一盆冷水：在基于长文档进行问答时，没有任何模型的事实准确率突破70%。

这意味着，即使你用着最昂贵的模型，还是有超过30%的概率接收到错误的、或者凭空捏造的信息。

在我们看来，当整个行业在疯狂堆叠算力与参数后仍无法突破瓶颈时，就意味着发展方式要从追求更大更强的模型，转向通过系统工程和商业模式的创新来突破准确率瓶颈，让AI真正变成值得依赖的伙伴。

炼金术

首先，我们认为，在靠谱面前，AI显得“没那么聪明”也无伤大雅。

现在的GPT-5.2，确实是问什么就回答什么，不再像以前那样乐于延展和调侃，给人一种刻板木讷的印象。初步使用谷歌Gemini模型的人，反而会觉得谷歌的模型充满灵气，似乎总能领悟到用户的弦外之音。

但这只是在大语言模型（LLM）架构进入平台期后，OpenAI和谷歌选择了不同的优化方向，而产生了不同的表现。

对于大部分人而言，不仅是GPT-5.2没有什么飞跃，GPT-5相比于OpenAI O3等之前的模型也并没有什么显著变化。同样，在日常使用中，又有多少人能清晰区分Gemini 3和Gemini 2.5的差异呢？

但长期用户一定能感到一个普遍的问题，所有大模型都时常会一本正经的胡说八道。

其实，DeepMind去年12月发布的《FACTS Grounding》基准测试报告就已经指出，没有一个大模型的事实准确率能超过70%。也就是说，一年过去了，幻觉问题没有得到显著改善。

归根结底，这是LLM本身的局限使然，从底层原理上讲，LLM就是下一个Token的预测器。它通过海量文本学会了在特定上下文的后面接哪个词的概率最高，从而“猜”出看似合理的回答，但并不真正理解事实与其中的逻辑。

这就像古代的炼金术士，能凭经验炼出闪亮的产物，却无法保证每次产物的质量。而现代社会需要的，是基于严谨的化学原理，在严格的环境下，能重复生产出的可靠产品。

因此，不管给AI喂多少数据、增加多少参数，它都可能被无关信息干扰，幻觉概率难以根本性地下降。哪怕GPT-6、GPT-7出来了，出错的问题还是会存在。

靠谱更重要

这时，AI公司就必须做出选择，究竟是要让AI成为玩具、还是工具。

新用户可能觉得，充满想象力、不断制造惊喜的AI会更好玩。

当年GPT-4o就是妙语连珠、侃侃而谈，OpenAI的o1模型也会耍小聪明，尽力满足用户的各种要求。

但金融、法律、医疗等领域的专业用户一定更看重AI的可信赖程度。

举个最简单的例子，当生病的用户拿着一堆检验报告来问AI时，他们一定不希望AI在那天马行空的推理、或充满发散思维的抖机灵，而是要AI给他们最严谨、最可靠的答案。

对于企业而言，70%的可靠性更是难以托付重任。对内发错一笔工资，对外签错一个合同，都是实实在在的损失。

所以，OpenAI把模型优化方向定位为更加严谨、减少幻觉，从而打开模型的商业化前景，也就不难理解了。但单纯模型优化并不能解决幻觉问题，看来OpenAI还是没能理解自己的真正优势是AI顾问，幻觉问题是建立信任的最大障碍。

此前我们就曾指出，既然OpenAI已经拥有了数亿用户，就应该更进一步培养用户的“AI依赖”—— 任何拿不准的问题都习惯于问一下AI，让ChatGPT成为用户的AI顾问。

一旦用户建立起这种依赖，就很难被其他产品抢走。

闪电战

那么，更关键的问题来了，既然更大的模型不再等于更可靠，又该怎么办呢？

我们的答案也很明确：从“造坦克”转到“打闪电战”。

之前，领先的AI公司都聚焦于提升单体模型的能力，这就是典型的“造坦克”思维，看谁的钢板厚、火力猛。

可是，当坦克的性能提升遇到瓶颈，战争的胜负就取决于谁能打出闪电战。

正如二战初期，德军的坦克并非最强，但凭借无线电协同与空军的配合，就能快速突破防线，从而40多天击败法国。

未来AI领域的玩家也应该着力让多个模型和外部工具互相配合，构建出能产出可靠结果的系统。只有这样，人们才敢真正把重要工作交给它。

比如，随机出现的幻觉和错误虽然令人头疼，但OpenAI可以通过分级服务来解决。

对于关键任务，如关乎生死、财务等高风险问题，OpenAI完全在生成初步答案后，自动调用额外的验证Agent从多个角度对答案重新检查和补充几遍，再给出终审后的回答。这个过程确实会多耗费一些算力和时间，但可以大幅降低错误概率。

当然，届时OpenAI也就可以理直气壮地对“无幻觉服务”收费，比如200美元甚至2000美元一个月，或者一天几十美元。毕竟提供“可靠性”本身就是一种高价值的服务。

而在平时，用户只需每月支付20美元，就能满足日常所需。

这无疑会极大地提升用户AI依赖的程度，别忘了，对于把ChatGPT当成专家顾问的用户，每一次幻觉都是对OpenAI的可信度的伤害。

要打出闪电战，除了要转变思想，从单纯卖大模型技术变成卖可信赖的泛领域的专家顾问服务，速度也至关重要。

目前，OpenAI为了应对谷歌的竞争，已经决定在未来几周内收缩应用层面的投入，以求在核心技术层面实现突破。

可是，我们很怀疑这个决定的正确性。

在不脱离现有LLM架构的前提下，OpenAI真的能在几周内实现革命性突破吗？而且，如果多数用户要的是可信赖的AI顾问，模型性能提升真的能解决幻觉问题、进而解决信任问题吗？

同时，在这几周，如果OpenAI的竞争对手，比如一向标榜自己更真实、更可靠的Anthropic，率先推出无幻觉的专业服务，提前占据了市场心智，那么OpenAI辛苦积攒的高价值用户也就可能快速流失。要想再把这些用户抢回来，无疑又要付出高昂代价。

以上就是今天的内容，毫无疑问，未来是AI时代，而尽早开启孩子AI时代的进化之旅是掌握时代机遇的关键。也在此向各位家长推荐前哨AI冬令营。我们认为，最好的学习不是学理论，而是亲手实践。我们将通过一周的集训，让孩子能亲自上手完成一个真实的AI项目，从理解AI到驾驭AI，快快点击链接了解详情吧。【前哨AI冬令营】8-16岁必冲！玩转AI编程

更多科技产业的新趋势和底层规律，欢迎加入科技特训营学习，和我一起，先人一步，领先一路！

王煜全要闻评论，我们明天见。

原文链接：https://mp.weixin.qq.com/s/2jly6AtlUXXER2gx-pf70Q

文章版权归作者所有，未经允许请勿转载。

THE END