受够了AI总是胡说八道,OpenAI让GPT变笨!但这才是对你负责

图片[1]-受够了AI总是胡说八道,OpenAI让GPT变笨!但这才是对你负责-AI Express News

抓住风口

本期要点:如何让AI值得依赖?靠更大的模型吗?

你好,我是王煜全,这里是王煜全要闻评论。

2025年终,AI行业出现了一个分裂状况,究竟是要追求“靠谱”,还是要显得“聪明”?
前段时间,在谷歌压力之下,OpenAI不仅亮起了所谓红色警报,还提前上线了GPT-5.2模型。
图片[2]-受够了AI总是胡说八道,OpenAI让GPT变笨!但这才是对你负责-AI Express News
可是,第三方评测结果显示,GPT-5.2并没有飞跃性的进步,甚至有的报告称GPT-5.2仍落后于Gemini 3 Pro。
更是有不少用户吐槽,GPT-5.2的回答变得冰冷生硬,甚至逻辑推理能力还有倒退的迹象。种种主观感受汇成一个结论,那就是GPT-5.2好像“降智”了。
被寄予厚望的GPT-5.2 怎么反而没那么聪明了?GPT-5.2滑铁卢的背后,其实反映出整个AI大模型产业撞到了一个隐形的天花板。
科研实验室 DeepMind,正转变为 AI 产品工厂 - 智源社区
2025年12月9日,谷歌DeepMind低调推出了FACTS基准测试套件 (FACTS Benchmark Suite),用科学的评估数据给所有大模型泼了一盆冷水:在基于长文档进行问答时,没有任何模型的事实准确率突破70%。
这意味着,即使你用着最昂贵的模型,还是有超过30%的概率接收到错误的、或者凭空捏造的信息。
在我们看来,当整个行业在疯狂堆叠算力与参数后仍无法突破瓶颈时,就意味着发展方式要从追求更大更强的模型,转向通过系统工程和商业模式的创新来突破准确率瓶颈,让AI真正变成值得依赖的伙伴。

炼金术
首先,我们认为,在靠谱面前,AI显得“没那么聪明”也无伤大雅。
现在的GPT-5.2,确实是问什么就回答什么,不再像以前那样乐于延展和调侃,给人一种刻板木讷的印象。初步使用谷歌Gemini模型的人,反而会觉得谷歌的模型充满灵气,似乎总能领悟到用户的弦外之音。
但这只是在大语言模型(LLM)架构进入平台期后,OpenAI和谷歌选择了不同的优化方向,而产生了不同的表现。
对于大部分人而言,不仅是GPT-5.2没有什么飞跃,GPT-5相比于OpenAI O3等之前的模型也并没有什么显著变化。同样,在日常使用中,又有多少人能清晰区分Gemini 3和Gemini 2.5的差异呢?
OpenAI董事会商讨让奥特曼回归,奥特曼开始推销新公司—新闻—科学网
但长期用户一定能感到一个普遍的问题,所有大模型都时常会一本正经的胡说八道。
其实,DeepMind去年12月发布的《FACTS Grounding》基准测试报告就已经指出,没有一个大模型的事实准确率能超过70%。也就是说,一年过去了,幻觉问题没有得到显著改善。
归根结底,这是LLM本身的局限使然,从底层原理上讲,LLM就是下一个Token的预测器。它通过海量文本学会了在特定上下文的后面接哪个词的概率最高,从而“猜”出看似合理的回答,但并不真正理解事实与其中的逻辑。
这就像古代的炼金术士,能凭经验炼出闪亮的产物,却无法保证每次产物的质量。而现代社会需要的,是基于严谨的化学原理,在严格的环境下,能重复生产出的可靠产品。
因此,不管给AI喂多少数据、增加多少参数,它都可能被无关信息干扰,幻觉概率难以根本性地下降。哪怕GPT-6、GPT-7出来了,出错的问题还是会存在。

靠谱更重要
这时,AI公司就必须做出选择,究竟是要让AI成为玩具、还是工具。
新用户可能觉得,充满想象力、不断制造惊喜的AI会更好玩。
当年GPT-4o就是妙语连珠、侃侃而谈,OpenAI的o1模型也会耍小聪明,尽力满足用户的各种要求。
但金融、法律、医疗等领域的专业用户一定更看重AI的可信赖程度。
举个最简单的例子,当生病的用户拿着一堆检验报告来问AI时,他们一定不希望AI在那天马行空的推理、或充满发散思维的抖机灵,而是要AI给他们最严谨、最可靠的答案。
对于企业而言,70%的可靠性更是难以托付重任。对内发错一笔工资,对外签错一个合同,都是实实在在的损失。
所以,OpenAI把模型优化方向定位为更加严谨、减少幻觉,从而打开模型的商业化前景,也就不难理解了。但单纯模型优化并不能解决幻觉问题,看来OpenAI还是没能理解自己的真正优势是AI顾问,幻觉问题是建立信任的最大障碍。
此前我们就曾指出,既然OpenAI已经拥有了数亿用户,就应该更进一步培养用户的“AI依赖”—— 任何拿不准的问题都习惯于问一下AI,让ChatGPT成为用户的AI顾问。
一旦用户建立起这种依赖,就很难被其他产品抢走。

闪电战
那么,更关键的问题来了,既然更大的模型不再等于更可靠,又该怎么办呢?
我们的答案也很明确:从“造坦克”转到“打闪电战”。
之前,领先的AI公司都聚焦于提升单体模型的能力,这就是典型的“造坦克”思维,看谁的钢板厚、火力猛。
可是,当坦克的性能提升遇到瓶颈,战争的胜负就取决于谁能打出闪电战。
正如二战初期,德军的坦克并非最强,但凭借无线电协同与空军的配合,就能快速突破防线,从而40多天击败法国。
“没有奥特曼,OpenAI不值钱”_凤凰网
未来AI领域的玩家也应该着力让多个模型和外部工具互相配合,构建出能产出可靠结果的系统。只有这样,人们才敢真正把重要工作交给它。
比如,随机出现的幻觉和错误虽然令人头疼,但OpenAI可以通过分级服务来解决。
对于关键任务,如关乎生死、财务等高风险问题,OpenAI完全在生成初步答案后,自动调用额外的验证Agent从多个角度对答案重新检查和补充几遍,再给出终审后的回答。这个过程确实会多耗费一些算力和时间,但可以大幅降低错误概率。
当然,届时OpenAI也就可以理直气壮地对“无幻觉服务”收费,比如200美元甚至2000美元一个月,或者一天几十美元。毕竟提供“可靠性”本身就是一种高价值的服务。
而在平时,用户只需每月支付20美元,就能满足日常所需。
这无疑会极大地提升用户AI依赖的程度,别忘了,对于把ChatGPT当成专家顾问的用户,每一次幻觉都是对OpenAI的可信度的伤害。
要打出闪电战,除了要转变思想,从单纯卖大模型技术变成卖可信赖的泛领域的专家顾问服务,速度也至关重要。
目前,OpenAI为了应对谷歌的竞争,已经决定在未来几周内收缩应用层面的投入,以求在核心技术层面实现突破。
可是,我们很怀疑这个决定的正确性。
在不脱离现有LLM架构的前提下,OpenAI真的能在几周内实现革命性突破吗?而且,如果多数用户要的是可信赖的AI顾问,模型性能提升真的能解决幻觉问题、进而解决信任问题吗?
同时,在这几周,如果OpenAI的竞争对手,比如一向标榜自己更真实、更可靠的Anthropic,率先推出无幻觉的专业服务,提前占据了市场心智,那么OpenAI辛苦积攒的高价值用户也就可能快速流失。要想再把这些用户抢回来,无疑又要付出高昂代价。
以上就是今天的内容,毫无疑问,未来是AI时代,而尽早开启孩子AI时代的进化之旅是掌握时代机遇的关键。也在此向各位家长推荐前哨AI冬令营。我们认为,最好的学习不是学理论,而是亲手实践。我们将通过一周的集训,让孩子能亲自上手完成一个真实的AI项目,从理解AI到驾驭AI,快快点击链接了解详情吧。【前哨AI冬令营】8-16岁必冲!玩转AI编程
更多科技产业的新趋势和底层规律,欢迎加入科技特训营学习,和我一起,先人一步,领先一路!
王煜全要闻评论,我们明天见。
原文链接:https://mp.weixin.qq.com/s/2jly6AtlUXXER2gx-pf70Q
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容