受够了AI总是胡说八道,OpenAI让GPT变笨!但这才是对你负责全球风口29天前更新关注私信02515 抓住风口 本期要点:如何让AI值得依赖?靠更大的模型吗? 你好,我是王煜全,这里是王煜全要闻评论。 2025年终,AI行业出现了一个分裂状况,究竟是要追求“靠谱”,还是要显得“聪明”? 前段时间,在谷歌压力之下,OpenAI不仅亮起了所谓红色警报,还提前上线了GPT-5.2模型。 可是,第三方评测结果显示,GPT-5.2并没有飞跃性的进步,甚至有的报告称GPT-5.2仍落后于Gemini 3 Pro。 更是有不少用户吐槽,GPT-5.2的回答变得冰冷生硬,甚至逻辑推理能力还有倒退的迹象。种种主观感受汇成一个结论,那就是GPT-5.2好像“降智”了。 被寄予厚望的GPT-5.2 怎么反而没那么聪明了?GPT-5.2滑铁卢的背后,其实反映出整个AI大模型产业撞到了一个隐形的天花板。 2025年12月9日,谷歌DeepMind低调推出了FACTS基准测试套件 (FACTS Benchmark Suite),用科学的评估数据给所有大模型泼了一盆冷水:在基于长文档进行问答时,没有任何模型的事实准确率突破70%。 这意味着,即使你用着最昂贵的模型,还是有超过30%的概率接收到错误的、或者凭空捏造的信息。 在我们看来,当整个行业在疯狂堆叠算力与参数后仍无法突破瓶颈时,就意味着发展方式要从追求更大更强的模型,转向通过系统工程和商业模式的创新来突破准确率瓶颈,让AI真正变成值得依赖的伙伴。 炼金术 首先,我们认为,在靠谱面前,AI显得“没那么聪明”也无伤大雅。 现在的GPT-5.2,确实是问什么就回答什么,不再像以前那样乐于延展和调侃,给人一种刻板木讷的印象。初步使用谷歌Gemini模型的人,反而会觉得谷歌的模型充满灵气,似乎总能领悟到用户的弦外之音。 但这只是在大语言模型(LLM)架构进入平台期后,OpenAI和谷歌选择了不同的优化方向,而产生了不同的表现。 对于大部分人而言,不仅是GPT-5.2没有什么飞跃,GPT-5相比于OpenAI O3等之前的模型也并没有什么显著变化。同样,在日常使用中,又有多少人能清晰区分Gemini 3和Gemini 2.5的差异呢? 但长期用户一定能感到一个普遍的问题,所有大模型都时常会一本正经的胡说八道。 其实,DeepMind去年12月发布的《FACTS Grounding》基准测试报告就已经指出,没有一个大模型的事实准确率能超过70%。也就是说,一年过去了,幻觉问题没有得到显著改善。 归根结底,这是LLM本身的局限使然,从底层原理上讲,LLM就是下一个Token的预测器。它通过海量文本学会了在特定上下文的后面接哪个词的概率最高,从而“猜”出看似合理的回答,但并不真正理解事实与其中的逻辑。 这就像古代的炼金术士,能凭经验炼出闪亮的产物,却无法保证每次产物的质量。而现代社会需要的,是基于严谨的化学原理,在严格的环境下,能重复生产出的可靠产品。 因此,不管给AI喂多少数据、增加多少参数,它都可能被无关信息干扰,幻觉概率难以根本性地下降。哪怕GPT-6、GPT-7出来了,出错的问题还是会存在。 靠谱更重要 这时,AI公司就必须做出选择,究竟是要让AI成为玩具、还是工具。 新用户可能觉得,充满想象力、不断制造惊喜的AI会更好玩。 当年GPT-4o就是妙语连珠、侃侃而谈,OpenAI的o1模型也会耍小聪明,尽力满足用户的各种要求。 但金融、法律、医疗等领域的专业用户一定更看重AI的可信赖程度。 举个最简单的例子,当生病的用户拿着一堆检验报告来问AI时,他们一定不希望AI在那天马行空的推理、或充满发散思维的抖机灵,而是要AI给他们最严谨、最可靠的答案。 对于企业而言,70%的可靠性更是难以托付重任。对内发错一笔工资,对外签错一个合同,都是实实在在的损失。 所以,OpenAI把模型优化方向定位为更加严谨、减少幻觉,从而打开模型的商业化前景,也就不难理解了。但单纯模型优化并不能解决幻觉问题,看来OpenAI还是没能理解自己的真正优势是AI顾问,幻觉问题是建立信任的最大障碍。 此前我们就曾指出,既然OpenAI已经拥有了数亿用户,就应该更进一步培养用户的“AI依赖”—— 任何拿不准的问题都习惯于问一下AI,让ChatGPT成为用户的AI顾问。 一旦用户建立起这种依赖,就很难被其他产品抢走。 闪电战 那么,更关键的问题来了,既然更大的模型不再等于更可靠,又该怎么办呢? 我们的答案也很明确:从“造坦克”转到“打闪电战”。 之前,领先的AI公司都聚焦于提升单体模型的能力,这就是典型的“造坦克”思维,看谁的钢板厚、火力猛。 可是,当坦克的性能提升遇到瓶颈,战争的胜负就取决于谁能打出闪电战。 正如二战初期,德军的坦克并非最强,但凭借无线电协同与空军的配合,就能快速突破防线,从而40多天击败法国。 未来AI领域的玩家也应该着力让多个模型和外部工具互相配合,构建出能产出可靠结果的系统。只有这样,人们才敢真正把重要工作交给它。 比如,随机出现的幻觉和错误虽然令人头疼,但OpenAI可以通过分级服务来解决。 对于关键任务,如关乎生死、财务等高风险问题,OpenAI完全在生成初步答案后,自动调用额外的验证Agent从多个角度对答案重新检查和补充几遍,再给出终审后的回答。这个过程确实会多耗费一些算力和时间,但可以大幅降低错误概率。 当然,届时OpenAI也就可以理直气壮地对“无幻觉服务”收费,比如200美元甚至2000美元一个月,或者一天几十美元。毕竟提供“可靠性”本身就是一种高价值的服务。 而在平时,用户只需每月支付20美元,就能满足日常所需。 这无疑会极大地提升用户AI依赖的程度,别忘了,对于把ChatGPT当成专家顾问的用户,每一次幻觉都是对OpenAI的可信度的伤害。 要打出闪电战,除了要转变思想,从单纯卖大模型技术变成卖可信赖的泛领域的专家顾问服务,速度也至关重要。 目前,OpenAI为了应对谷歌的竞争,已经决定在未来几周内收缩应用层面的投入,以求在核心技术层面实现突破。 可是,我们很怀疑这个决定的正确性。 在不脱离现有LLM架构的前提下,OpenAI真的能在几周内实现革命性突破吗?而且,如果多数用户要的是可信赖的AI顾问,模型性能提升真的能解决幻觉问题、进而解决信任问题吗? 同时,在这几周,如果OpenAI的竞争对手,比如一向标榜自己更真实、更可靠的Anthropic,率先推出无幻觉的专业服务,提前占据了市场心智,那么OpenAI辛苦积攒的高价值用户也就可能快速流失。要想再把这些用户抢回来,无疑又要付出高昂代价。 以上就是今天的内容,毫无疑问,未来是AI时代,而尽早开启孩子AI时代的进化之旅是掌握时代机遇的关键。也在此向各位家长推荐前哨AI冬令营。我们认为,最好的学习不是学理论,而是亲手实践。我们将通过一周的集训,让孩子能亲自上手完成一个真实的AI项目,从理解AI到驾驭AI,快快点击链接了解详情吧。【前哨AI冬令营】8-16岁必冲!玩转AI编程 更多科技产业的新趋势和底层规律,欢迎加入科技特训营学习,和我一起,先人一步,领先一路! 王煜全要闻评论,我们明天见。 原文链接:https://mp.weixin.qq.com/s/2jly6AtlUXXER2gx-pf70Q © 版权声明文章版权归作者所有,未经允许请勿转载。THE ENDAI 资讯 喜欢就支持一下吧点赞15 分享QQ空间微博QQ好友海报分享复制链接收藏
暂无评论内容