OpenAI 发 GPT-4.1:性能暴涨,支持 100 万 tokens 上下文

39次阅读
没有评论

共计 2462 个字符,预计需要花费 7 分钟才能阅读完成。

【本文要点】
OpenAI 于今天凌晨发布了最新模型 GPT-4.1 及其子型号 GPT 4.1-Mini 和 GPT 4.1-Nano,显著提升了多模态处理、代码能力、指令遵循和成本效益,尤其支持 100 万 tokens 上下文,适用于金融分析、小说写作等领域。GPT-4.1 在多项测试中表现优异,能够准确处理长文本、复杂对话、编程任务和多语言编码,准确率和效率均显著高于前代模型 GPT-4o,同时价格更具竞争力。此外,多个实际案例显示 GPT-4.1 在法律文件审查和金融数据提取等领域的优越性能。


【正文】


今天凌晨 1 点,OpenAI 进行了技术直播发布了最新模型——GPT-4.1。除了 GPT-4.1 之外,还有 GPT 4.1-Mini 和 GPT 4.1-Nano 两款模型,在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持 100 万 token 上下文,这对于金融分析、小说写作、教育等领域帮助巨大。

由于 GPT-4.1 的发布,OpenAI 宣布将会淘汰刚发布不久的 GPT-4.5,其能力可见一斑。

目前,如果想体验 GPT-4.1 而无法通过 API 身份验证的小伙伴,微软已经在 Azure OpenAI 上线了该模型,可以使用了。

OpenAI 发 GPT-4.1:性能暴涨,支持 100 万 tokens 上下文


GPT-4.1 简单介绍


GPT-4.1 最大亮点之一就是支持 100 万 tokens 上下文,这也是 OpenAI 首次发布长窗口模型。

与前代模型相比,GPT-4.1、GPT-4.1 Mini 和 GPT-4.1 Nano 能够处理多达 100 万 tokens 的上下文,是 GPT-4o 的 8 倍。

OpenAI 在 Long Context Evals 上对长文本进行了测试,测试结果显示,GPT-4.1 系列的三个模型均能够在语料库的任何深度找到目标文本,无论是开头、中间还是结尾,甚至在长达 100 万 tokens 的上下文中,模型依然能够准确地定位目标文本。

OpenAI 发 GPT-4.1:性能暴涨,支持 100 万 tokens 上下文


OpenAI 还在 Multi-Round Coreference 进行了测试,通过创建合成对话来测试模型在长上下文中的理解和推理能力。在这些对话中,用户和助手交替进行对话,用户可能会要求模型生成一首关于某个主题的诗,接着要求生成另一首关于不同主题的诗,然后可能要求生成一个关于第三个主题的短故事。模型需要在这些复杂的对话中找到特定的内容,例如“第二篇关于某个主题的短故事”。

测试结果显示,GPT-4.1 在处理长达 128K tokens 的数据时显著优于 GPT-4o,并且在长达 100 万 tokens 的上下文中依然能够保持较高的性能。

OpenAI 发 GPT-4.1:性能暴涨,支持 100 万 tokens 上下文


在编码能力测试中,SWEBench 评估将模型置于 Python 代码库环境,让其探索代码库、编写代码和测试用例。结果显示,GPT-4.1 的准确率达到 55%,而 GPT-4o 仅为 33%。

OpenAI 发 GPT-4.1:性能暴涨,支持 100 万 tokens 上下文


在多语言编码能力测试方面,Ader polyglot 基准测试涵盖多种编程语言和不同格式要求。GPT-4.1 在差异性能上较 GPT-4o 提升一倍,在处理多语言编程任务、代码优化和版本管理时更高效。

在指令遵循能力测试中,OpenAI 构建内部评估体系,模拟 API 开发者使用场景,测试模型对复杂指令的遵循能力。每个样本包含分属不同类别的复杂指令,并分难度等级。在困难子集评估中,GPT-4.1 远超 GPT-4o。

OpenAI 发 GPT-4.1:性能暴涨,支持 100 万 tokens 上下文


在多模态处理测试的视频 MME 基准测试中,GPT 4.1 对 30 - 60 分钟无字幕视频进行理解并回答多项选择题,取得 72% 的成绩,达到当前最佳水平,在视频内容理解上实现重大突破。

OpenAI 发 GPT-4.1:性能暴涨,支持 100 万 tokens 上下文

价格方面,GPT -4.1 系列在性能提升的同时,价格更具竞争力。GPT -4.1 相比 GPT-4o 价格降低 26%,而 GPT -4.1 Nano 作为最小、最快且最便宜的模型,每百万 token 的成本仅为 12 美分。

实际应用 GPT-4.1 案例

汤森路透是全球领先的金融和法律信息提供商,其专业级 AI 助手 CoCounsel 被广泛应用于法律工作。

CoCounsel 的主要任务是帮助法律专业人士处理复杂的法律文件和工作流程。在测试 GPT-4.1 时,路透社发现该模型在多文档审查方面表现出色,尤其是在处理涉及多个长文档的复杂法律工作流程时。

与 GPT-4o 相比,GPT-4.1 在内部长上下文基准测试中的多文档审查准确性提高了 17%。这一提升对于法律专业人士来说至关重要,因为它直接关系到 CoCounsel 处理复杂法律工作流程的能力。

OpenAI 发 GPT-4.1:性能暴涨,支持 100 万 tokens 上下文


法律文件通常包含多个长文档,这些文档之间可能存在复杂的相互关系,例如冲突条款或补充上下文。GPT-4.1 在这些方面表现出了极高的可靠性,能够准确识别文档之间的细微关系,这对于法律分析和决策至关重要。

而在处理多个法律文件时,GPT-4.1 能够有效地维护跨文档的上下文信息,并准确识别出文档之间的冲突条款或补充信息。这

Carlyle 是一家全球领先的私募股权投资公司,其业务涉及大量的金融数据分析和文档处理。Carlyle 使用 GPT-4.1 来从多个长文档中准确提取颗粒化的金融数据,这些文档包括 PDF 文件、Excel 表格和其他复杂格式。

Carlyle 的内部评估显示,GPT-4.1 在从大型文档中检索数据方面的表现比其他可用模型高出 50%。

GPT-4.1 在处理非常大的文档时表现出色,尤其是在密集数据的检索方面。该模型成功克服了其他模型的关键限制,包括检索问题、中间位置丢失信息的错误以及跨文档的多跳推理。

这些能力使得 GPT-4.1 能够更高效地从复杂的金融文档中提取关键信息,为 Carlyle 的分析师提供了更准确、更全面的数据支持。

OpenAI 发 GPT-4.1:性能暴涨,支持 100 万 tokens 上下文


Windsurf 是一家专注于提供高效开发工具的公司,其内部编码基准测试为评估 AI 模型在实际开发中的表现提供了一个重要的参考。在对 GPT-4.1 进行测试时,Windsurf 发现该模型在编码任务中的表现比前代 GPT-4o 有了显著提升:GPT-4.1 在 Windsurf 的内部编码基准测试中得分比 GPT-4o 高出 60%。

Windsurf 的用户反馈显示,GPT-4.1 在工具调用方面比 GPT-4o 更高效,效率提升了 30%。GPT-4.1 在编码过程中重复进行不必要的编辑或过度细化的步骤的可能性比 GPT-4o 降低了约 50%。


【新闻来源】

正文完
 0
评论(没有评论)