通用「AI科学家」来了?Meta发布训练新范式

人工智能科学家(AI scientist)迎来新突破——

Meta 团队及其合作者共同打造了一个不仅擅长实验执行、还精通「研究计划设计」的 AI co-scientist。

当前语言模型(LLM) 科研辅助能力仍停留在数学、代码和文献检索等结果易验证的任务上,难以应对科学研究中高度抽象、开放式的问题。

[哇]

Meta 的这一研究有效解决了这一难题,即在给定研究目标的前提下,AI co-scientist 即可生成高质量的研究计划。

这样一来,研究重心从构建昂贵且高度定制化的试错执行环境,转向为多样化研究目标生成合理、可行的研究方案,由人类研究者在实施前进行完善。

1. 训练方法

研究人员利用 LLM 从论文中自动抽取训练数据。具体而言,对于每一篇论文,研究人员提取两个关键要素:

1️⃣ 一个开放式的研究目标,聚焦论文中的核心洞见,并包含文中明确提出的约束条件与偏好;
2️⃣ 一组目标特定的评分细则,基于论文的完整上下文,总结出一份有效研究计划必须满足的关键要求与特征。

模型采用强化学习(RL)进行优化。冻结初始模型作为评审者,利用目标特定评分细则这一特权信息对生成的研究计划进行评分,在无需人工标注的情况下引导模型满足细粒度、目标特定的研究要求。

2. 实验结果

实验表明,在 70% 的研究目标上,专家更青睐采用该训练方法后 LLM 生成的研究计划。

为评估方法的通用性,研究人员还将其扩展至医学论文中。结果表明,该训练方法带来了 12%-22% 的相对性能提升,并展现出强大的跨领域泛化能力,即使在医学研究等无法获得执行反馈的场景中依然有效。

[强]

这些发现表明,一种可扩展、自动化的训练范式有望成为提升通用 AI 协同科学家能力的重要一步。

然而,实验主要依赖专家偏好与模型评审进行评估,未进行实际执行验证,人工评估也仅覆盖单一领域。

[让我看看]

未来,研究者们可探索更高效、客观的评估方式,并将评分细则中蕴含的结构化语言反馈更深入地纳入训练,进一步提升模型的研究规划能力及其在更广泛规划任务中的泛化性。

图片[4]-通用「AI科学家」来了?Meta发布训练新范式-AI Express News
图片[5]-通用「AI科学家」来了?Meta发布训练新范式-AI Express News
图片[6]-通用「AI科学家」来了?Meta发布训练新范式-AI Express News
图片[7]-通用「AI科学家」来了?Meta发布训练新范式-AI Express News
图片[8]-通用「AI科学家」来了?Meta发布训练新范式-AI Express News
图片[9]-通用「AI科学家」来了?Meta发布训练新范式-AI Express News
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容