超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold


图片[1]-超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold-AI Express News

编辑丨coisini

高精度生物分子结构预测对于结构生物学和药物发现至关重要,而构建基础模型最核心的环节之一在于确定模型规模化的技术方案。

折叠模型利用先验知识,在广泛的应用中展现出多功能性,包括结构生成、结合物设计、构象采样等等。已有一些研究工作尝试探索折叠模型的规模化特性,但大多数折叠模型仍遵循 AlphaFold 的基本配置。

最近,来自字节跳动 Seed 的研究团队提出了种子折叠模型 ——SeedFold,该模型成功实现了模型容量的规模化扩展。

图片[2]-超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold-AI Express News

论文地址:https://arxiv.org/abs/2512.24354

SeedFold 通过宽度扩展和大规模数据蒸馏来提升模型容量。该研究还推出了 SeedFold-Linear—— 一种采用线性三角注意力机制的高效变体。两种模型在 FoldBench 基准测试中均取得 SOTA 结果,在多数蛋白质相关任务上超越了 AlphaFold3。

SeedFold

SeedFold 采用 AlphaFold3 的架构,并针对大规模扩展进行了关键改进。SeedFold 的创新主要体现在三个方面:

  • 首先,针对 Pairformer 提出有效的宽度扩展策略,以提升其表征能力;

  • 其次,引入一种创新的线性三角注意力机制,通过降低计算复杂度实现了高效规模化;

  • 最后,构建了大规模蒸馏数据集,显著扩充了训练样本规模。

模型规模化 该研究从三个选项(加深 Pairformer 模块深度 [48 层→96 层]、加深 Structure 模块深度 [24 层→48 层]、拓宽 Pairformer 模块宽度 [128 维→256 维→384 维→512 维])中,确定了控制模型规模扩展的关键因素。实验表明,折叠模型中的模块深度已足以支持潜在空间推理,而模型容量主要受限于配对表征的隐藏维度(128 维)。

图片[3]-超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold-AI Express News
图片[4]-超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold-AI Express News

线性三角注意力 通过检查 AlphaFold3 的各个组成部分,该研究识别出计算瓶颈 ——Pairformer 中的三角运算。三角运算的计算复杂度随蛋白质序列长度呈三次方增长,消耗大量时间和内存。研究团队因此提出用线性注意力替代基于 softmax 的三角注意力,从而将复杂度从三次方降至二次方。

图片[5]-超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold-AI Express News

大规模数据蒸馏 具有高质量和多样性的大规模数据集是深度学习模型成功的关键要素。然而,实验确定的蛋白质结构数量仍然有限。该研究构建了一个源自 AlphaFold2 的大规模数据集,包含 2650 万个样本,相比实验结构数据,训练数据规模扩大了 147 倍。

图片[6]-超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold-AI Express News

实验评估

为了评估 SeedFold 的性能,该研究在 FoldBench 上进行了综合评估,将 SeedFold 与 AlphaFold 3、Boltz-1、Protenix 和 Chai-1 等最新方法进行了比较。

图片[7]-超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold-AI Express News

结果显示,在所有评估指标上,SeedFold 均超越了现有开源模型。值得注意的是,SeedFold 和 SeedFold-Linear 展现出不同的学习特性:尽管两者在单体蛋白质和蛋白质 - 蛋白质复合物任务上都超越了 AlphaFold3,但它们的优势表现具有任务特异性。

图片[8]-超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold-AI Express News

SeedFold 在抗体 - 抗原相互作用预测中表现优于 AlphaFold3,而 SeedFold-Linear 则在蛋白质 - 配体相互作用预测中表现突出。这一发现凸显了结合异构注意力机制对于优化特定应用场景模型性能的重要价值。

图片[9]-超越AlphaFold3,实现模型容量的规模化扩展,字节提出分子结构预测模型SeedFold-AI Express News

感兴趣的读者可以阅读论文原文,了解更多研究内容。

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

点击读原文,加入专业从业者社区,以获得更多交流合作机会及服务。

<原文链接:https://mp.weixin.qq.com/s/Iyffa-O1G0eVEEipa5DXFw

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
ScienceAI的头像-AI Express News
评论 抢沙发

请登录后发表评论

    暂无评论内容