Protenix-v1发布：首个超越AlphaFold 3性能的开源结构预测模型-AI Express News

将 ScienceAI 设为星标

第一时间掌握

新鲜的 AI for Science 资讯

编辑丨@

在 AlphaFold 3 (AF3) 问世后，尽管开源社区迅速跟进（如 Chai-1, Protenix, Boltz-1 等），但在严格对齐训练数据和模型规模的前提下，开源模型与AF3之间始终存在着「性能鸿沟」。

近日，字节跳动 ByteDance Seed 团队发布了最新技术报告，推出了 Protenix-v1。这是一项里程碑式的工作：Protenix-v1 是首个在严格限制训练数据截止时间（2021 年 9 月 30 日）、模型参数量和推理预算的情况下，性能达到甚至超越 AlphaFold 3 的完全开源模型。

打破「复刻魔咒」：严格对齐下的 SOTA 性能

目前的开源复刻模型往往难以进行公平比较——有的使用了更多的数据，有的使用更多参数。为了证明开源模型与 AF3 之间不存在根本性的技术壁垒，Protenix-v1 采取了极其严格的对照实验设计：

数据截止时间严格锁定在 2021 年 9 月 30 日（与 AF3 一致）；
模型规模与推理预算完全对齐。

在这一「受控条件」下，Protenix-v1 在多个基准测试中表现强劲。

技术报告指出，现有的 FoldBench 基准存在数据覆盖不全和统计方差大的问题，导致跨模型比较不可靠。Protenix 团队构建了一个 FoldBench-Corrected 子集，确保所有模型在相同的样本交集上进行评估。

结果显示：在 FoldBench 修正集上，Protenix-v1 在蛋白质-蛋白质（Protein-Protein）和抗体-抗原（Ab-Ag）复合物预测上均优于 AlphaFold 3，同时大幅领先于 Chai-1、Boltz-1、Protenix-v0.5.0 等现有的开源模型。

图示：模型在样本交集上的评估结果。

关键突破：Inference-Time Scaling（推理时扩展）

Protenix-v1 最引人注目的特性之一，是其推理时 Scaling 行为。

在 LLM 领域，Scaling Law 已是共识。而在结构预测领域，AF3 曾展示过通过增加采样数量（seeds）来提升性能的特性，但此前的开源模型大多未能复现这一能力。

Protenix-v1 成功解锁了这一技能点。报告数据显示，随着采样预算从基线水平增加到数百个候选样本，Protenix-v1 的预测准确率呈现出一致的、近似对数线性的提升。

抗体-抗原复合物（Ab-Ag）预测是当下最有挑战的结构预测问题之一。当使用多个 seeds 进行推理时，Protenix-v1 的 DockQ 成功率从单 seed 的 36.01% 飙升至 42.92%，80 Seeds 时更达到 47.68%。这意味着，用户获得了一个可调节的「控制旋钮」：在计算成本和预测精度之间进行权衡，这对于药物发现等高价值场景至关重要。

双版本策略：学术对标 vs 实战应用

为了解决「学术复刻」与「实际应用」之间的矛盾，Protenix 采取了明智的双版本发布策略：

Protenix-v1 (标准版本)：

定位：学术基准对齐。
数据截止：和 Alphafold 3 对齐，2021 年 9 月 30 日。
作用：证明模型架构和算法的有效性，确保与 AF3 的公平比较。

Protenix-v1-20250630 (数据扩展版本)：

定位：真实世界应用（如药物发现）。
数据截止：2025 年 6 月 30 日，包含了最近几年发布的新结构。
优势：利用了最新的结构数据（包括 2022-2025 年发布的新靶点），在 PXM-2025H2 等新数据集上表现更佳，特别是在抗体-抗原任务上显著优于标准版本。

这一策略让研究人员既能验证算法，又能直接上手最新的模型处理当前的实际问题。

全面升级的新 feature

除了模型本身，Protenix-v1 还提供了有价值的新 feature：

蛋白质模板（Templates）：采用了类似 AF3 的策略，整合了模板信息，不仅提升了准确率，还使训练过程中的模型激活更加稳定。
支持RNA MSA：集成了 RNA 多序列比对，显著提升了 RNA 相关任务的表现。消融实验显示，移除 RNA MSA 会导致蛋白质-RNA 接口预测性能下降。

建立更充分、更透明的评估标准：PXMeter

针对当前生物分子结构预测领域基准测试（Benchmark）混乱、数据覆盖不一致等问题，Protenix 团队不仅发布了模型，还推出了一套完整的评估工具和数据集——PXMeter。

团队构建了按年份划分的测试集 PXM-2024 和 PXM-2025，可以用于评测模型在不同年度数据的表现。针对数据稀疏的抗体、小分子任务，构建了横跨 4 年的评测集 PXM-22to25-Antibody and PXM-22to25-Ligand。在这些更全面、数据量更大的测试集上，Protenix-v1 均展现出了优于 Chai-1 和 Boltz-1 的 SOTA 性能。

更多探索：Protenix-Mini 系列的「轻量级」突围

在追求极致精度的同时，Protenix 团队并没有忽视高通量场景的需求。他们之前发布的技术报告中还披露了在轻量化模型上的探索——Protenix-Mini 和 Protenix-Mini+。

针对需要极高推理速度的场景，Protenix-Mini 系列进行了大胆的架构瘦身：

极致轻量：通过精简模型结构和引入 Linear Attention（线性注意力机制），大幅降低了计算复杂度。
极速推理：在保持一定精度的前提下，实现了推理速度的质变，特别适合大规模筛选任务。
单序列推理：使用蛋白质语言模型替代 MSA 特征，避免了 MSA 搜索引入的巨大时间开销。
设计领域的「筛选器」：在蛋白质结合体（Binder）设计的验证中，Protenix-Mini 系列展现出了不俗的筛选能力（Filtering Capability）。

报告中的 Filter Results 显示，Protenix-Mini 系列在区分「结合」与「不结合」设计时的 AUC 分数甚至优于部分大模型。这意味着在 binder 设计筛选环节，研究人员可以利用 Mini 版本快速过滤海量候选序列，再用 Protenix-v1 进行精细验证，打出一套高效的「组合拳」。