Karpathy深夜炸场：开源630行代码“AI研究员”，5分钟完成一次训练，单卡就能跑，自我进化-AI Express News

↑阅读之前记得关注+星标⭐️，😄，每天才能第一时间接收到更新

曾几何时，前沿AI研究还靠着一群"碳水化合物计算机"——他们在吃饭睡觉摸鱼的间隙，偶尔通过"组会"仪式用声波互相吼两嗓子，就这么推进着人类的技术边界。那个年代已经一去不返。如今，研究完全被AI智能体接管，它们成群结队地在云端巨型计算集群里狂奔。据说代码已经迭代到了第10205代，但这数字真伪已无从考证——那些代码早已进化为能自我修改的二进制生命，远远超出了人类的认知范畴。这个代码仓库，正是这一切故事的起点。——@karpathy，2026年3月

以上是Karpathy为新项目撰写的序言。

就在刚刚，AI大神Andrej Karpathy发布并开源了一个名为autoresearch的新项目，一句话来说Karpathy开源了一个自主AI研究员，它会在你睡觉的时候运行100个实验，任何人只要拥有一块GPU，就能在一夜之间运行一个研究实验室，虽然这是为自我进化LLM设计的，但这个框架可以应用于任何领域。1. Agent读取上下文和先前结果2. 提出有针对性的代码修改建议3. 进行快速、可重复的实验4. 获得客观的标量分数5. 只提交获胜的更改（或回滚）6. 在特性分支上无限重复

这个项目的核心想法很简单：给AI Agent一个虽小但真实的LLM训练环境，让它通宵达旦地自主进行实验研究

人类的新工作是编写一个提示（Prompt），用来指导Agent如何去思考和进行研究。

这个Agent会彻夜不休地循环执行以下任务：编辑代码、训练一个小型语言模型（每次精确到五分钟）、检查得分、根据结果决定保留还是放弃，整个过程完全无需人工干预。

5分钟是真正的精妙之处。这个设计有两个好处：首先，无论AI代理如何修改模型大小、批量大小或架构，实验结果都可以直接比较。其次，这意味着自主研究将在固定的时间预算内，为你的特定平台找到最优的模型。其缺点是，你的运行结果将无法与其他人在不同计算平台上得到的结果进行比较

具体来说是这样的：

他将这个项目打包成一个独立的迷你代码库，方便大家上手体验。

这个项目本质上是nanochat大模型训练核心的精简版，被压缩成一个约630行的单文件代码，并且能在单GPU上运行。

整个代码库被刻意设计得非常小巧，核心只有三个文件：

1. prepare.py - 这个文件包含固定的常量、一次性的数据准备工作（如下载训练数据、训练BPE分词器）以及运行时工具（如数据加载器和评估）。此文件不会被修改。
2. train.py - 这是AI Agent唯一会编辑的文件。它包含了完整的GPT模型、优化器（Muon + AdamW）和训练循环。从模型架构、超参数、优化器到批量大小，一切都可以被AI修改。
3. program.md - 这是为单个AI代理准备的基线指令。人类研究员通过编辑和迭代这个文件来指导AI。

项目的核心机制是，无论你的计算平台性能如何，单次训练的运行时长都固定为5分钟（不包括启动和编译时间）。评估指标是val_bpb，即每字节的验证比特数，这个指标越低越好。由于它与词汇表大小无关，因此可以公平地比较不同模型架构的变更效果。

项目的核心工作流分为两个部分：

• 人类负责迭代提示词，即.md文件。
• AI智能体则负责迭代训练代码，即.py文件。

Karpathy指出，该项目的目标是设计出能够无限期、无需任何人工干预，并以最快速度取得研究进展的AI智能体。

在实际运行中，智能体在一个Git的特性分支上自主循环工作。每一次完整的模型训练运行恰好持续5分钟，在Karpathy分享的图片中，每一个点都代表一次这样的训练。

当智能体发现能让验证损失更低的更好配置时，比如调整神经网络架构、优化器或各项超参数，它就会将这些改进以Git提交的形式累积到训练脚本中。

通过这种方式，研究人员可以比较不同提示词或不同智能体带来的研究进展速度。

Karpathy本人形容这个项目是代码、科幻和一丝疯狂的结合体。

他还透露，自己仍在nanochat的生产环境中运行一个规模更大的版本。这个加强版智能体正在一个更大的模型上工作，并部署在8块H100 GPU上。Karpathy表示他会一直让这个系统持续运行下去。

除了PyTorch和少数几个小包外，没有其他外部依赖。没有分布式训练，没有复杂的配置文件。一块GPU，一个文件，一个指标，构成了整个实验环境。

项目地址：
https://github.com/karpathy/autoresearch

快速上手指南

环境要求：一块英伟达GPU（已在H100上测试），Python 3.10+，以及uv包管理器。

第一步：安装uv项目管理器（如果尚未安装）

curl -LsSf https://astral.sh/uv/install.sh | sh

第二步：安装依赖

uv sync

第三步：下载数据并训练分词器（一次性操作，约2分钟）

uv run prepare.py

第四步：手动运行一次训练实验（约5分钟）

uv run train.py

如果以上命令都能正常工作，说明你的环境已经准备就绪，可以进入自主研究模式了。

如何运行AI代理

你只需在这个代码仓库中启动你选择的AI代理，例如Claude或Codex（并禁用所有权限），然后可以发出类似这样的指令：

你好，请看一下program.md文件，我们来启动一个新的实验吧！先从设置开始。

这个program.md文件本质上是一种超轻量级的技能指令。

平台支持

目前，该项目代码要求使用单块英伟达GPU。虽然原则上可以支持CPU、MPS等其他平台，但这会增加代码的复杂性。Karpathy表示，他目前不确定是否会亲自进行这方面的扩展。

这个项目主要是一个概念演示，未来会提供多少支持还是未知数。如果需要更广泛的平台支持，用户或其AI代理可以参考父项目nanochat，那里展示了各种解决方案，如Flash Attention 3的备用内核实现、通用设备支持和自动检测等。

--end--

最后记得⭐️我，每天都在更新：如果觉得文章还不错的话可以点赞转发推荐评论

/...@作者：花不玩

<原文链接：https://mp.weixin.qq.com/s/-8crktVMYow2W1hLf8-rOA

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

Karpathy深夜炸场：开源630行代码“AI研究员”，5分钟完成一次训练，单卡就能跑，自我进化

具体来说是这样的：

快速上手指南

如何运行AI代理

平台支持

请登录后发表评论