养只龙虾做科研？一句话自动跑实验写LaTeX，同行评审都包了-AI Express News

一行指令，全自动查文献、跑实验并交付论文初稿。

前两天分享的 ARIS 让大家看到了让 AI 自动调代码跑实验的潜力，效果确实惊艳。

今天来看个更进阶的：发一条消息，收一篇完整论文。

相较于单纯依赖大模型生成文本的轻量级方案，它把整个流程做成了真正的软件工程。

它会去 arXiv 搜几十篇文献，在本地 docker 沙箱里写代码跑实验，并且每一条引用都去数据库里逐一核验。

最绝的是，动手前系统里的三个大模型视角会先自己吵一架。一个疯狂输出 idea，一个排查本地 GPU 算力够不够，另一个专门挑刺找假设的漏洞。

吵完了，自己写代码，自己跑。遇到报错？自己看日志修 bug。发现方向全错了？自己推翻假设重来。全程不用人管。

跑完直接输出一篇初稿，连同行评审都包了。虽然在 deadline 前还是需要你亲自肝一肝终稿，但这起步的几周时间已经省下了。

为了把门槛降到最低，它还原生接入了 OpenClaw，你只需要在聊天框里发一句话就行。

这个项目就是 AutoResearchClaw。

图片[3]-养只龙虾做科研？一句话自动跑实验写LaTeX，同行评审都包了-AI Express News

运行结束后，系统会直接打包交付一个 deliverables/ 文件夹。

里面不仅包含了结构化的实验指标和对比图表，连最终的排版都直接对标了 NeurIPS / ICLR / ICML 格式的 5000-6500 词标准，可以说是完全的开箱即用：

项目地址：

https://github.com/aiming-lab/AutoResearchClaw

它可以通过简短的一行指令直接唤起，接收灵感并输出包含实验数据和会议排版的完整成果。

pip install -e . && researchclaw run --topic "你的研究想法" --auto-approve

有什么不同？

PIVOT / REFINE 决策循环

流水线不只是线性运行。第 15 阶段（RESEARCH_DECISION）根据实验结果评估假设，做出自主决策：

PROCEED — 结果支持假设，继续写论文
REFINE — 结果有前景但需改进，回到代码/参数优化
PIVOT— 发现根本性问题，从假设生成重新开始

每次 PIVOT/REFINE 都会版本化之前的产物（stage-08_v1/、stage-08_v2/……），确保工作不丢失，决策演化完全可追溯。

多 Agent 辩论

关键阶段使用结构化辩论协议，汇集多个 LLM 视角：

假设生成 — 多个 Agent 提出和挑战创意
结果分析 — 乐观者、怀疑者、实用者多角度分析
同行评审 — 方法论-证据一致性审查（论文声称跑了 50 次实验，代码只跑了 5 次？）

Evolution：跨运行自学习

每次运行提取细粒度教训——不只是"失败了"，而是为什么：

PIVOT/REFINE 决策的具体理由
实验 stderr 中的运行时警告（如 RuntimeWarning: division by zero）
指标异常（NaN、Inf、所有算法收敛速度相同）

这些教训持久化存储在 JSONL 中，使用 30 天半衰期时间衰减加权，作为 prompt overlay 注入未来运行。流水线真正从错误中学习。

知识库

每次运行自动构建结构化知识库（存储在 `docs/kb/` 中），包含 6 个类别：

decisions/ — 实验设计、质量门控、研究决策、资源规划、搜索策略、知识归档
experiments/ — 代码生成日志、实验运行记录、迭代优化过程
findings/ — 引用核查报告、结果分析、综合报告
literature/ — 知识提取、文献采集、筛选结果
questions/ — 假设生成、问题分解、主题初始化
reviews/ — 导出/发布报告、论文草稿、大纲、修订、同行评审

Sentinel 看门狗

后台质量监控，捕获主流水线可能遗漏的问题：

运行时 Bug 检测 — 指标中的 NaN/Inf、stderr 警告反馈给 LLM 进行定向修复
论文-证据一致性 — 实际实验代码、运行结果、迭代日志注入同行评审
引用相关性评分 — 不仅验证引用存在性，还用 LLM 评估与研究主题的相关性
收敛判据强制 — 检测固定迭代实验，要求实现正确的 early stopping
消融验证 — 检测重复/相同的消融条件，标记失效的对比实验
反数据捏造守卫 — 实验无指标时硬性阻止论文撰写

OpenClaw 集成

AutoResearchClaw 是 OpenClaw 兼容服务。在 OpenClaw 中安装后，一句话即可启动自动研究——也可通过 CLI、Claude Code 或其他 AI 编码助手独立使用。

如果你已经在使用 OpenClaw 作为 AI 助手：

1️⃣  把 GitHub 仓库地址分享给 OpenClaw
2️⃣  OpenClaw 自动读取 RESEARCHCLAW_AGENTS.md → 理解流水线
3️⃣  对它说："帮我研究 [你的主题]"
4️⃣  完成 — OpenClaw 自动克隆、安装、配置、运行，然后返回结果

就这么简单。OpenClaw 自动处理 git clone、pip install、配置和流水线执行。你只需聊天。

OpenClaw Bridge（高级功能）

AutoResearchClaw 内置了 Bridge 适配器系统，提供 6 个可选集成能力：

# config.arc.yaml
openclaw_bridge:
  use_cron: true              # ⏰ 定时研究任务
  use_message: true           # 💬 进度通知（Discord/Slack/Telegram）
  use_memory: true            # 🧠 跨会话知识持久化
  use_sessions_spawn: true    # 🔀 为并行阶段派生子会话
  use_web_fetch: true         # 🌐 文献检索中的实时网络搜索
  use_browser: false          # 🖥️ 基于浏览器的论文采集

其他运行方式

流水线：23 个阶段，8 个阶段组

阶段组 A：研究定义                阶段组 E：实验执行
  1. TOPIC_INIT                    12. EXPERIMENT_RUN
  2. PROBLEM_DECOMPOSE             13. ITERATIVE_REFINE  ← 自修复

阶段组 B：文献发现                阶段组 F：分析与决策
  3. SEARCH_STRATEGY               14. RESULT_ANALYSIS    ← 多Agent
  4. LITERATURE_COLLECT ← 真实API  15. RESEARCH_DECISION  ← PIVOT/REFINE
  5. LITERATURE_SCREEN  [门控]
  6. KNOWLEDGE_EXTRACT             阶段组 G：论文撰写
                                   16. PAPER_OUTLINE
阶段组 C：知识综合                 17. PAPER_DRAFT
  7. SYNTHESIS                     18. PEER_REVIEW        ← 证据审查
  8. HYPOTHESIS_GEN   ← 辩论      19. PAPER_REVISION

阶段组 D：实验设计                阶段组 H：终稿
  9. EXPERIMENT_DESIGN  [门控]     20. QUALITY_GATE     [门控]
 10. CODE_GENERATION               21. KNOWLEDGE_ARCHIVE
 11. RESOURCE_PLANNING             22. EXPORT_PUBLISH    ← LaTeX
                                   23. CITATION_VERIFY   ← 相关性审查

门控阶段（5、9、20）可暂停等待人工审批，也可用 --auto-approve 自动通过。

决策循环：第 15 阶段可触发 REFINE（→ 第 13 阶段）或 PIVOT（→ 第 8 阶段），自动版本化之前的产物。

各阶段组职责：

快速开始

前置条件：

Python 3.11+
一个 OpenAI 兼容的 LLM API（GPT-4o、GPT-5.x，或任何兼容接口）

安装：

git clone https://github.com/Jiaaqiliu/AutoResearchClaw.git
cd AutoResearchClaw
python3 -m venv .venv && source .venv/bin/activate
pip install -e .

配置：

cp config.researchclaw.example.yaml config.arc.yaml

运行：

# 设置 API Key
export OPENAI_API_KEY="sk-..."

# 🚀 运行完整流水线
researchclaw run --config config.arc.yaml --auto-approve

# 🎯 指定研究主题
researchclaw run --config config.arc.yaml --topic "Transformer 注意力机制在时间序列中的应用" --auto-approve

# ✅ 仅验证配置
researchclaw validate --config config.arc.yaml

# ⏩ 从指定阶段恢复
researchclaw run --config config.arc.yaml --from-stage PAPER_OUTLINE --auto-approve

输出保存在 artifacts/rc-YYYYMMDD-HHMMSS-<hash>/，每个阶段一个子目录。

所有用户可交付成果自动汇集到 deliverables/ 文件夹：

artifacts/rc-YYYYMMDD-HHMMSS-<hash>/deliverables/
├── paper_final.md             # 终稿（Markdown）
├── paper.tex                  # 适配顶会模板的 LaTeX
├── references.bib             # 已验证的 BibTeX 参考文献（自动精简）
├── neurips_2025.sty           # 会议样式文件（自动选择）
├── code/                      # 实验代码 + requirements.txt
├── verification_report.json   # 引用完整性报告
├── charts/                    # 结果可视化（条件对比图、误差线）
└── manifest.json              # 交付清单（含元数据）

deliverables/ 文件夹可直接编译——包含会议 .sty 和 .bst 文件，可直接用 pdflatex + bibtex 编译，或上传 Overleaf 无需额外下载。

核心功能

多源文献搜索

第 4 阶段调用真实学术 API，而非依赖 LLM 凭记忆编造论文。采用 arXiv 优先策略以避免 Semantic Scholar 限流。

arXiv API（主源）— 预印本（真实 arXiv ID 和元数据），无速率限制
Semantic Scholar API（副源）— 真实论文（标题、摘要、期刊、引用次数、DOI）
查询扩展 — 自动生成更广泛的搜索词（综述、基准、对比变体），目标覆盖 30-60 篇参考文献
自动去重 — DOI → arXiv ID → 模糊标题匹配
BibTeX 生成 — 有效的 @article{cite_key, ...} 条目
三态熔断器 — CLOSED → OPEN → HALF_OPEN 自动恢复，指数退避冷却（永不永久禁用）
优雅降级 — S2 失败不阻塞 arXiv 结果；所有 API 均失败时回退到 LLM 增强结果

引用核查（第 23 阶段）

论文写完后，自动对每条引用进行完整性和相关性核查：

每条引用 → VERIFIED ✅ · SUSPICIOUS ⚠️ · HALLUCINATED ❌ · SKIPPED ⏭️ · LOW_RELEVANCE

自动清理：幻觉引用从论文文本中静默移除（不留标记）。未被引用的参考文献条目自动精简。最终的 references.bib 仅包含已验证的、被引用的参考文献。

硬件感知执行

第 1 阶段自动检测本地 GPU 能力，据此调整整条流水线：

沙箱实验执行

代码验证 — AST 解析、import 白名单、禁止沙箱外文件操作

计算预算守卫 — 时间预算（可配置，默认 600 秒）注入代码生成提示；LLM 必须设计在沙箱超时内可完成的实验

实验 Harness — 不可变的 experiment_harness.py 注入沙箱，提供 should_stop() 时间守卫、report_metric() NaN/Inf 拒绝、finalize() 结果写入

结构化输出 — 实验产出 results.json（类型化指标，非仅 stdout 解析）

NaN/发散快速失败 — NaN/Inf 值从指标中过滤；发散损失（>100）被检测并标记

收敛判据强制 — 生成的代码必须包含 early stopping，不允许固定迭代次数运行时

Bug 检测 — 自动发现指标中的 NaN/Inf 和 stderr 警告

自修复 — 运行时问题反馈给 LLM 进行根因诊断修复

迭代优化 — 第 13 阶段分析结果并改进代码/参数后重新运行（最多 10 次迭代）

部分结果捕获 — 超时但已捕获指标的实验状态设为 "partial"，保留可用数据

主题-实验对齐 — 基于 LLM 的代码生成后验证，确保实验代码真正测试所声明的研究主题

顶会级论文撰写

写作流水线对标 NeurIPS/ICML/ICLR 标准（9+ 页，5,000-6,500 词）：

数据完整性执行 — 实验无指标时硬性阻止论文撰写（防止 LLM 捏造结果）

顶会级提示 — 系统提示包含已接收论文分析的关键原则：新颖性、叙事性、强基线、消融实验、诚实性、可复现性

标题与框架指南 — 新颖性信号、"可传播性测试"、5 句式摘要结构

分段撰写 — 3 次顺序 LLM 调用，避免输出截断

逐节字数目标 — 摘要（150-250）、引言（800-1000）、相关工作（600-800）、方法（1000-1500）、实验（800-1200）、结果（600-800）、讨论（400-600）

修订长度保障 — 修订稿若短于初稿，自动重试

反免责声明强制 — "due to computational constraints" 最多出现 1 次；修订提示主动删除重复的模糊表述

统计严谨性 — 结果表格要求包含置信区间、p 值和效应量；失效消融被标记并排除在声明之外

顶会级同行评审 — 审稿人按 NeurIPS/ICML 评分标准打分 1-10

会议模板切换

export:
  target_conference: "neurips_2025"   # 或 "iclr_2026" 或 "icml_2026"

Markdown → LaTeX 转换器自动处理：章节标题（含自动编号去重）、行内/行间数学公式、粗体/斜体、列表、表格（含 caption/label）、图片（includegraphics）、代码块（Unicode 安全）、交叉引用和 cite{} 引用。

质量门控

用 --auto-approve 跳过所有门控，或在 security.hitl_required_stages 中配置特定阶段。

最后解答一个大家最关心的落地问题：跑通这一整套流程贵不贵？

根据官方的测算，如果全程使用 GPT-4o，跑完全部 23 个阶段大约会产生 35 到 60 次 API 调用，整体账单预估在 3 到 12 美元之间。

更有诚意的是，只要接口兼容，系统完全支持通过 Ollama 等工具无缝接入本地大模型。这意味着只要实验室自己的算力管够，调用成本完全可以打下来。

把它当成一个不知疲倦的科研助理，在 deadline 前帮你扫平那些重复枯燥的 baseline 实验，并迅速拿到一份结构严整的初稿，是非常趁手的。

至于最终发表前的学术把关，依然需要回到研究人员自己手中。

如果你刚好有个压在心底的 idea 还没来得及验证，不妨直接去拉一下代码，看看系统能为你跑出什么惊喜。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

图片[3]-养只龙虾做科研？一句话自动跑实验写LaTeX，同行评审都包了-AI Express News

<原文链接：https://mp.weixin.qq.com/s/OUjy1Jes_2zXICEMJOwyqw

文章版权归作者所有，未经允许请勿转载。

THE END

AI 资讯

养只龙虾做科研？一句话自动跑实验写LaTeX，同行评审都包了

PIVOT / REFINE 决策循环

流水线不只是线性运行。第 15 阶段（RESEARCH_DECISION）根据实验结果评估假设，做出自主决策：

PROCEED — 结果支持假设，继续写论文

REFINE — 结果有前景但需改进，回到代码/参数优化

PIVOT— 发现根本性问题，从假设生成重新开始

多 Agent 辩论

关键阶段使用结构化辩论协议，汇集多个 LLM 视角：

假设生成 — 多个 Agent 提出和挑战创意

结果分析 — 乐观者、怀疑者、实用者多角度分析

同行评审 — 方法论-证据一致性审查（论文声称跑了 50 次实验，代码只跑了 5 次？）

Evolution：跨运行自学习

每次运行提取细粒度教训——不只是"失败了"，而是为什么：

知识库

每次运行自动构建结构化知识库（存储在 docs/kb/ 中），包含 6 个类别：

decisions/ — 实验设计、质量门控、研究决策、资源规划、搜索策略、知识归档

experiments/ — 代码生成日志、实验运行记录、迭代优化过程

findings/ — 引用核查报告、结果分析、综合报告

literature/ — 知识提取、文献采集、筛选结果

questions/ — 假设生成、问题分解、主题初始化

reviews/ — 导出/发布报告、论文草稿、大纲、修订、同行评审

Sentinel 看门狗

后台质量监控，捕获主流水线可能遗漏的问题：

运行时 Bug 检测 — 指标中的 NaN/Inf、stderr 警告反馈给 LLM 进行定向修复

论文-证据一致性 — 实际实验代码、运行结果、迭代日志注入同行评审

引用相关性评分 — 不仅验证引用存在性，还用 LLM 评估与研究主题的相关性

收敛判据强制 — 检测固定迭代实验，要求实现正确的 early stopping

消融验证 — 检测重复/相同的消融条件，标记失效的对比实验

反数据捏造守卫 — 实验无指标时硬性阻止论文撰写

请登录后发表评论

每次运行自动构建结构化知识库（存储在 `docs/kb/` 中），包含 6 个类别：