6.4k Stars！用 Claude Code 写论文的全套流水线，有人打包开源了

听雨发自凹非寺量子位 | 公众号 QbitAI

用 Claude Code 写论文的一整套流水线，有人打包开源出来了。

完全戳中了学生党的痛点，github 星标直达6.4k。

academic-research-skills

项目名叫academic-research-skills（以下简称 ARS），是一套 Claude Code 技能包。

里面涵盖 4 个 skill，分别对应论文的研究、写作、审稿、定稿。

只需两行命令安装，直接一条龙串起整套学术研究流水线。

只能说，我读研的时候怎么没碰到这种好东西呢…

示意图

4 个 skill，跑通整套科研流程

ARS 的核心架构由 4 个 skill 组成，它们各司其职，拼在一起就是一条从选题到交稿的完整链路。

我这里还做了图，大家可以看得比较直观：

△

Deep Research是一支 13 个 Agent 的研究团队。

它负责文献调研、研究问题构建、方法论设计，还能写系统性的 PRISMA 综述。

团队里有专门做文献溯源的 Agent，会调用 Semantic Scholar API 验证每一篇引用的真实性。

有苏格拉底导师 Agent，通过对话引导研究者理清思路。

还有魔鬼代言人 Agent，专门挑刺，防止研究者在早期就陷入思维定式。

Academic Paper是一支 12 个 Agent 的写作团队。

从大纲设计、论证构建、草稿撰写，到双语摘要生成、图表可视化、引用格式转换，全流程覆盖。

特别值得一提的是风格校准功能，AI 会学习你过往作品的写作风格，让输出更像你自己写的，而不是千篇一律的 AI 味。

输出格式支持 Markdown、DOCX、LaTeX，最终可以编译成 APA 7.0 或 IEEE 格式的 PDF。

Academic Paper Reviewer是一支 7 个 Agent 的审稿团队。

模拟真实学术期刊的评审流程，由主编 EIC 带领三位领域审稿人，再加上一个魔鬼代言人，从方法论、学科视角、跨学科价值等多个维度打分。

评分采用 0 到 100 的量化标准，80 分以上接受，65 到 79 小修，50 到 64 大修，50 以下拒稿。

审稿团队还会输出详细的修改路线图，告诉作者下一步该做什么。

Academic Pipeline是流程编排器，把前面三个团队串联成一条 10 阶段的流水线。

从研究、写作、完整性检查、同行评审、修订、最终检查，到发表准备和流程总结，每个阶段都有明确的产物和检查点。

你可以在任意阶段插入，比如已经有了初稿，就从 Stage 2.5 的完整性检查开始；收到了审稿意见，直接从 Stage 4 的修订切入。

费用参考也很透明，一篇1.5 万字的论文，全程跑下来大约4 到 6 美元。

比较有意思的设计

用 Claude Code 做学术研究的开源项目已经很多了，但是深扒之后，我发现 ARS 在底层设计上还是有些过人之处。

可以简单总结为一句话：系统性防止 AI 搞砸学术研究。

第一，引用核验。

AI 写论文最忌讳的，就是幻觉引用。

不只是编造不存在的文章，还包括标题相似但作者年份全错、DOI 真实但内容对不上等更隐蔽的情况。

ARS 在 Deep Research 阶段就埋了一个引用核验机制，每一篇文献都要过 Semantic Scholar API 的存在性确认。

不是简单查一下标题对不对，而是用 Levenshtein 相似度算法做模糊匹配，阈值设在 0.70 以上才算通过。

第二，完整性闸门。

在流水线的 Stage 2.5 和 Stage 4.5，有两道不可跳过的完整性闸门，会运行一份7 项 AI 失败模式检查清单。

这份清单直接来自 2026 年 Nature 上发表的一项全自主 AI 科研研究，其中总结了 7 种翻车模式，覆盖引用幻觉、数据捏造、方法论造假等情形。

7 种翻车模式

任何在 2.5 被标记为 SUSPECTED 的问题，必须在 4.5 变成 CLEAR，或者由人工手动覆盖并留下记录。

设计逻辑是：把「我相信 AI 不会出错」变成「我要求 AI 证明它没出错」。

实测中，这套机制在一篇真实论文里抓到了 15 个伪造引用和 3 个统计错误。

第三，反谄媚协议，让 AI 敢于说不。

大多数 AI 工具都有一个隐形毛病，讨好用户。你让它改，它就改，哪怕改得更差。

所以 ARS 在审稿环节专门设计了反谄媚机制。

审稿团队里有一个Devil ’ s Advocate，也就是魔鬼代言人，职责是挑刺。

但挑完刺之后，还有一个让步阈值协议。

DA 的反驳会被评分 1 到 5，如果低于 4 分，写作团队不允许承认。

换句话说，AI 不能为了显得好合作就轻易让步。

同时，攻击强度在修订过程中必须保持。如果第一轮审稿把方法论批得体无完肤，作者修订后不能让审稿人突然变得温柔。

评分轨迹也会被追踪，任何维度的分数下降都会被标记为回归。

这和软件工程里的不引入新 Bug 原则一样，改一个地方不能搞砸另一个地方。

第四，三层数据隔离，不让 AI 偷看答案。

ARS 把数据流严格分成三层：

Layer 1 是原始输入，默认不可信，可能幻觉、过时、带偏见。

Layer 2 是通过完整性验证后的产物。

Layer 3 是评分标准、参考答案和金标数据，这层材料永远不能出现在写作 AI 的上下文中。

具体实现上，写作团队和审稿团队分两次独立调用，中间有阶段边界隔离。

写作 AI 只能收到审稿 AI 的自然语言反馈，比如「第二章论证跳跃，建议补充对比实验」。

但它看不到原始的评分标准，也不知道每个维度占多少分。

这个设计的灵感来自于 Anthropic 今年的 w2s-researcher 研究，其中也用了同样的三层隔离模型。

结论是当 AI 能读取标签数据时，结果可能不是真的泛化，而是在优化表面特征。

解决方案不是更好的提示词，而是结构上的隔离。

最后一点，诚实文档化，「我不保证能复现」。

学术界经常遇到「这个结果我复现不了」的问题。ARS 给每个产物生成一个repro_lock 文件，记录运行时的完整配置。

但文件里有一段强制声明，LLM 输出不是字节级可复现的，模型提供商会更新权重而不改模型 ID，外部 API 每天返回不同的数据。

这个文件只是配置文档，不是重放保证。

在更新日志上，可以看到 ARS 已经经历了很多轮迭代。从 2 月上线到现在，提交的 commit 数达到了三百多次。

从每次版本更迭中，也能看出作者对 AI 学术研究系统风险有着深刻理解。

这也是我觉得目前学术研究 AI 工具的关键所在——

让 AI 帮你写论文并不难，重点是如何防止它出错、讨好，让整个流程变得更系统更可靠。

ARS 的设计哲学，可以总结为 README 里那句话：

「AI 是你的副驾驶，不是飞行员。」

如何安装

安装方式很简单，如果你已经在用 Claude Code，只需要两行命令：

/plugin marketplace add Imbad0202/academic-research-skills/plugin install academic-research-skills

验证安装是否成功，运行：

/ars-plan

然后描述你正在写的论文主题，ARS 就会启动苏格拉底对话，帮你梳理论文结构。

如果你偏好单条命令测试，也可以用：

/ars-lit-review " 你的研究主题 "

不过最简单的安装办法，其实是直接把 SKILL.md 上传到 claude.ai 项目知识库。

不需要安装 Claude Code，打开浏览器就能用。

不过要注意，这种方式不支持多 Agent 并行，功能上是单 Agent 版本，适合轻度体验；想跑完整流水线还是需要 Claude Code。

还有一点，项目支持繁体中文和英文。

那么，又到了大家最关心的，要花多少钱的环节。

作者推荐使用Claude Opus 4.7 搭配 Max 订阅计划。

完整跑完 10 个阶段，单次可消耗超过 20 万输入 token 和 10 万输出 token，单独使用某个子模块则少得多。

Max 订阅计划分两档，每月 100 刀或 200 刀，相当不便宜。

但如果你的科研经费可以报销的话，那…

本文来自微信公众号" 量子位 "，作者：关注前沿科技，36 氪经授权发布。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

6.4k Stars！用 Claude Code 写论文的全套流水线，有人打包开源了

宙世代

一起剪

相关阅读

对话雅诗兰黛集团总裁兼CEO司泰峰：让一家“慢”公司变快，这是他的第一年

最新评论

36氪

热门推荐

企业资讯