关于ZAKER Skills 合作
36氪 2小时前

6.4k Stars!用 Claude Code 写论文的全套流水线,有人打包开源了

听雨 发自 凹非寺量子位 | 公众号 QbitAI

用 Claude Code 写论文的一整套流水线,有人打包开源出来了。

完全戳中了学生党的痛点,github 星标直达6.4k

academic-research-skills

项目名叫academic-research-skills(以下简称 ARS),是一套 Claude Code 技能包。

里面涵盖 4 个 skill,分别对应论文的研究、写作、审稿、定稿

只需两行命令安装,直接一条龙串起整套学术研究流水线。

只能说,我读研的时候怎么没碰到这种好东西呢…

示意图

4 个 skill,跑通整套科研流程

ARS 的核心架构由 4 个 skill 组成,它们各司其职,拼在一起就是一条从选题到交稿的完整链路。

我这里还做了图,大家可以看得比较直观:

Deep Research是一支 13 个 Agent 的研究团队。

它负责文献调研、研究问题构建、方法论设计,还能写系统性的 PRISMA 综述。

团队里有专门做文献溯源的 Agent,会调用 Semantic Scholar API 验证每一篇引用的真实性。

有苏格拉底导师 Agent,通过对话引导研究者理清思路。

还有魔鬼代言人 Agent,专门挑刺,防止研究者在早期就陷入思维定式。

Academic Paper是一支 12 个 Agent 的写作团队。

从大纲设计、论证构建、草稿撰写,到双语摘要生成、图表可视化、引用格式转换,全流程覆盖。

特别值得一提的是风格校准功能,AI 会学习你过往作品的写作风格,让输出更像你自己写的,而不是千篇一律的 AI 味。

输出格式支持 Markdown、DOCX、LaTeX,最终可以编译成 APA 7.0 或 IEEE 格式的 PDF。

Academic Paper Reviewer是一支 7 个 Agent 的审稿团队。

模拟真实学术期刊的评审流程,由主编 EIC 带领三位领域审稿人,再加上一个魔鬼代言人,从方法论、学科视角、跨学科价值等多个维度打分。

评分采用 0 到 100 的量化标准,80 分以上接受,65 到 79 小修,50 到 64 大修,50 以下拒稿。

审稿团队还会输出详细的修改路线图,告诉作者下一步该做什么。

Academic Pipeline是流程编排器,把前面三个团队串联成一条 10 阶段的流水线。

从研究、写作、完整性检查、同行评审、修订、最终检查,到发表准备和流程总结,每个阶段都有明确的产物和检查点。

你可以在任意阶段插入,比如已经有了初稿,就从 Stage 2.5 的完整性检查开始;收到了审稿意见,直接从 Stage 4 的修订切入。

费用参考也很透明,一篇1.5 万字的论文,全程跑下来大约4 到 6 美元

比较有意思的设计

用 Claude Code 做学术研究的开源项目已经很多了,但是深扒之后,我发现 ARS 在底层设计上还是有些过人之处。

可以简单总结为一句话:系统性防止 AI 搞砸学术研究

第一,引用核验

AI 写论文最忌讳的,就是幻觉引用。

不只是编造不存在的文章,还包括标题相似但作者年份全错、DOI 真实但内容对不上等更隐蔽的情况。

ARS 在 Deep Research 阶段就埋了一个引用核验机制,每一篇文献都要过 Semantic Scholar API 的存在性确认。

不是简单查一下标题对不对,而是用 Levenshtein 相似度算法做模糊匹配,阈值设在 0.70 以上才算通过。

第二,完整性闸门

在流水线的 Stage 2.5 和 Stage 4.5,有两道不可跳过的完整性闸门,会运行一份7 项 AI 失败模式检查清单

这份清单直接来自 2026 年 Nature 上发表的一项全自主 AI 科研研究,其中总结了 7 种翻车模式,覆盖引用幻觉、数据捏造、方法论造假等情形。

7 种翻车模式

任何在 2.5 被标记为 SUSPECTED 的问题,必须在 4.5 变成 CLEAR,或者由人工手动覆盖并留下记录。

设计逻辑是:把「我相信 AI 不会出错」变成「我要求 AI 证明它没出错」。

实测中,这套机制在一篇真实论文里抓到了 15 个伪造引用和 3 个统计错误。

第三,反谄媚协议,让 AI 敢于说不

大多数 AI 工具都有一个隐形毛病,讨好用户。你让它改,它就改,哪怕改得更差。

所以 ARS 在审稿环节专门设计了反谄媚机制。

审稿团队里有一个Devil ’ s Advocate,也就是魔鬼代言人,职责是挑刺。

但挑完刺之后,还有一个让步阈值协议。

DA 的反驳会被评分 1 到 5,如果低于 4 分,写作团队不允许承认。

换句话说,AI 不能为了显得好合作就轻易让步。

同时,攻击强度在修订过程中必须保持。如果第一轮审稿把方法论批得体无完肤,作者修订后不能让审稿人突然变得温柔。

评分轨迹也会被追踪,任何维度的分数下降都会被标记为回归。

这和软件工程里的不引入新 Bug 原则一样,改一个地方不能搞砸另一个地方。

第四,三层数据隔离,不让 AI 偷看答案

ARS 把数据流严格分成三层:

Layer 1 是原始输入,默认不可信,可能幻觉、过时、带偏见。

Layer 2 是通过完整性验证后的产物。

Layer 3 是评分标准、参考答案和金标数据,这层材料永远不能出现在写作 AI 的上下文中。

具体实现上,写作团队和审稿团队分两次独立调用,中间有阶段边界隔离。

写作 AI 只能收到审稿 AI 的自然语言反馈,比如「第二章论证跳跃,建议补充对比实验」。

但它看不到原始的评分标准,也不知道每个维度占多少分。

这个设计的灵感来自于 Anthropic 今年的 w2s-researcher 研究,其中也用了同样的三层隔离模型。

结论是当 AI 能读取标签数据时,结果可能不是真的泛化,而是在优化表面特征。

解决方案不是更好的提示词,而是结构上的隔离。

最后一点,诚实文档化,「我不保证能复现」

学术界经常遇到「这个结果我复现不了」的问题。ARS 给每个产物生成一个repro_lock 文件,记录运行时的完整配置。

但文件里有一段强制声明,LLM 输出不是字节级可复现的,模型提供商会更新权重而不改模型 ID,外部 API 每天返回不同的数据。

这个文件只是配置文档,不是重放保证。

在更新日志上,可以看到 ARS 已经经历了很多轮迭代。从 2 月上线到现在,提交的 commit 数达到了三百多次。

从每次版本更迭中,也能看出作者对 AI 学术研究系统风险有着深刻理解。

这也是我觉得目前学术研究 AI 工具的关键所在——

让 AI 帮你写论文并不难,重点是如何防止它出错、讨好,让整个流程变得更系统更可靠。

ARS 的设计哲学,可以总结为 README 里那句话:

「AI 是你的副驾驶,不是飞行员。」

如何安装

安装方式很简单,如果你已经在用 Claude Code,只需要两行命令:

/plugin marketplace add Imbad0202/academic-research-skills/plugin install academic-research-skills

验证安装是否成功,运行:

/ars-plan

然后描述你正在写的论文主题,ARS 就会启动苏格拉底对话,帮你梳理论文结构。

如果你偏好单条命令测试,也可以用:

/ars-lit-review " 你的研究主题 "

不过最简单的安装办法,其实是直接把 SKILL.md 上传到 claude.ai 项目知识库

不需要安装 Claude Code,打开浏览器就能用。

不过要注意,这种方式不支持多 Agent 并行,功能上是单 Agent 版本,适合轻度体验;想跑完整流水线还是需要 Claude Code。

还有一点,项目支持繁体中文和英文

那么,又到了大家最关心的,要花多少钱的环节。

作者推荐使用Claude Opus 4.7 搭配 Max 订阅计划

完整跑完 10 个阶段,单次可消耗超过 20 万输入 token 和 10 万输出 token,单独使用某个子模块则少得多。

Max 订阅计划分两档,每月 100 刀或 200 刀,相当不便宜。

但如果你的科研经费可以报销的话,那…

本文来自微信公众号" 量子位 ",作者:关注前沿科技,36 氪经授权发布。

相关标签
ai
36氪

36氪

让创业更简单

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容