cat README.md
academic-research-skills
Claude Code 上的学术研究全链路工具包。从文献调研到论文完稿,从同行评审到修改回复,一套技能覆盖完整研究流水线。内置反幻觉、反阿谀、引用真实性审计——把 AI 从"代写工具"拉回"研究助手"该在的位置。
// 目录
// 概览
// 为什么需要它
我写过论文,也带过学弟妹写论文。这个过程里最磨人的部分不是"写不出来"——多数时候你脑子里是有东西的——而是找文献找半天、引用格式改到手抽筋、审稿意见一条条回、改完发现引了个根本不存在的参考文献。每一个环节都在消耗你本该用来思考的时间。
academic-research-skills 解决的就是这堆脏活累活。它的定位很明确:"AI is your copilot, not the pilot." 不是帮你写论文,是帮你把找文献、格式引用、检查逻辑一致性这些体力活自动化掉,让你专注在真正需要人脑的部分——定义研究问题、选择方法、解释数据、写原创论证。
更有意思的是它的出发点。项目引用了 Lu et al. (2026, Nature) 的研究——他们造了"AI Scientist",第一个通过盲审在 ICLR 2025 workshop 发表的完全自主 AI 研究系统。但这篇论文的 Limitations 部分列了一堆全自主流水线踩过的坑:实现 bug、幻觉结果、走捷径、把 bug 当洞见、伪造方法论、认知锁死、引用幻觉。ARS 的核心理念就是:人 + AI 的组合比任何一方单独干都靠谱。
另一个推动力来自 Zhao et al. (2026) 的大规模审计——他们扫了 250 万篇论文的 1.11 亿条引用,保守估计 2025 年仅一年就有 146,932 条幻觉引用。这个数字让我后背发凉。ARS v3.7 之后的整个引用审计系统就是冲着这个数据去的。
// 四大技能模块
1. Deep Research — 13 个 Agent 的研究团队
这是流水线的起点。7 种模式覆盖了你能想到的所有研究场景:
full 模式跑完整的 13-agent 研究管线;systematic-review 支持 PRISMA 协议做系统综述;socratic 模式特别有意思——它会通过意图检测判断你是在"探索"还是"有明确目标",探索模式会关掉自动收敛,最多陪你聊 60 轮。fact-check 直接验证你抛给它的论断。还有 lit-review 和 review 分别做文献综述和研究质量评审。
所有模式都接了 Semantic Scholar API 做交叉验证,可选开启跨模型分歧分析(用 GPT-5.4 Pro 或 Gemini 3.1 Pro 做独立检验)。
2. Academic Paper — 12 个 Agent 的写作工厂
10 种模式。除了常规的 full(完整论文)、plan(苏格拉底式引导写作)、outline-only(只搭骨架),有几个让我眼前一亮:
Style Calibration 会从你过去的论文里学习你的写作风格,然后检查新稿件是不是"像你写的"。这不是帮你骗审稿人——项目原话是"Unlike a humanizer, this tool doesn't help you hide the fact that you used AI. It helps you write better." Writing Quality Check 会抓 25 个高频 AI 生成用词、标点控制模式、结构化模式警告。
revision-coach 模式帮你拆解审稿意见——把一堆"请修改 XXX"整理成可执行的修改路线图。disclosure 直接帮你生成 NeurIPS 等会议要求的 AI 使用声明。format-convert 支持 APA 7.0、Chicago、MLA、IEEE、Vancouver 五种引用格式互转。
输出格式也很全:Markdown + DOCX(通过 Pandoc)+ LaTeX(APA 7.0 / IEEE / Chicago)→ PDF(通过 tectonic)。中英文双语摘要也没问题。
3. Academic Paper Reviewer — 7 个 Agent 的评审团
这个模块模拟了一个完整的同行评审流程:EIC(主编)+ 3 个动态审稿人 + Devil's Advocate(魔鬼代言人)。
决策用 0-100 质量评分体系:≥80 接收、65-79 小修、50-64 大修、<50 拒稿。Devil's Advocate 有个让步阈值协议—— rebuttal 评分到 4/5 以上才让步,不允许连续让步,还会追踪让步率防止认知锁死。这意味着评审不会因为你多说了两句就软下来。
calibration 模式可以用你的黄金标准数据集来校准审稿人,让它更贴合你所在领域的评审标准。re-review 在你改完之后验证修改是否到位。
4. Academic Pipeline — 10 阶段总编排
这是把上面三个模块串起来的调度器。完整流水线:
Stage 1 RESEARCH → Stage 2 WRITE → Stage 2.5 Integrity Gate(不可跳过)→ Stage 3 PEER REVIEW → Stage 3' Re-Review → Stage 4 REVISION → Stage 4.5 Integrity Gate(不可跳过)→ Stage 5 FINALIZE → Stage 6 PROCESS SUMMARY。
Stage 2.5 和 4.5 是两道强制完整性门控,跑 7 模式阻塞检查清单——引文验证、数据一致性、逻辑链完整性——通不过就卡在那里。支持从任意中间阶段进入(如果你已经有草稿,可以直接从 Stage 2.5 或 Stage 4 开始)。
还有一个"Material Passport"系统,像学术版的护照一样追踪每个研究产物的来源和流转,支持跨会话恢复。
// 安装上手
前置条件就一个:Claude Code(v3.7.0+)加上 ANTHROPIC_API_KEY。不需要装 Python 依赖——这是一套 Claude Code 的 skill/prompt,不是传统 Python 包。
除了 Plugin 方式,还支持 Project Skills、Global Skills、claude.ai Project、传统 git clone + symlink 五种安装方式。Codex CLI 用户也有专门的 sibling 分发版本。
可选依赖:Pandoc(DOCX 输出)、tectonic + Source Han Serif TC(APA 7.0 PDF)。不装也行,Markdown 输出不受影响。
模型路由有讲究:full 和 revision-coach 用 opus(最贵的,但也最靠谱),其余 8 个命令用 sonnet。项目明确说不用 haiku——对学术内容质量要求高,省不了这个 token。
完整跑一遍 1.5 万字论文的流水线,成本大约 $4-6。说实话,考虑到人工找文献、格式引用、校对的时间成本,这个价格很值。
// 反 AI 幻觉三板斧
这个项目最硬核的部分不是"能帮你写论文",而是花了大量工程量在防止 AI 犯蠢。三层防线:
第一层:反阿谀系统(v3.0+)。AI 天生倾向顺着人类说,这在学术场景是致命的。ARS 的 Devil's Advocate 有让步阈值协议(rebuttal 不到 4 分不让步)、攻击强度保持(不会因为你反驳就软下来)、对话健康指标(每 5 轮静默自检,检测"持续同意""回避冲突""过早收敛")。Socratic Mentor 会区分你是"探索性提问"还是"目标导向",探索模式下关掉自动收敛。
第二层:反上下文腐烂(v3.1+)。长对话中 AI 容易"忘记"前面定好的规则。ARS 写了 29 条显式反模式表(tabular 格式,标注"为什么不行"和"正确行为"),22 条 IRON RULE 硬标记在关键规则上。每个管线转换点强制刷新上下文,FULL 检查点时还会跑自检问题。
第三层:引用真实性审计(v3.7+)。三层引用锚定——每条引用标注 {quote, page, section, paragraph, none} 来源定位,quote 锚定上限 25 词。可选开启 claim-faithfulness 审计(ARS_CLAIM_AUDIT=1),会去抓被引原文验证你的论述是否有据可查,5 类 HIGH-WARN 直接拒绝输出:claim-not-supported、fabricated-reference、anchorless 等。v3.9.0 加了三索引交叉验证(Semantic Scholar + OpenAlex + Crossref),v3.9.4 加了时序验证层,检测"回溯性算术错误""年代错位引用""因果倒置"等 5 种时序失败模式。
Showcase 里有个真实案例:Stage 2.5 的完整性报告抓出了 15 条捏造引用 + 3 个统计错误。Stage 4.5 最终验证确认零回归。不过后续的独立后出版审计还是在 68 个引用里发现了 21 个问题(31% 错误率),说明防线虽强但还没到完美。
// 流水线架构
// 竞品对比
| 维度 | academic-research-skills | scientific-agent-skills | mattpocock/skills | addyosmani/agent-skills |
|---|---|---|---|---|
| 定位 | 学术研究全链路流水线 | 科研工具使用技能包 | 编程工程纪律规范 | Google 工程最佳实践 |
| Stars | 18,181 | 22,456 | 76,055 | 32,996 |
| 目标用户 | 学术研究者 / 研究生 | 生信/化学/ML 研究者 | 软件工程师 | 前端 / 全栈工程师 |
| 覆盖范围 | 研究 → 写作 → 评审 → 修改 | 工具调用(BioPython/RDKit 等) | 需求对齐 → 代码实现 → 发布 | 定义 → 设计 → 实现 → 发布 |
| 反幻觉机制 | 三层引用审计 + 跨索引验证 | 依赖上游工具准确性 | 反合理化(追问跳步) | 反合理化(预置借口反驳) |
| 输出格式 | MD / DOCX / LaTeX / PDF | CLI 交互结果 | 代码 + PR | 代码 + PR |
| 引用格式 | APA 7 / Chicago / MLA / IEEE / Vancouver | N/A | N/A | N/A |
| 语言支持 | 中 / 英 / 日(意图检测任意语言) | 英文为主 | 英文 | 英文 |
| 协议 | CC BY-NC 4.0 | MIT | MIT | MIT |
跟 scientific-agent-skills 的关系最值得说清楚。两个项目都是给研究者用的 Claude Code 技能包,但解决的是完全不同的问题。scientific-agent-skills 教 AI 怎么用科研工具(BioPython 提取基因组、RDKit 跑分子对接),academic-research-skills 管的是整个论文生产流程。两者互补,甚至可以叠加使用。
跟 mattpocock/skills 和 addyosmani/agent-skills 的差异更大——那俩是给写代码的人用的,这个是给写论文的人用的。用户群几乎不重叠。
// 能力矩阵
// verdict
+ 反幻觉工程量在同品类里断层领先,三层引用锚定 + 跨索引三角验证 + 时序审计
+ 反阿谀设计(让步阈值、攻击强度保持、对话健康检测)是学术 AI 工具里独一份
+ Style Calibration + Writing Quality Check 的思路很对——学你的风格,不是帮你"洗 AI 味"
+ 中英日三语支持 + 意图检测(任意语言可用)
+ 迭代速度恐怖:20 个 release、421 commits、日均 3+ commits
+ 一行安装,zero 依赖(Markdown 模式下)
- 独立后出版审计仍有 31% 引用问题残留,审计防线还没到"可信赖"的程度
- 只支持 Claude Code,Cursor/Codex 等需要用 sibling 分支版
- 完整流水线 $4-6/篇的成本对发展中国家研究者不算低
- 项目仅 3 个月历史(2026-02 创建),长期维护能力待验证
- 16 个 Open Issue + 0 Open PR 说明社区贡献活跃度不高
说句大实话:这个项目在我评测过的所有 Claude Code 技能包里,工程完成度是数一数二的。不是那种"有几个 SKILL.md 就发出来"的水平——光是反幻觉系统就迭代了 v2.7 到 v3.9 四个大版本,29 条反模式表、22 条 IRON RULE、7 模式阻塞检查清单、三索引交叉验证,这些不是拍脑袋写的,每一条背后都有学术论文撑着。
让我意外的是它的自我定位。"AI is your copilot, not the pilot"——这种克制在当前"AI 能帮你写论文"满天飞的环境里难得。它不回避 AI 的缺陷(甚至把 Lu et al. 的失败模式清单贴在门口当告示牌),而是把每一类失败模式都设计了对应的防线。这种"承认问题然后工程化解决"的思路,比那些"我们用了 GPT-4 所以一切 OK"的项目不知道高到哪里去了。
扣分点主要是两个:一是 CC BY-NC 4.0 协议——如果你想做付费学术辅导服务,这个协议是硬伤;二是引用审计的 31% 残留率,虽然已经比不用任何工具强太多了,但在学术场景下"漏掉 1/3 的问题引用"依然是不可接受的。
适合谁用:在读研究生、博士生、高校研究人员、任何需要频繁写英文学术论文的人。如果你还在手动管理 Zotero 引用、手动调 APA 格式、手动回复审稿意见——装上试试,这四个痛点它能解决三个半。
// links
GitHub 仓库 — Imbad0202/academic-research-skills
架构文档 — 完整流水线视图、阶段矩阵、依赖图
安装指南 — 5 种安装方式详解
性能文档 — Token 预算、成本估算
Experiment Agent — 配套实验执行工具(ARS Stage 1 → Stage 2 之间的桥梁)
Lu et al. (2026). The AI Scientist. Nature, 651, 914-919.
Zhao et al. (2026). arXiv:2605.07723 — 111M 引用审计,146,932 条幻觉引用