~/reviews · academic-research-skills · 2026-05-22

cat README.md

academic-research-skills

Claude Code 上的学术研究全链路工具包。从文献调研到论文完稿，从同行评审到修改回复，一套技能覆盖完整研究流水线。内置反幻觉、反阿谀、引用真实性审计——把 AI 从"代写工具"拉回"研究助手"该在的位置。

Claude Code Academic Writing Anti-Hallucination Peer Review Citation Audit CC BY-NC 4.0

// 目录

概览为什么需要它四大技能模块安装上手反 AI 幻觉三板斧流水线架构竞品对比能力矩阵博主观点参考链接

// 概览

Total Stars

18,181

今日 +2,579，GitHub Trending AI 类第 3 名

Forks / Issues

1,600 / 16

421 commits · 20 releases · v3.9.4.2

Tech Stack

Python 97.4%

CC BY-NC 4.0 · Claude Code Plugin · 中英日三语 README

Pipeline Stages

Research → Write → Integrity Gate → Review → Revise → Finalize

Total Agents

32+

Deep Research 13 + Paper 12 + Reviewer 7 + Pipeline 编排

Slash Commands

ars-plan / ars-lit-review / ars-full / ars-review / ars-fact-check 等

// 为什么需要它

我写过论文，也带过学弟妹写论文。这个过程里最磨人的部分不是"写不出来"——多数时候你脑子里是有东西的——而是找文献找半天、引用格式改到手抽筋、审稿意见一条条回、改完发现引了个根本不存在的参考文献。每一个环节都在消耗你本该用来思考的时间。

academic-research-skills 解决的就是这堆脏活累活。它的定位很明确："AI is your copilot, not the pilot." 不是帮你写论文，是帮你把找文献、格式引用、检查逻辑一致性这些体力活自动化掉，让你专注在真正需要人脑的部分——定义研究问题、选择方法、解释数据、写原创论证。

更有意思的是它的出发点。项目引用了 Lu et al. (2026, Nature) 的研究——他们造了"AI Scientist"，第一个通过盲审在 ICLR 2025 workshop 发表的完全自主 AI 研究系统。但这篇论文的 Limitations 部分列了一堆全自主流水线踩过的坑：实现 bug、幻觉结果、走捷径、把 bug 当洞见、伪造方法论、认知锁死、引用幻觉。ARS 的核心理念就是：人 + AI 的组合比任何一方单独干都靠谱。

另一个推动力来自 Zhao et al. (2026) 的大规模审计——他们扫了 250 万篇论文的 1.11 亿条引用，保守估计 2025 年仅一年就有 146,932 条幻觉引用。这个数字让我后背发凉。ARS v3.7 之后的整个引用审计系统就是冲着这个数据去的。

// 四大技能模块

1. Deep Research — 13 个 Agent 的研究团队

这是流水线的起点。7 种模式覆盖了你能想到的所有研究场景：

full 模式跑完整的 13-agent 研究管线；systematic-review 支持 PRISMA 协议做系统综述；socratic 模式特别有意思——它会通过意图检测判断你是在"探索"还是"有明确目标"，探索模式会关掉自动收敛，最多陪你聊 60 轮。fact-check 直接验证你抛给它的论断。还有 lit-review 和 review 分别做文献综述和研究质量评审。

所有模式都接了 Semantic Scholar API 做交叉验证，可选开启跨模型分歧分析（用 GPT-5.4 Pro 或 Gemini 3.1 Pro 做独立检验）。

2. Academic Paper — 12 个 Agent 的写作工厂

10 种模式。除了常规的 full（完整论文）、plan（苏格拉底式引导写作）、outline-only（只搭骨架），有几个让我眼前一亮：

Style Calibration 会从你过去的论文里学习你的写作风格，然后检查新稿件是不是"像你写的"。这不是帮你骗审稿人——项目原话是"Unlike a humanizer, this tool doesn't help you hide the fact that you used AI. It helps you write better." Writing Quality Check 会抓 25 个高频 AI 生成用词、标点控制模式、结构化模式警告。

revision-coach 模式帮你拆解审稿意见——把一堆"请修改 XXX"整理成可执行的修改路线图。disclosure 直接帮你生成 NeurIPS 等会议要求的 AI 使用声明。format-convert 支持 APA 7.0、Chicago、MLA、IEEE、Vancouver 五种引用格式互转。

输出格式也很全：Markdown + DOCX（通过 Pandoc）+ LaTeX（APA 7.0 / IEEE / Chicago）→ PDF（通过 tectonic）。中英文双语摘要也没问题。

3. Academic Paper Reviewer — 7 个 Agent 的评审团

这个模块模拟了一个完整的同行评审流程：EIC（主编）+ 3 个动态审稿人 + Devil's Advocate（魔鬼代言人）。

决策用 0-100 质量评分体系：≥80 接收、65-79 小修、50-64 大修、<50 拒稿。Devil's Advocate 有个让步阈值协议—— rebuttal 评分到 4/5 以上才让步，不允许连续让步，还会追踪让步率防止认知锁死。这意味着评审不会因为你多说了两句就软下来。

calibration 模式可以用你的黄金标准数据集来校准审稿人，让它更贴合你所在领域的评审标准。re-review 在你改完之后验证修改是否到位。

4. Academic Pipeline — 10 阶段总编排

这是把上面三个模块串起来的调度器。完整流水线：

Stage 1 RESEARCH → Stage 2 WRITE → Stage 2.5 Integrity Gate（不可跳过）→ Stage 3 PEER REVIEW → Stage 3' Re-Review → Stage 4 REVISION → Stage 4.5 Integrity Gate（不可跳过）→ Stage 5 FINALIZE → Stage 6 PROCESS SUMMARY。

Stage 2.5 和 4.5 是两道强制完整性门控，跑 7 模式阻塞检查清单——引文验证、数据一致性、逻辑链完整性——通不过就卡在那里。支持从任意中间阶段进入（如果你已经有草稿，可以直接从 Stage 2.5 或 Stage 4 开始）。

还有一个"Material Passport"系统，像学术版的护照一样追踪每个研究产物的来源和流转，支持跨会话恢复。

// 安装上手

前置条件就一个：Claude Code（v3.7.0+）加上 ANTHROPIC_API_KEY。不需要装 Python 依赖——这是一套 Claude Code 的 skill/prompt，不是传统 Python 包。

# 一行安装（推荐，Claude Code Plugin 方式） /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills # 验证安装 /ars-plan # 苏格拉底式对话，帮你规划论文结构 /ars-lit-review "AI对教育评估的影响" # 直接出一篇文献综述 /ars-fact-check # 事实核查模式 /ars-disclosure # 生成 AI 使用声明

除了 Plugin 方式，还支持 Project Skills、Global Skills、claude.ai Project、传统 git clone + symlink 五种安装方式。Codex CLI 用户也有专门的 sibling 分发版本。

可选依赖：Pandoc（DOCX 输出）、tectonic + Source Han Serif TC（APA 7.0 PDF）。不装也行，Markdown 输出不受影响。

模型路由有讲究：full 和 revision-coach 用 opus（最贵的，但也最靠谱），其余 8 个命令用 sonnet。项目明确说不用 haiku——对学术内容质量要求高，省不了这个 token。

完整跑一遍 1.5 万字论文的流水线，成本大约 $4-6。说实话，考虑到人工找文献、格式引用、校对的时间成本，这个价格很值。

// 反 AI 幻觉三板斧

这个项目最硬核的部分不是"能帮你写论文"，而是花了大量工程量在防止 AI 犯蠢。三层防线：

第一层：反阿谀系统（v3.0+）。AI 天生倾向顺着人类说，这在学术场景是致命的。ARS 的 Devil's Advocate 有让步阈值协议（rebuttal 不到 4 分不让步）、攻击强度保持（不会因为你反驳就软下来）、对话健康指标（每 5 轮静默自检，检测"持续同意""回避冲突""过早收敛"）。Socratic Mentor 会区分你是"探索性提问"还是"目标导向"，探索模式下关掉自动收敛。

第二层：反上下文腐烂（v3.1+）。长对话中 AI 容易"忘记"前面定好的规则。ARS 写了 29 条显式反模式表（tabular 格式，标注"为什么不行"和"正确行为"），22 条 IRON RULE 硬标记在关键规则上。每个管线转换点强制刷新上下文，FULL 检查点时还会跑自检问题。

第三层：引用真实性审计（v3.7+）。三层引用锚定——每条引用标注 {quote, page, section, paragraph, none} 来源定位，quote 锚定上限 25 词。可选开启 claim-faithfulness 审计（ARS_CLAIM_AUDIT=1），会去抓被引原文验证你的论述是否有据可查，5 类 HIGH-WARN 直接拒绝输出：claim-not-supported、fabricated-reference、anchorless 等。v3.9.0 加了三索引交叉验证（Semantic Scholar + OpenAlex + Crossref），v3.9.4 加了时序验证层，检测"回溯性算术错误""年代错位引用""因果倒置"等 5 种时序失败模式。

Showcase 里有个真实案例：Stage 2.5 的完整性报告抓出了 15 条捏造引用 + 3 个统计错误。Stage 4.5 最终验证确认零回归。不过后续的独立后出版审计还是在 68 个引用里发现了 21 个问题（31% 错误率），说明防线虽强但还没到完美。

// 流水线架构

🔍

RESEARCH13 Agents · 7 Modes

→

✍

WRITE12 Agents · 10 Modes

→

🔄

INTEGRITY7-Mode Check · Gate

→

📝

REVIEWEIC + 3R + DA · 6 Modes

→

🎯

FINALIZEMD + DOCX + LaTeX → PDF

Stage 2.5 & Stage 4.5 的 Integrity Gate 不可跳过 · Material Passport 跨阶段溯源 · 可选跨模型验证

// 竞品对比

维度	academic-research-skills	scientific-agent-skills	mattpocock/skills	addyosmani/agent-skills
定位	学术研究全链路流水线	科研工具使用技能包	编程工程纪律规范	Google 工程最佳实践
Stars	18,181	22,456	76,055	32,996
目标用户	学术研究者 / 研究生	生信/化学/ML 研究者	软件工程师	前端 / 全栈工程师
覆盖范围	研究 → 写作 → 评审 → 修改	工具调用（BioPython/RDKit 等）	需求对齐 → 代码实现 → 发布	定义 → 设计 → 实现 → 发布
反幻觉机制	三层引用审计 + 跨索引验证	依赖上游工具准确性	反合理化（追问跳步）	反合理化（预置借口反驳）
输出格式	MD / DOCX / LaTeX / PDF	CLI 交互结果	代码 + PR	代码 + PR
引用格式	APA 7 / Chicago / MLA / IEEE / Vancouver	N/A	N/A	N/A
语言支持	中 / 英 / 日（意图检测任意语言）	英文为主	英文	英文
协议	CC BY-NC 4.0	MIT	MIT	MIT

跟 scientific-agent-skills 的关系最值得说清楚。两个项目都是给研究者用的 Claude Code 技能包，但解决的是完全不同的问题。scientific-agent-skills 教 AI 怎么用科研工具（BioPython 提取基因组、RDKit 跑分子对接），academic-research-skills 管的是整个论文生产流程。两者互补，甚至可以叠加使用。

跟 mattpocock/skills 和 addyosmani/agent-skills 的差异更大——那俩是给写代码的人用的，这个是给写论文的人用的。用户群几乎不重叠。

// 能力矩阵

流水线覆盖度

10 stages / 32+ agents / 23 modes

反幻觉能力

三层引用锚定 + 跨索引验证 + 时序审计

反阿谀机制

让步阈值 + 攻击强度保持 + 对话健康检测

引用格式支持

APA 7 / Chicago / MLA / IEEE / Vancouver

输出格式覆盖

MD + DOCX + LaTeX (APA/IEEE/Chicago) → PDF

迭代速度

20 releases / 421 commits / 日均 3+ commits

引用审计准确率

Showcase: 15/68 捏造引用抓出，独立审计 31% 残留

// verdict

综合评分

8.6 / 10

学术研究者用 Claude Code 的最佳搭档，没有之一

+ 流水线覆盖极其完整——从文献调研到终稿提交，10 个阶段 32+ Agent 23 种模式
+ 反幻觉工程量在同品类里断层领先，三层引用锚定 + 跨索引三角验证 + 时序审计
+ 反阿谀设计（让步阈值、攻击强度保持、对话健康检测）是学术 AI 工具里独一份
+ Style Calibration + Writing Quality Check 的思路很对——学你的风格，不是帮你"洗 AI 味"
+ 中英日三语支持 + 意图检测（任意语言可用）
+ 迭代速度恐怖：20 个 release、421 commits、日均 3+ commits
+ 一行安装，zero 依赖（Markdown 模式下）

- CC BY-NC 4.0 协议限制了商业用途，做付费学术服务的绕不开
- 独立后出版审计仍有 31% 引用问题残留，审计防线还没到"可信赖"的程度
- 只支持 Claude Code，Cursor/Codex 等需要用 sibling 分支版
- 完整流水线 $4-6/篇的成本对发展中国家研究者不算低
- 项目仅 3 个月历史（2026-02 创建），长期维护能力待验证
- 16 个 Open Issue + 0 Open PR 说明社区贡献活跃度不高

说句大实话：这个项目在我评测过的所有 Claude Code 技能包里，工程完成度是数一数二的。不是那种"有几个 SKILL.md 就发出来"的水平——光是反幻觉系统就迭代了 v2.7 到 v3.9 四个大版本，29 条反模式表、22 条 IRON RULE、7 模式阻塞检查清单、三索引交叉验证，这些不是拍脑袋写的，每一条背后都有学术论文撑着。

让我意外的是它的自我定位。"AI is your copilot, not the pilot"——这种克制在当前"AI 能帮你写论文"满天飞的环境里难得。它不回避 AI 的缺陷（甚至把 Lu et al. 的失败模式清单贴在门口当告示牌），而是把每一类失败模式都设计了对应的防线。这种"承认问题然后工程化解决"的思路，比那些"我们用了 GPT-4 所以一切 OK"的项目不知道高到哪里去了。

扣分点主要是两个：一是 CC BY-NC 4.0 协议——如果你想做付费学术辅导服务，这个协议是硬伤；二是引用审计的 31% 残留率，虽然已经比不用任何工具强太多了，但在学术场景下"漏掉 1/3 的问题引用"依然是不可接受的。

适合谁用：在读研究生、博士生、高校研究人员、任何需要频繁写英文学术论文的人。如果你还在手动管理 Zotero 引用、手动调 APA 格式、手动回复审稿意见——装上试试，这四个痛点它能解决三个半。

// links

GitHub 仓库 — Imbad0202/academic-research-skills

架构文档 — 完整流水线视图、阶段矩阵、依赖图

安装指南 — 5 种安装方式详解

性能文档 — Token 预算、成本估算

Experiment Agent — 配套实验执行工具（ARS Stage 1 → Stage 2 之间的桥梁）

Lu et al. (2026). The AI Scientist. Nature, 651, 914-919.

Zhao et al. (2026). arXiv:2605.07723 — 111M 引用审计，146,932 条幻觉引用