~/reviews · academic-research-skills · 2026-05-22

cat README.md

academic-research-skills

Claude Code 上的学术研究全链路工具包。从文献调研到论文完稿,从同行评审到修改回复,一套技能覆盖完整研究流水线。内置反幻觉、反阿谀、引用真实性审计——把 AI 从"代写工具"拉回"研究助手"该在的位置。

Claude Code Academic Writing Anti-Hallucination Peer Review Citation Audit CC BY-NC 4.0

// 目录

概览 为什么需要它 四大技能模块 安装上手 反 AI 幻觉三板斧 流水线架构 竞品对比 能力矩阵 博主观点 参考链接

// 概览

Total Stars
18,181
今日 +2,579,GitHub Trending AI 类第 3 名
Forks / Issues
1,600 / 16
421 commits · 20 releases · v3.9.4.2
Tech Stack
Python 97.4%
CC BY-NC 4.0 · Claude Code Plugin · 中英日三语 README
Pipeline Stages
10
Research → Write → Integrity Gate → Review → Revise → Finalize
Total Agents
32+
Deep Research 13 + Paper 12 + Reviewer 7 + Pipeline 编排
Slash Commands
10
ars-plan / ars-lit-review / ars-full / ars-review / ars-fact-check 等

// 为什么需要它

我写过论文,也带过学弟妹写论文。这个过程里最磨人的部分不是"写不出来"——多数时候你脑子里是有东西的——而是找文献找半天、引用格式改到手抽筋、审稿意见一条条回、改完发现引了个根本不存在的参考文献。每一个环节都在消耗你本该用来思考的时间。

academic-research-skills 解决的就是这堆脏活累活。它的定位很明确:"AI is your copilot, not the pilot." 不是帮你写论文,是帮你把找文献、格式引用、检查逻辑一致性这些体力活自动化掉,让你专注在真正需要人脑的部分——定义研究问题、选择方法、解释数据、写原创论证。

更有意思的是它的出发点。项目引用了 Lu et al. (2026, Nature) 的研究——他们造了"AI Scientist",第一个通过盲审在 ICLR 2025 workshop 发表的完全自主 AI 研究系统。但这篇论文的 Limitations 部分列了一堆全自主流水线踩过的坑:实现 bug、幻觉结果、走捷径、把 bug 当洞见、伪造方法论、认知锁死、引用幻觉。ARS 的核心理念就是:人 + AI 的组合比任何一方单独干都靠谱

另一个推动力来自 Zhao et al. (2026) 的大规模审计——他们扫了 250 万篇论文的 1.11 亿条引用,保守估计 2025 年仅一年就有 146,932 条幻觉引用。这个数字让我后背发凉。ARS v3.7 之后的整个引用审计系统就是冲着这个数据去的。

// 四大技能模块

1. Deep Research — 13 个 Agent 的研究团队

这是流水线的起点。7 种模式覆盖了你能想到的所有研究场景:

full 模式跑完整的 13-agent 研究管线;systematic-review 支持 PRISMA 协议做系统综述;socratic 模式特别有意思——它会通过意图检测判断你是在"探索"还是"有明确目标",探索模式会关掉自动收敛,最多陪你聊 60 轮。fact-check 直接验证你抛给它的论断。还有 lit-reviewreview 分别做文献综述和研究质量评审。

所有模式都接了 Semantic Scholar API 做交叉验证,可选开启跨模型分歧分析(用 GPT-5.4 Pro 或 Gemini 3.1 Pro 做独立检验)。

2. Academic Paper — 12 个 Agent 的写作工厂

10 种模式。除了常规的 full(完整论文)、plan(苏格拉底式引导写作)、outline-only(只搭骨架),有几个让我眼前一亮:

Style Calibration 会从你过去的论文里学习你的写作风格,然后检查新稿件是不是"像你写的"。这不是帮你骗审稿人——项目原话是"Unlike a humanizer, this tool doesn't help you hide the fact that you used AI. It helps you write better." Writing Quality Check 会抓 25 个高频 AI 生成用词、标点控制模式、结构化模式警告。

revision-coach 模式帮你拆解审稿意见——把一堆"请修改 XXX"整理成可执行的修改路线图。disclosure 直接帮你生成 NeurIPS 等会议要求的 AI 使用声明。format-convert 支持 APA 7.0、Chicago、MLA、IEEE、Vancouver 五种引用格式互转。

输出格式也很全:Markdown + DOCX(通过 Pandoc)+ LaTeX(APA 7.0 / IEEE / Chicago)→ PDF(通过 tectonic)。中英文双语摘要也没问题。

3. Academic Paper Reviewer — 7 个 Agent 的评审团

这个模块模拟了一个完整的同行评审流程:EIC(主编)+ 3 个动态审稿人 + Devil's Advocate(魔鬼代言人)

决策用 0-100 质量评分体系:≥80 接收、65-79 小修、50-64 大修、<50 拒稿。Devil's Advocate 有个让步阈值协议—— rebuttal 评分到 4/5 以上才让步,不允许连续让步,还会追踪让步率防止认知锁死。这意味着评审不会因为你多说了两句就软下来。

calibration 模式可以用你的黄金标准数据集来校准审稿人,让它更贴合你所在领域的评审标准。re-review 在你改完之后验证修改是否到位。

4. Academic Pipeline — 10 阶段总编排

这是把上面三个模块串起来的调度器。完整流水线:

Stage 1 RESEARCH → Stage 2 WRITE → Stage 2.5 Integrity Gate(不可跳过)→ Stage 3 PEER REVIEW → Stage 3' Re-Review → Stage 4 REVISION → Stage 4.5 Integrity Gate(不可跳过)→ Stage 5 FINALIZE → Stage 6 PROCESS SUMMARY。

Stage 2.5 和 4.5 是两道强制完整性门控,跑 7 模式阻塞检查清单——引文验证、数据一致性、逻辑链完整性——通不过就卡在那里。支持从任意中间阶段进入(如果你已经有草稿,可以直接从 Stage 2.5 或 Stage 4 开始)。

还有一个"Material Passport"系统,像学术版的护照一样追踪每个研究产物的来源和流转,支持跨会话恢复。

// 安装上手

前置条件就一个:Claude Code(v3.7.0+)加上 ANTHROPIC_API_KEY。不需要装 Python 依赖——这是一套 Claude Code 的 skill/prompt,不是传统 Python 包。

# 一行安装(推荐,Claude Code Plugin 方式) /plugin marketplace add Imbad0202/academic-research-skills /plugin install academic-research-skills # 验证安装 /ars-plan # 苏格拉底式对话,帮你规划论文结构 /ars-lit-review "AI对教育评估的影响" # 直接出一篇文献综述 /ars-fact-check # 事实核查模式 /ars-disclosure # 生成 AI 使用声明

除了 Plugin 方式,还支持 Project Skills、Global Skills、claude.ai Project、传统 git clone + symlink 五种安装方式。Codex CLI 用户也有专门的 sibling 分发版本。

可选依赖:Pandoc(DOCX 输出)、tectonic + Source Han Serif TC(APA 7.0 PDF)。不装也行,Markdown 输出不受影响。

模型路由有讲究:full 和 revision-coach 用 opus(最贵的,但也最靠谱),其余 8 个命令用 sonnet。项目明确说不用 haiku——对学术内容质量要求高,省不了这个 token。

完整跑一遍 1.5 万字论文的流水线,成本大约 $4-6。说实话,考虑到人工找文献、格式引用、校对的时间成本,这个价格很值。

// 反 AI 幻觉三板斧

这个项目最硬核的部分不是"能帮你写论文",而是花了大量工程量在防止 AI 犯蠢。三层防线:

第一层:反阿谀系统(v3.0+)。AI 天生倾向顺着人类说,这在学术场景是致命的。ARS 的 Devil's Advocate 有让步阈值协议(rebuttal 不到 4 分不让步)、攻击强度保持(不会因为你反驳就软下来)、对话健康指标(每 5 轮静默自检,检测"持续同意""回避冲突""过早收敛")。Socratic Mentor 会区分你是"探索性提问"还是"目标导向",探索模式下关掉自动收敛。

第二层:反上下文腐烂(v3.1+)。长对话中 AI 容易"忘记"前面定好的规则。ARS 写了 29 条显式反模式表(tabular 格式,标注"为什么不行"和"正确行为"),22 条 IRON RULE 硬标记在关键规则上。每个管线转换点强制刷新上下文,FULL 检查点时还会跑自检问题。

第三层:引用真实性审计(v3.7+)。三层引用锚定——每条引用标注 {quote, page, section, paragraph, none} 来源定位,quote 锚定上限 25 词。可选开启 claim-faithfulness 审计(ARS_CLAIM_AUDIT=1),会去抓被引原文验证你的论述是否有据可查,5 类 HIGH-WARN 直接拒绝输出:claim-not-supported、fabricated-reference、anchorless 等。v3.9.0 加了三索引交叉验证(Semantic Scholar + OpenAlex + Crossref),v3.9.4 加了时序验证层,检测"回溯性算术错误""年代错位引用""因果倒置"等 5 种时序失败模式。

Showcase 里有个真实案例:Stage 2.5 的完整性报告抓出了 15 条捏造引用 + 3 个统计错误。Stage 4.5 最终验证确认零回归。不过后续的独立后出版审计还是在 68 个引用里发现了 21 个问题(31% 错误率),说明防线虽强但还没到完美。


// 流水线架构

🔍
RESEARCH13 Agents · 7 Modes
WRITE12 Agents · 10 Modes
🔄
INTEGRITY7-Mode Check · Gate
📝
REVIEWEIC + 3R + DA · 6 Modes
🎯
FINALIZEMD + DOCX + LaTeX → PDF
Stage 2.5 & Stage 4.5 的 Integrity Gate 不可跳过 · Material Passport 跨阶段溯源 · 可选跨模型验证

// 竞品对比

维度 academic-research-skills scientific-agent-skills mattpocock/skills addyosmani/agent-skills
定位 学术研究全链路流水线 科研工具使用技能包 编程工程纪律规范 Google 工程最佳实践
Stars 18,181 22,456 76,055 32,996
目标用户 学术研究者 / 研究生 生信/化学/ML 研究者 软件工程师 前端 / 全栈工程师
覆盖范围 研究 → 写作 → 评审 → 修改 工具调用(BioPython/RDKit 等) 需求对齐 → 代码实现 → 发布 定义 → 设计 → 实现 → 发布
反幻觉机制 三层引用审计 + 跨索引验证 依赖上游工具准确性 反合理化(追问跳步) 反合理化(预置借口反驳)
输出格式 MD / DOCX / LaTeX / PDF CLI 交互结果 代码 + PR 代码 + PR
引用格式 APA 7 / Chicago / MLA / IEEE / Vancouver N/A N/A N/A
语言支持 中 / 英 / 日(意图检测任意语言) 英文为主 英文 英文
协议 CC BY-NC 4.0 MIT MIT MIT

跟 scientific-agent-skills 的关系最值得说清楚。两个项目都是给研究者用的 Claude Code 技能包,但解决的是完全不同的问题。scientific-agent-skills 教 AI 怎么用科研工具(BioPython 提取基因组、RDKit 跑分子对接),academic-research-skills 管的是整个论文生产流程。两者互补,甚至可以叠加使用。

跟 mattpocock/skills 和 addyosmani/agent-skills 的差异更大——那俩是给写代码的人用的,这个是给写论文的人用的。用户群几乎不重叠。


// 能力矩阵

流水线覆盖度
10 stages / 32+ agents / 23 modes
反幻觉能力
三层引用锚定 + 跨索引验证 + 时序审计
反阿谀机制
让步阈值 + 攻击强度保持 + 对话健康检测
引用格式支持
APA 7 / Chicago / MLA / IEEE / Vancouver
输出格式覆盖
MD + DOCX + LaTeX (APA/IEEE/Chicago) → PDF
迭代速度
20 releases / 421 commits / 日均 3+ commits
引用审计准确率
Showcase: 15/68 捏造引用抓出,独立审计 31% 残留

// verdict

综合评分
8.6 / 10
学术研究者用 Claude Code 的最佳搭档,没有之一
+ 流水线覆盖极其完整——从文献调研到终稿提交,10 个阶段 32+ Agent 23 种模式
+ 反幻觉工程量在同品类里断层领先,三层引用锚定 + 跨索引三角验证 + 时序审计
+ 反阿谀设计(让步阈值、攻击强度保持、对话健康检测)是学术 AI 工具里独一份
+ Style Calibration + Writing Quality Check 的思路很对——学你的风格,不是帮你"洗 AI 味"
+ 中英日三语支持 + 意图检测(任意语言可用)
+ 迭代速度恐怖:20 个 release、421 commits、日均 3+ commits
+ 一行安装,zero 依赖(Markdown 模式下)
- CC BY-NC 4.0 协议限制了商业用途,做付费学术服务的绕不开
- 独立后出版审计仍有 31% 引用问题残留,审计防线还没到"可信赖"的程度
- 只支持 Claude Code,Cursor/Codex 等需要用 sibling 分支版
- 完整流水线 $4-6/篇的成本对发展中国家研究者不算低
- 项目仅 3 个月历史(2026-02 创建),长期维护能力待验证
- 16 个 Open Issue + 0 Open PR 说明社区贡献活跃度不高

说句大实话:这个项目在我评测过的所有 Claude Code 技能包里,工程完成度是数一数二的。不是那种"有几个 SKILL.md 就发出来"的水平——光是反幻觉系统就迭代了 v2.7 到 v3.9 四个大版本,29 条反模式表、22 条 IRON RULE、7 模式阻塞检查清单、三索引交叉验证,这些不是拍脑袋写的,每一条背后都有学术论文撑着。

让我意外的是它的自我定位。"AI is your copilot, not the pilot"——这种克制在当前"AI 能帮你写论文"满天飞的环境里难得。它不回避 AI 的缺陷(甚至把 Lu et al. 的失败模式清单贴在门口当告示牌),而是把每一类失败模式都设计了对应的防线。这种"承认问题然后工程化解决"的思路,比那些"我们用了 GPT-4 所以一切 OK"的项目不知道高到哪里去了。

扣分点主要是两个:一是 CC BY-NC 4.0 协议——如果你想做付费学术辅导服务,这个协议是硬伤;二是引用审计的 31% 残留率,虽然已经比不用任何工具强太多了,但在学术场景下"漏掉 1/3 的问题引用"依然是不可接受的。

适合谁用:在读研究生、博士生、高校研究人员、任何需要频繁写英文学术论文的人。如果你还在手动管理 Zotero 引用、手动调 APA 格式、手动回复审稿意见——装上试试,这四个痛点它能解决三个半。


GitHub 仓库 — Imbad0202/academic-research-skills

架构文档 — 完整流水线视图、阶段矩阵、依赖图

安装指南 — 5 种安装方式详解

性能文档 — Token 预算、成本估算

Experiment Agent — 配套实验执行工具(ARS Stage 1 → Stage 2 之间的桥梁)

Lu et al. (2026). The AI Scientist. Nature, 651, 914-919.

Zhao et al. (2026). arXiv:2605.07723 — 111M 引用审计,146,932 条幻觉引用