2026-05-16  |  GitHub Trending AI 项目深度评测 No.35

Scientific Agent Skills:135 个科研技能,把 AI 助手变成实验室伙伴

不是教 AI 写更好的代码,而是让 AI 真正懂科研——BioPython、RDKit、Scanpy、PyMC……这些你每次都要翻文档的库,现在 AI 自己会用了。

Agent Skills 科研自动化 Python MIT License K-Dense AI
综合评分 8.4 / 10
目录
  1. 我是怎么关注到这个项目的
  2. 项目速览
  3. 135 个技能,覆盖了什么?
  4. 实际怎么用?
  5. 和其他 Skills 项目比,它有什么不同?
  6. 有什么坑?
  7. 综合评分明细
  8. 值得收藏吗?
  9. 参考链接

01 我是怎么关注到这个项目的

这周 GitHub Trending 几乎被 Agent Skills 类产品霸榜——mattpocock/skills、obra/superpowers、anthropics/skills 轮番上场。我一开始有点审美疲劳,心想又是另一套"工程师纪律"工具。

但点开 K-Dense-AI/scientific-agent-skills 的 README 之后,我发现它走的完全是另一条路。

它不是教 AI 怎么写更好的代码,而是直接把 BioPython、RDKit、Scanpy、PyMC 这些科研库"打包"成 AI 能理解的技能卡片。你对着 Claude Code 说一句"帮我做一个单细胞 RNA-seq 质控分析",它就会自动调用 Scanpy 技能,把完整代码、参数建议、可视化方案一次性给你。

对于每天都要在编程和科研之间切换的人来说,这个价值是实实在在的。

02 项目速览

总 Star
22,456
今日新增
+646
Fork
2,428
Open Issues
33
总 Releases
76 个
最新版本
v2.38.0
主要语言
Python 78.3%
License
MIT
项目背景
来自 K-Dense Inc.,一家专注于 AI + 科学计算的公司。他们还有一个商业产品 K-Dense Web,提供云端 GPU 和端到端研究管道——这个开源仓库可以理解为商业产品的"技能层开源版"。项目创建于 2025-10-19,至今约 7 个月,迭代速度极快(76 个 Releases,平均 4-5 天一版)。

03 135 个技能,覆盖了什么?

这是我花了最多时间研究的部分。项目的 scientific-skills/ 目录下按领域整理了 135 个技能,每个技能都是一个独立的文件夹,内含 SKILL.md + 示例代码 + references 文档。

生物信息学与基因组学(21+ 技能)

scanpy
单细胞分析核心
QC → 归一化 → PCA → UMAP → Leiden 聚类 → 标记基因,完整流程预制化,附带 qc_analysis.py 自动化脚本。
biopython
序列分析
序列比对、FASTA/GenBank 解析、系统发育树构建,BioPython 常用工作流一站式。
gget
Ensembl/NCBI 查询
用自然语言查询基因注释、表达数据,不需要手写 REST API 调用。
pydeseq2
差异表达分析
PyDESeq2 的 AI 友好封装,自动处理离散度估计和 Wald 检验。
arboreto
基因调控网络
推理基因调控网络的常用工具,配置复杂,技能里有完整的安装和运行示例。
cellxgene-census
CZI 单细胞数据
直接访问 Chan Zuckerberg Initiative 的 Census 数据,无需下载 TB 级文件。

化学信息学与药物发现(10+ 技能)

rdkit + datamol
分子操作
分子描述符计算、相似性搜索、子结构匹配,药物化学日常工具链。
diffdock
AI 分子对接
技能里直接提供了蛋白-配体输入的格式说明和输出解读指南。
deepchem
图神经网络药物发现
DeepChem 的常用模型(图卷积、注意力机制)调用示例。
pytdc
治疗诊断基准
PyTDC 数据集和基准测试,方便做方法学对比。

机器学习与 AI(16+ 技能)

这个板块并不只是"教 AI 用 PyTorch"那么简单,它更像是把科研场景下常用的 ML 工作流预制化了:

科学数据库统一查询(100+ 数据库)

这是我觉得整个项目里最"工程化"的部分。有一个叫 database-lookup 的技能,封装了对 78 个公共数据库的 REST API 访问:

类别代表数据库用途
化学与药物PubChem, ChEMBL, ZINC, BindingDB分子查询、活性数据
基因组学UniProt, Ensembl, NCBI Gene, AlphaFold DB序列注释、结构数据
临床与医学ClinVar, COSMIC, ClinicalTrials.gov, FDA变异解读、临床试验
通路与网络KEGG, Reactome, STRING, BioGRID通路富集、蛋白互作
经济与金融FRED, USPTO, SEC EDGAR量化数据源(对AI副业有用)
你不需要自己去查每个数据库的 API 文档,技能里直接给了调用示例和返回字段说明。

04 实际怎么用?

安装方式有三种,最推荐 npx 方式,跨平台最省事:

npx skills add K-Dense-AI/scientific-agent-skills

装完之后,技能会自动注入到你正在用的 AI 编程工具里。以 Claude Code 为例,你现在可以直接在对话框里说:

"用 Scanpy 分析这个 10X 数据,先做 QC,线粒体基因比例高于 5% 的细胞删掉,然后跑 UMAP 和 Leiden 聚类。"

Claude Code 会读取 scanpy/SKILL.md,按照里面定义的流程给你出代码,而不是凭"记忆"里零碎的 Scanpy 知识来写。

如果想装特定的技能(而不是全部 135 个),可以用 GitHub CLI:

# 安装特定技能
gh skill install K-Dense-AI/scientific-agent-skills --agent claude-code scanpy

# 安装多个技能
gh skill install K-Dense-AI/scientific-agent-skills --agent claude-code scanpy biopython rdkit

技能的标准目录结构如下:

scanpy/
├── SKILL.md          # AI 读取的技能说明(核心文件)
├── scripts/          # 自动化脚本(如 qc_analysis.py)
├── references/       # 深入文档(API 参考、绘图指南等)
└── assets/           # 分析模板和配置文件

每个 SKILL.md 都包含:功能描述、依赖列表、代码示例、常见错误排查、相关资源链接。质量明显高于大多数"AI 生成"的文档。

05 和其他 Skills 项目比,它有什么不同?

项目Stars定位适合人群
anthropics/skills135KAnthropic 官方示例技能想了解 Anthropic 推荐实践的开发者
mattpocock/skills85KTypeScript 工程纪律前端/全栈开发者
addyosmani/agent-skills33KGoogle 工程规范编译软件工程师、团队 Leader
scientific-agent-skills22K科研+分析+写作技能研究人员、数据科学家、量化分析师

核心差异在于:这个项目的技能不是关于"怎么写好代码",而是关于"怎么用好科研工具"

它的竞品不是 mattpocock/skills,而是你自己花时间去看 BioPython 文档、去配 DiffDock 环境、去查每个数据库的 API 参数——这些东西它直接帮你封装好了。

与 K-Dense Web(商业版)的对比

特性开源版(本仓库)K-Dense Web(商业版)
科学技能数量135 个200+ 个(独家访问)
setup 成本需手动安装依赖零设置,即刻使用
计算资源你的本地机器云端 GPU + HPC
工作流提示词 + 代码端到端研究管道
输出代码和分析出版级图表、报告和论文

如果你只是想让 AI 帮你写分析代码,开源版完全够用。如果你需要"一键跑通整个研究管道"并且不想管 GPU 资源,商业版更合适。

06 有什么坑?

1. 技能太多,质量参差

135 个技能不可能每个都经过充分测试。有些技能(比如比较冷门的 glycoengineering)的 SKILL.md 内容相对简单,实际用起来可能还需要自己补充。

2. 依赖安装是用户自己的事

技能会告诉你"你需要安装 Scanpy",但不会帮你自动装好。好消息是每个 SKILL.md 里都有 dependencies 字段,列出了需要 pip/conda 安装的包名。

# SKILL.md 里的依赖声明示例
# dependencies:
#   - scanpy
#   - anndata
#   - matplotlib
#   - seaborn

3. License 需要逐个检查

MIT License 只覆盖技能描述文件,不覆盖被调用的库。官方在 README 里有明确说明——每个技能的 SKILL.md 头部有一个 license 字段,那个才是这个技能调用具体库的 license 引用。用之前最好看一眼。

4. 对国内网络环境不太友好

78 个数据库里不少是国外服务(NCBI、ChEMBL 等),在国内访问不稳定,技能本身解决不了网络问题。建议配合科研 VPN 或镜像源使用。

5. 需要一定的科研基础

这个工具是促进效率的,不是"零基础做科研"的魔法棒。如果你不知道 PCA 和 UMAP 的区别,技能给出的参数建议你也无法判断是否合理。

07 综合评分明细

实用性
8.5
对科研用户价值极高,但技能质量有差异
易用性
8.0
安装简单,但依赖需自行管理
文档质量
8.5
SKILL.md 结构统一,有代码示例和 references
生态活跃度
8.0
76 个 Releases,平均 4-5 天一版
差异化价值
9.0
科研向 Agent Skills 几乎没人做,它是最系统的
综合评分
8.4
值得科研 AI 工作者关注

08 值得收藏吗?

如果你符合以下任一情况,我觉得值得加进 GitHub Star 列表:

它不会帮你"写更好的代码",但会帮你少翻很多文档。对于科研人来说,时间就是论文,论文就是一切。

项目地址:github.com/K-Dense-AI/scientific-agent-skills