2026-05-16 | GitHub Trending AI 项目深度评测 No.35
Scientific Agent Skills:135 个科研技能,把 AI 助手变成实验室伙伴
不是教 AI 写更好的代码,而是让 AI 真正懂科研——BioPython、RDKit、Scanpy、PyMC……这些你每次都要翻文档的库,现在 AI 自己会用了。
Agent Skills
科研自动化
Python
MIT License
K-Dense AI
综合评分
8.4
/ 10
01 我是怎么关注到这个项目的
这周 GitHub Trending 几乎被 Agent Skills 类产品霸榜——mattpocock/skills、obra/superpowers、anthropics/skills 轮番上场。我一开始有点审美疲劳,心想又是另一套"工程师纪律"工具。
但点开 K-Dense-AI/scientific-agent-skills 的 README 之后,我发现它走的完全是另一条路。
它不是教 AI 怎么写更好的代码,而是直接把 BioPython、RDKit、Scanpy、PyMC 这些科研库"打包"成 AI 能理解的技能卡片。你对着 Claude Code 说一句"帮我做一个单细胞 RNA-seq 质控分析",它就会自动调用 Scanpy 技能,把完整代码、参数建议、可视化方案一次性给你。
对于每天都要在编程和科研之间切换的人来说,这个价值是实实在在的。
02 项目速览
项目背景
来自
K-Dense Inc.,一家专注于 AI + 科学计算的公司。他们还有一个商业产品
K-Dense Web,提供云端 GPU 和端到端研究管道——这个开源仓库可以理解为商业产品的"技能层开源版"。项目创建于 2025-10-19,至今约 7 个月,迭代速度极快(76 个 Releases,平均 4-5 天一版)。
03 135 个技能,覆盖了什么?
这是我花了最多时间研究的部分。项目的 scientific-skills/ 目录下按领域整理了 135 个技能,每个技能都是一个独立的文件夹,内含 SKILL.md + 示例代码 + references 文档。
生物信息学与基因组学(21+ 技能)
scanpy
单细胞分析核心
QC → 归一化 → PCA → UMAP → Leiden 聚类 → 标记基因,完整流程预制化,附带 qc_analysis.py 自动化脚本。
biopython
序列分析
序列比对、FASTA/GenBank 解析、系统发育树构建,BioPython 常用工作流一站式。
gget
Ensembl/NCBI 查询
用自然语言查询基因注释、表达数据,不需要手写 REST API 调用。
pydeseq2
差异表达分析
PyDESeq2 的 AI 友好封装,自动处理离散度估计和 Wald 检验。
arboreto
基因调控网络
推理基因调控网络的常用工具,配置复杂,技能里有完整的安装和运行示例。
cellxgene-census
CZI 单细胞数据
直接访问 Chan Zuckerberg Initiative 的 Census 数据,无需下载 TB 级文件。
化学信息学与药物发现(10+ 技能)
rdkit + datamol
分子操作
分子描述符计算、相似性搜索、子结构匹配,药物化学日常工具链。
diffdock
AI 分子对接
技能里直接提供了蛋白-配体输入的格式说明和输出解读指南。
deepchem
图神经网络药物发现
DeepChem 的常用模型(图卷积、注意力机制)调用示例。
pytdc
治疗诊断基准
PyTDC 数据集和基准测试,方便做方法学对比。
机器学习与 AI(16+ 技能)
这个板块并不只是"教 AI 用 PyTorch"那么简单,它更像是把科研场景下常用的 ML 工作流预制化了:
- PyTorch Lightning + Transformers:训练脚本模板,支持断点续训
- SHAP:模型可解释性分析,自动生成特征重要性图表
- PyMC:贝叶斯统计建模——MCMC 采样器配置很费时间,技能里有预设参数建议
- UMAP-learn:降维可视化,参数选择指南
- scikit-survival:生存分析,医学统计常用
科学数据库统一查询(100+ 数据库)
这是我觉得整个项目里最"工程化"的部分。有一个叫 database-lookup 的技能,封装了对 78 个公共数据库的 REST API 访问:
| 类别 | 代表数据库 | 用途 |
| 化学与药物 | PubChem, ChEMBL, ZINC, BindingDB | 分子查询、活性数据 |
| 基因组学 | UniProt, Ensembl, NCBI Gene, AlphaFold DB | 序列注释、结构数据 |
| 临床与医学 | ClinVar, COSMIC, ClinicalTrials.gov, FDA | 变异解读、临床试验 |
| 通路与网络 | KEGG, Reactome, STRING, BioGRID | 通路富集、蛋白互作 |
| 经济与金融 | FRED, USPTO, SEC EDGAR | 量化数据源(对AI副业有用) |
你不需要自己去查每个数据库的 API 文档,技能里直接给了调用示例和返回字段说明。
04 实际怎么用?
安装方式有三种,最推荐 npx 方式,跨平台最省事:
npx skills add K-Dense-AI/scientific-agent-skills
装完之后,技能会自动注入到你正在用的 AI 编程工具里。以 Claude Code 为例,你现在可以直接在对话框里说:
"用 Scanpy 分析这个 10X 数据,先做 QC,线粒体基因比例高于 5% 的细胞删掉,然后跑 UMAP 和 Leiden 聚类。"
Claude Code 会读取 scanpy/SKILL.md,按照里面定义的流程给你出代码,而不是凭"记忆"里零碎的 Scanpy 知识来写。
如果想装特定的技能(而不是全部 135 个),可以用 GitHub CLI:
# 安装特定技能
gh skill install K-Dense-AI/scientific-agent-skills --agent claude-code scanpy
# 安装多个技能
gh skill install K-Dense-AI/scientific-agent-skills --agent claude-code scanpy biopython rdkit
技能的标准目录结构如下:
scanpy/
├── SKILL.md # AI 读取的技能说明(核心文件)
├── scripts/ # 自动化脚本(如 qc_analysis.py)
├── references/ # 深入文档(API 参考、绘图指南等)
└── assets/ # 分析模板和配置文件
每个 SKILL.md 都包含:功能描述、依赖列表、代码示例、常见错误排查、相关资源链接。质量明显高于大多数"AI 生成"的文档。
05 和其他 Skills 项目比,它有什么不同?
| 项目 | Stars | 定位 | 适合人群 |
| anthropics/skills | 135K | Anthropic 官方示例技能 | 想了解 Anthropic 推荐实践的开发者 |
| mattpocock/skills | 85K | TypeScript 工程纪律 | 前端/全栈开发者 |
| addyosmani/agent-skills | 33K | Google 工程规范编译 | 软件工程师、团队 Leader |
| scientific-agent-skills | 22K | 科研+分析+写作技能 | 研究人员、数据科学家、量化分析师 |
核心差异在于:这个项目的技能不是关于"怎么写好代码",而是关于"怎么用好科研工具"。
它的竞品不是 mattpocock/skills,而是你自己花时间去看 BioPython 文档、去配 DiffDock 环境、去查每个数据库的 API 参数——这些东西它直接帮你封装好了。
与 K-Dense Web(商业版)的对比
| 特性 | 开源版(本仓库) | K-Dense Web(商业版) |
| 科学技能数量 | 135 个 | 200+ 个(独家访问) |
| setup 成本 | 需手动安装依赖 | 零设置,即刻使用 |
| 计算资源 | 你的本地机器 | 云端 GPU + HPC |
| 工作流 | 提示词 + 代码 | 端到端研究管道 |
| 输出 | 代码和分析 | 出版级图表、报告和论文 |
如果你只是想让 AI 帮你写分析代码,开源版完全够用。如果你需要"一键跑通整个研究管道"并且不想管 GPU 资源,商业版更合适。
06 有什么坑?
1. 技能太多,质量参差
135 个技能不可能每个都经过充分测试。有些技能(比如比较冷门的 glycoengineering)的 SKILL.md 内容相对简单,实际用起来可能还需要自己补充。
2. 依赖安装是用户自己的事
技能会告诉你"你需要安装 Scanpy",但不会帮你自动装好。好消息是每个 SKILL.md 里都有 dependencies 字段,列出了需要 pip/conda 安装的包名。
# SKILL.md 里的依赖声明示例
# dependencies:
# - scanpy
# - anndata
# - matplotlib
# - seaborn
3. License 需要逐个检查
MIT License 只覆盖技能描述文件,不覆盖被调用的库。官方在 README 里有明确说明——每个技能的 SKILL.md 头部有一个 license 字段,那个才是这个技能调用具体库的 license 引用。用之前最好看一眼。
4. 对国内网络环境不太友好
78 个数据库里不少是国外服务(NCBI、ChEMBL 等),在国内访问不稳定,技能本身解决不了网络问题。建议配合科研 VPN 或镜像源使用。
5. 需要一定的科研基础
这个工具是促进效率的,不是"零基础做科研"的魔法棒。如果你不知道 PCA 和 UMAP 的区别,技能给出的参数建议你也无法判断是否合理。
07 综合评分明细
实用性
8.5
对科研用户价值极高,但技能质量有差异
文档质量
8.5
SKILL.md 结构统一,有代码示例和 references
生态活跃度
8.0
76 个 Releases,平均 4-5 天一版
差异化价值
9.0
科研向 Agent Skills 几乎没人做,它是最系统的
08 值得收藏吗?
如果你符合以下任一情况,我觉得值得加进 GitHub Star 列表:
- 你是生物信息学 / 计算生物学 / 药物发现方向的研究人员,每天都在跟 Python 科研库打交道
- 你用 Claude Code 或 Cursor 辅助写分析代码,但经常要停下来去查库文档
- 你在做量化金融,需要快速调用财务数据源(项目里也有 Bloomberg/SEC EDGAR 相关的技能)
- 你需要写科研论文或技术报告,项目里有
scientific-writing、peer-review、latex-posters 等写作类技能
它不会帮你"写更好的代码",但会帮你少翻很多文档。对于科研人来说,时间就是论文,论文就是一切。
项目地址:github.com/K-Dense-AI/scientific-agent-skills