~/reviews · xbtlin/ai-berkshire · 2026-06-29

cat README.md | head -200

ai-berkshire

'"/>

AI 时代的伯克希尔：基于 Claude Code / Codex 的价值投资研究框架。巴菲特·芒格·段永平·李录四大师方法论 + 多 Agent 并行研究。一个人 + Claude Code = 一个投研团队。

Claude Code Codex Value Investing Multi-Agent MCP MIT

// 目录

真实问题为什么值得讲我的判断数据概览整体架构 18 个 Skills vs 直接问 AI 实盘战绩竞品对比综合评分我的启发参考链接

// 数据概览

Total Stars

5,293

+1,445 今日（GitHub Trending AI 项目涨幅第一）

Forks

720

Fork/Star = 0.136，中等实用信号

Open Issues

社区活跃，问题少且响应快

License

MIT

完全开源，可商用

Language

Python

实际为 markdown skills + scripts 为主

Created

2026-04-07

三个月冲到 5K Star，最新 push 2026-06-28

// 我的真实问题

上周有个读者私信问我：你天天评测 GitHub AI 项目，有没有那种"AI 直接接管一个完整专业领域"的案例？

我想了想，其实有。但过去一年我看的多数项目都是"AI 加一点点的工程"——给视频加字幕，给文档加摘要，给代码加注释。本质上是把 AI 塞进一个老工具里。

今天这个不一样。它要做的是：把巴菲特、芒格、段永平、李录四位价值投资大师几十年的方法论，编码成 Claude Code 和 Codex 能跑的 18 个 Skill。然后让 AI 真的按这套打法去做投资研究——不是写一篇"一方面另一方面"的废话，是给出明确的"通过/不通过/灰色"判断，附价格区间和分层建议。

我盯着那 1,445 个今天的 Star 看了好一会儿。这种涨幅，AI 项目里我一年也见不到几次。

// 为什么这件事值得讲

投资研究这个领域，过去三十年最大的变化是什么？不是数据变多（数据早就过载了），不是模型变强（金融模型从 70 年代就有），而是研究流程的工业化。卖方分析师覆盖 200 只股票、对冲基金研究员 12 个月蹲一家公司，这种"人盯人"的研究方式成本高得离谱。

AI Berkshire 想做的事很直接：让一个人 + Claude Code / Codex 顶一个投研团队。它不预测股价（谁预测谁骗子），它解决的是研究质量的下限——把"该问的问题必须问到、该验的数据必须验准"这件事流程化、自动化、可复现。

这种项目一旦跑通，影响的不只是投资圈，而是任何"专业经验 + 框架思维"的领域——法律、医学诊断、咨询、战略。

// 我的判断

AI Berkshire 的核心创新不是"用 AI 做投资研究"，是把"四位大师互相挑战"这件事做成结构化对抗机制——单 prompt 永远做不到多视角真实碰撞。

这跟之前评测过的 Cognee（AI 记忆层）、gstack（一人做工程）、Ponytail（克制编码）是同一类项目：AI 时代的"流程基础设施"。它们不卖更强模型，卖的是"正确的做事方式"。

// 实盘战绩（来自作者富途证券真实账户）

作者在 README 中公开了 2024 全年与 2025 至今的真实账户截图，下方两张图为原图嵌入。

2024 全年实盘收益 +69.29%（富途证券真实账户截图）

2025 年至今实盘收益 +66.38%（富途证券真实账户截图）

// 与全球主要指数对比

AI Berkshire (2024)

+69.29%

纳斯达克 (2024)

+28.64%

标普 500 (2024)

+23.31%

恒生指数 (2024)

+17.67%

沪深 300 (2024)

+14.68%

2024 年超额收益：跑赢标普 500 46 个百分点，跑赢恒生指数 52 个百分点。两年累计实盘收益超 146 万元。免责声明：历史收益不代表未来表现。

// 整体架构

项目官方架构图如下（原图嵌入）：

AI Berkshire 整体架构（Skill 层 18 个入口 → Agent 层 4 个并行 Agent → 工具层精确计算与检索）

📚

Skill 层18 个明确入口（投研/财报/行业/持仓/思维）

→

🤖

Agent 层4 Agent 并行（段永平/巴菲特/芒格/李录）

→

🧰

工具层精确计算 + 实时检索 + 报告抽检

→

📊

决策报告强制结论 + 价格区间 + 分层建议

三层架构的核心：流程结构化 + 多视角对抗 + 数据严谨性

// 四大师方法论融合

# 四位大师不是分工，是设计来互相挑战的段永平说"好生意" → 芒格会问"怎么会死" 巴菲特说"够便宜" → 李录会问"10 年后还在吗" 你得到的不是四份报告的拼接而是四种思维方式的碰撞

// 18 个 Skills 速览

// 深度研究类（5 个）

Skill	用途	适合场景
`/investment-research`	四大师综合分析	对一家上市公司做全方位投研
`/investment-team`	多 Agent 并行投研	4 Agent 并行研究，最快最全面
`/management-deep-dive`	管理层纵深研究	"买股票就是买人"——当管理层是核心变量时
`/private-company-research`	未上市公司研究	蚂蚁、SpaceX 等信息稀缺标的
`/deep-company-series`	8 篇 12 万字深度长文	公众号级深度系列

// 财报分析类（2 个）

Skill	用途	适合场景
`/earnings-review`	财报精读（一手资料）	只读原始财报，不依赖二手研报
`/earnings-team`	四大师并行解读 + 公众号发布	作者/编辑/读者三 Agent 协作

// 行业筛选类（5 个）

Skill	用途	适合场景
`/industry-research`	产业链全景扫描	研究行业全部投资机会（按环节切片）
`/industry-funnel`	行业漏斗筛选	全市场 → ≤10 家 → 终选 3 家
`/quality-screen`	去劣筛选（7 条硬指标）	快速排除非一流公司
`/bottleneck-hunter`	供应链瓶颈猎手	从超级趋势找物理瓶颈与套利机会
`/investment-checklist`	巴菲特买入前 6 关 Checklist	10 分钟决定是否值得深入

// 持仓管理类（3 个）

Skill	用途	适合场景
`/portfolio-review`	组合管理与优化	从"研究公司"升级到"管理组合"
`/thesis-tracker`	投资论文追踪	买入后的纪律系统：跟踪论文是否被证伪
`/news-pulse`	股价异动快速归因	股价大涨/大跌 10 分钟搞清"发生了什么"

// 思维工具类（3 个）

Skill	用途	适合场景
`/dyp-ask`	段永平问答	以段永平方式思考任何问题
`/financial-data`	财务数据交叉验证规范	关键数据 2 个独立来源，误差 > 1% 告警
`/wechat-article`	微信公众号文章	作者/编辑/读者三 Agent 协作发布

// 为什么不能直接问 AI？

我试用了几次这个框架。最直接的体感是：直接问 AI 投资问题，得到的是"正确但无用"的废话。

// 差异 1：强制给结论，不打太极

普通 AI 回答

AI Berkshire 输出

"拼多多有增长潜力但也面临竞争压力，投资者需要权衡..."

激进型	当前价位可建仓 20%	$95-105
稳健型	等回购政策明确后建仓	$85-95
保守型	不符合 10 年确定性标准	观望

差异在哪？不是 AI 不知道这些，是没人逼它输出结论。AI Berkshire 在 prompt 层强制"镜子测试"——5 句话说不出完整买入理由 = 不买，没有例外。

// 差异 2：四大师的真实对抗（以拼多多为例）

大师视角	评分	核心判断
段永平（商业模式）	3.7 / 5	好生意，C2M 模式难以复制
巴菲特（财务估值）	4.4 / 5	扣现金 PE 仅 6.3x，印钞机
芒格（逆向思考）	3.5 / 5	护城河比想象中浅，抖音 3 年做到 4 万亿 GMV
李录（长期确定性）	2.0 / 5	管理层文化有隐患，10 年后不确定

巴菲特说"真便宜"，李录说"不确定就不买"——这种冲突才是投资决策的真实状态。单一 prompt 制造不出来这种多视角对抗。

// 差异 3：反偏见机制

机制	解决的问题
信息丰富度评级（A/B/C）	防止"资料多 = 确定性高"的幻觉
芒格式逆向检验	强制思考失败场景
快速否决清单	8 条红线一票否决
反共识检查	避免和市场想的一样
留白原则	宁可说"不知道"，不用推测伪装确定性

// 差异 4：金融数据的精确性

# 市值手算校验：股价 × 总股本，与报告数据对比 $ python3 tools/financial_rigor.py verify-market-cap \ --price 510 --shares 9.11e9 --reported 4.65e12 --currency HKD # ✅ 验证通过，偏差仅 0.08% # 所有计算使用 Python decimal.Decimal（精确十进制） # 关键数据至少 2 个独立来源交叉验证，误差 > 1% 自动告警 # 内置 Benford 定律检测（会计舞弊识别经典工具）

// 差异 5：多 Agent 并行（最关键的工程创新）

/investment-team 启动 4 个独立 Agent 同时研究一家公司。每个 Agent 各自搜索网络、交叉验证数据、独立给出结论。这不是把一个 prompt 拆四段，是 4 个"分析师"各自做了完整研究，Team Lead 再综合。

┌─────────────────────────────────────────────┐ │ Team Lead (你) │ │ 统筹协调 · 汇总研判 │ ├──────┬──────┬──────────┬───────────┤ │ Agent 1 │ Agent 2 │ Agent 3 │ Agent 4 │ │ 商业模式 │ 财务估值 │ 行业竞争 │ 风险管理层 │ │ 段永平视角 │ 巴菲特视角 │ 芒格视角 │ 李录视角 │ └──────┴──────┴──────────┴───────────┘ ↓ 并行研究，实时汇报进度 ↓ 最终综合报告

一个人直接问 AI，上下文窗口是一个。4 个 Agent 并行，等于 4 倍搜索量、4 倍信息源、4 个独立视角。

// 快速开始

// 1. 安装 AI 客户端

# Claude Code $ npm install -g @anthropic-ai/claude-code # Codex (macOS / Linux) $ curl -fsSL https://chatgpt.com/codex/install.sh | sh $ codex --version

// 2. 安装 Skills

# 克隆仓库 $ git clone https://github.com/xbtlin/ai-berkshire.git $ cd ai-berkshire # Claude Code 用户 $ ./scripts/install-claude-commands.sh # Codex 用户 $ ./scripts/install-codex-skills.sh $ ./scripts/install-codex-prompts.sh # 可选 slash prompts

// 3. 实战调用

# 深度研究 $ /investment-research 腾讯 $ /investment-team 美团 # 财报分析 $ /earnings-review 腾讯 2025Q4 $ /earnings-team PDD 2025年报 # 行业筛选 $ /industry-funnel AI算力 $ /investment-checklist 茅台, 英伟达, 苹果 # 持仓管理 $ /portfolio-review 腾讯30%, 美团20%, 茅台20%, 现金30% $ /news-pulse 腾讯

// 实战研究报告（产出物样例）

作者公开了 4 份真实报告。下表来自 /investment-checklist 7 家公司横向对比：

公司	通过?	能力圈	好生意	护城河	管理层	安全边际	综合
茅台	✅ 通过	★★★★★	★★★★★	★★★★★	★★★☆☆	★★★★☆	4.7
腾讯	✅ 通过	★★★★☆	★★★★★	★★★★★	★★★★★	★★★★☆	4.7
英伟达	✅ 有条件	★★★★☆	★★★★★	★★★★★	★★★★★	★★★☆☆	4.3
美团	✅ 有条件	★★★★☆	★★★★☆	★★★★☆	★★★★☆	★★★★☆	4.0
快手	✅ 有条件	★★★☆☆	★★★★☆	★★★★☆	★★★★☆	★★★★★	4.0
拼多多	❓ 灰色	★★★★☆	★★★★☆	★★★☆☆	★★★☆☆	★★★★★	3.8
泡泡玛特	❓ 灰色	★★★☆☆	★★★★☆	★★★★☆	★★★★★	★★★☆☆	3.7

7 家公司用同一份 Checklist 筛选，评分标准完全一致。这种"可复现研究流程"是直接问 AI 永远做不到的——今天分析腾讯有护城河评分，明天分析美团可能就忘了。

// 竞品对比

维度	AI Berkshire	普通 LLM 投研	Bloomberg/Wind
价格	免费（MIT）	免费	年费 2-20 万美元
方法论	四大师融合 + 对抗	无框架，看 prompt	数据为主
数据来源	实时联网搜索	看 prompt 写啥	专业金融数据库
输出形式	强制结论 + 价格区间	平衡分析	原始数据
可复现性	✅ 同一标准输出	❌ 每次都不同	✅
多 Agent	✅ 4 Agent 并行	❌	❌
精度	decimal.Decimal 精确算	LLM 心算	数据库精确
适合	散户 + 自媒体 + 独立投资人	随便问问	机构专业用户

和 AI Berkshire 同类的项目我之前评测过几个：Cognee（Agent 记忆层）、design.md（设计规范）、gstack（一人做工程）、Ponytail（克制编码）。它们的共同点是不卖新模型，卖新流程。AI Berkshire 在金融投研这个垂直领域做到了同样的事。

// 博主观点 · 综合评分

// OVERALL VERDICT

8.0

/ 10.0 · 强烈推荐，独立投资人必试

+ 优点
✓ 方法论融合做到了"真对抗"——单 prompt 永远做不到
✓ 金融严谨性工具实用（decimal 精确算 + Benford 检测）
✓ 18 个 Skill 覆盖个股/行业/持仓/思维全场景
✓ 可复现性强（同一 Checklist 横向对比）
✓ 开源 + 双平台兼容（Claude Code + Codex）
✓ 实盘战绩可验证（真实账户截图 + 146 万元两年收益）

− 短板
✗ 贡献者数据异常（`claude` 账号 617 commits > 作者 455）
✗ 无 MCP 实时数据接入（Wind/Bloomberg 集成在路线图）
✗ LLM 心算风险未彻底消除（依赖 Python 工具兜底）
✗ 历史回测缺失（AI 研报 vs 实际股价对照实验未做）
✗ 学习曲线陡（18 个 Skill 想用透需要时间）
✗ 数据源依赖公开网络（深度不如专业数据库）

// 各项评分

创新方向

9.0 / 10

实用性

8.5 / 10

成熟度

7.0 / 10

治理透明度

7.5 / 10

// 跟我在做的事有什么关系

我自己也是 AI 重度用户。过去三个月我每天跑 GitHub AI 日报、写评测文章、搭 MangaVideo（AI 短剧工具），所有这些事都重度依赖 AI Agent。AI Berkshire 给我最大的启发不是"投资研究可以这么做"——而是"专业经验 + 框架思维"这个范式可以复制到任何领域。

具体三点：

1. 强制结论比"平衡分析"更有价值。 我自己写评测文章，AI 给我的初稿永远是"一方面另一方面"。后来我加了一条规则："如果你不能给一个明确判断，就别写这段。" 写出来的文章有用十倍。AI Berkshire 的"镜子测试"是同一件事的工程化。

2. 多视角对抗比单视角更接近真相。 我以前写文章是一个人想，现在我会让 AI 扮演三个不同立场的"评审"互相挑战，最后我做综合。这种结构能避免我自己的盲点。

3. 工具的严谨性比"AI 看起来很对"更重要。 金融场景对精度要求极高，所有计算必须用 Python decimal 兜底。这跟 Cognee 的认知化步骤、design.md 的 lint 规则、Ponytail 的 YAGNI 决策链都是同一类思路——让 AI 在结构化的约束里发挥，不让 AI 自由发挥。

对独立投资人的实操建议：

如果你买美股/港股/A 股，先跑一遍 /quality-screen 恒生指数成分股，排除 70% 的标的
选中 5-10 只之后用 /investment-checklist 做 6 关筛选
深度研究某一只时优先用 /investment-team 而不是 /investment-research——多 Agent 并行研究质量明显更高
持仓后用 /thesis-tracker 跟踪论文，别再问"该不该卖"
股价异动用 /news-pulse 10 分钟归因，避免小作文焦虑

我会持续记录一个不会编程的产品经理如何用 AI 写代码、做开源工具、搭 AI 视频流水线。如果你想看更多这种"AI 接管完整专业领域"的拆解，可以关注我。

// 参考链接

GitHub 仓库：xbtlin/ai-berkshire
Star History 趋势图
实盘报告（拼多多）：reports/拼多多/
实盘报告（腾讯）：reports/腾讯/
7 家公司对比 Checklist（2026-04-08）
大师持仓追踪（巴菲特/李录/段永平 13F）
AI 算力漏斗：reports/AI算力-funnel-20260509.md
AI 模型漏斗：reports/AI模型-funnel-20260509.md
AI 应用漏斗：reports/AI应用-funnel-20260509.md
AI 基建电力漏斗：reports/AI基建电力-funnel-20260509.md

License: MIT · 本评测仅记录作者对项目的技术理解和个人判断，不构成任何投资建议。历史收益不代表未来表现，投资有风险，决策需谨慎。