~/reviews · xbtlin/ai-berkshire · 2026-06-29

cat README.md | head -200

ai-berkshire

xbtlin'"/>

AI 时代的伯克希尔:基于 Claude Code / Codex 的价值投资研究框架。巴菲特·芒格·段永平·李录四大师方法论 + 多 Agent 并行研究。一个人 + Claude Code = 一个投研团队。

Claude Code Codex Value Investing Multi-Agent MCP MIT

// 目录

真实问题 为什么值得讲 我的判断 数据概览 整体架构 18 个 Skills vs 直接问 AI 实盘战绩 竞品对比 综合评分 我的启发 参考链接

// 数据概览

Total Stars
5,293
+1,445 今日(GitHub Trending AI 项目涨幅第一)
Forks
720
Fork/Star = 0.136,中等实用信号
Open Issues
20
社区活跃,问题少且响应快
License
MIT
完全开源,可商用
Language
Python
实际为 markdown skills + scripts 为主
Created
2026-04-07
三个月冲到 5K Star,最新 push 2026-06-28

// 我的真实问题

上周有个读者私信问我:你天天评测 GitHub AI 项目,有没有那种"AI 直接接管一个完整专业领域"的案例?

我想了想,其实有。但过去一年我看的多数项目都是"AI 加一点点的工程"——给视频加字幕,给文档加摘要,给代码加注释。本质上是把 AI 塞进一个老工具里。

今天这个不一样。它要做的是:把巴菲特、芒格、段永平、李录四位价值投资大师几十年的方法论,编码成 Claude Code 和 Codex 能跑的 18 个 Skill。然后让 AI 真的按这套打法去做投资研究——不是写一篇"一方面另一方面"的废话,是给出明确的"通过/不通过/灰色"判断,附价格区间和分层建议。

我盯着那 1,445 个今天的 Star 看了好一会儿。这种涨幅,AI 项目里我一年也见不到几次。

// 为什么这件事值得讲

投资研究这个领域,过去三十年最大的变化是什么?不是数据变多(数据早就过载了),不是模型变强(金融模型从 70 年代就有),而是研究流程的工业化。卖方分析师覆盖 200 只股票、对冲基金研究员 12 个月蹲一家公司,这种"人盯人"的研究方式成本高得离谱。

AI Berkshire 想做的事很直接:让一个人 + Claude Code / Codex 顶一个投研团队。它不预测股价(谁预测谁骗子),它解决的是研究质量的下限——把"该问的问题必须问到、该验的数据必须验准"这件事流程化、自动化、可复现。

这种项目一旦跑通,影响的不只是投资圈,而是任何"专业经验 + 框架思维"的领域——法律、医学诊断、咨询、战略。

// 我的判断

AI Berkshire 的核心创新不是"用 AI 做投资研究",是把"四位大师互相挑战"这件事做成结构化对抗机制——单 prompt 永远做不到多视角真实碰撞。

这跟之前评测过的 Cognee(AI 记忆层)、gstack(一人做工程)、Ponytail(克制编码)是同一类项目:AI 时代的"流程基础设施"。它们不卖更强模型,卖的是"正确的做事方式"。


// 实盘战绩(来自作者富途证券真实账户)

作者在 README 中公开了 2024 全年与 2025 至今的真实账户截图,下方两张图为原图嵌入。

// 与全球主要指数对比

AI Berkshire (2024)
+69.29%
纳斯达克 (2024)
+28.64%
标普 500 (2024)
+23.31%
恒生指数 (2024)
+17.67%
沪深 300 (2024)
+14.68%

2024 年超额收益:跑赢标普 500 46 个百分点,跑赢恒生指数 52 个百分点。两年累计实盘收益超 146 万元。免责声明:历史收益不代表未来表现。


// 整体架构

项目官方架构图如下(原图嵌入):

AI Berkshire 整体架构
AI Berkshire 整体架构(Skill 层 18 个入口 → Agent 层 4 个并行 Agent → 工具层精确计算与检索)
📚
Skill 层18 个明确入口(投研/财报/行业/持仓/思维)
🤖
Agent 层4 Agent 并行(段永平/巴菲特/芒格/李录)
🧰
工具层精确计算 + 实时检索 + 报告抽检
📊
决策报告强制结论 + 价格区间 + 分层建议

三层架构的核心:流程结构化 + 多视角对抗 + 数据严谨性

// 四大师方法论融合

# 四位大师不是分工,是设计来互相挑战的 段永平说"好生意" → 芒格会问"怎么会死" 巴菲特说"够便宜" → 李录会问"10 年后还在吗" 你得到的不是四份报告的拼接 而是四种思维方式的碰撞

// 18 个 Skills 速览

// 深度研究类(5 个)

Skill用途适合场景
/investment-research四大师综合分析对一家上市公司做全方位投研
/investment-team多 Agent 并行投研4 Agent 并行研究,最快最全面
/management-deep-dive管理层纵深研究"买股票就是买人"——当管理层是核心变量时
/private-company-research未上市公司研究蚂蚁、SpaceX 等信息稀缺标的
/deep-company-series8 篇 12 万字深度长文公众号级深度系列

// 财报分析类(2 个)

Skill用途适合场景
/earnings-review财报精读(一手资料)只读原始财报,不依赖二手研报
/earnings-team四大师并行解读 + 公众号发布作者/编辑/读者三 Agent 协作

// 行业筛选类(5 个)

Skill用途适合场景
/industry-research产业链全景扫描研究行业全部投资机会(按环节切片)
/industry-funnel行业漏斗筛选全市场 → ≤10 家 → 终选 3 家
/quality-screen去劣筛选(7 条硬指标)快速排除非一流公司
/bottleneck-hunter供应链瓶颈猎手从超级趋势找物理瓶颈与套利机会
/investment-checklist巴菲特买入前 6 关 Checklist10 分钟决定是否值得深入

// 持仓管理类(3 个)

Skill用途适合场景
/portfolio-review组合管理与优化从"研究公司"升级到"管理组合"
/thesis-tracker投资论文追踪买入后的纪律系统:跟踪论文是否被证伪
/news-pulse股价异动快速归因股价大涨/大跌 10 分钟搞清"发生了什么"

// 思维工具类(3 个)

Skill用途适合场景
/dyp-ask段永平问答以段永平方式思考任何问题
/financial-data财务数据交叉验证规范关键数据 2 个独立来源,误差 > 1% 告警
/wechat-article微信公众号文章作者/编辑/读者三 Agent 协作发布

// 为什么不能直接问 AI?

我试用了几次这个框架。最直接的体感是:直接问 AI 投资问题,得到的是"正确但无用"的废话

// 差异 1:强制给结论,不打太极

普通 AI 回答AI Berkshire 输出
"拼多多有增长潜力但也面临竞争压力,投资者需要权衡..."
激进型当前价位可建仓 20%$95-105
稳健型等回购政策明确后建仓$85-95
保守型不符合 10 年确定性标准观望

差异在哪?不是 AI 不知道这些,是没人逼它输出结论。AI Berkshire 在 prompt 层强制"镜子测试"——5 句话说不出完整买入理由 = 不买,没有例外。

// 差异 2:四大师的真实对抗(以拼多多为例)

大师视角评分核心判断
段永平(商业模式)3.7 / 5好生意,C2M 模式难以复制
巴菲特(财务估值)4.4 / 5扣现金 PE 仅 6.3x,印钞机
芒格(逆向思考)3.5 / 5护城河比想象中浅,抖音 3 年做到 4 万亿 GMV
李录(长期确定性)2.0 / 5管理层文化有隐患,10 年后不确定

巴菲特说"真便宜",李录说"不确定就不买"——这种冲突才是投资决策的真实状态。单一 prompt 制造不出来这种多视角对抗。

// 差异 3:反偏见机制

机制解决的问题
信息丰富度评级(A/B/C)防止"资料多 = 确定性高"的幻觉
芒格式逆向检验强制思考失败场景
快速否决清单8 条红线一票否决
反共识检查避免和市场想的一样
留白原则宁可说"不知道",不用推测伪装确定性

// 差异 4:金融数据的精确性

# 市值手算校验:股价 × 总股本,与报告数据对比 $ python3 tools/financial_rigor.py verify-market-cap \ --price 510 --shares 9.11e9 --reported 4.65e12 --currency HKD # ✅ 验证通过,偏差仅 0.08% # 所有计算使用 Python decimal.Decimal(精确十进制) # 关键数据至少 2 个独立来源交叉验证,误差 > 1% 自动告警 # 内置 Benford 定律检测(会计舞弊识别经典工具)

// 差异 5:多 Agent 并行(最关键的工程创新)

/investment-team 启动 4 个独立 Agent 同时研究一家公司。每个 Agent 各自搜索网络、交叉验证数据、独立给出结论。这不是把一个 prompt 拆四段,是 4 个"分析师"各自做了完整研究,Team Lead 再综合。

┌─────────────────────────────────────────────┐ │ Team Lead (你) │ │ 统筹协调 · 汇总研判 │ ├──────┬──────┬──────────┬───────────┤ │ Agent 1 │ Agent 2 │ Agent 3 │ Agent 4 │ │ 商业模式 │ 财务估值 │ 行业竞争 │ 风险管理层 │ │ 段永平视角 │ 巴菲特视角 │ 芒格视角 │ 李录视角 │ └──────┴──────┴──────────┴───────────┘ ↓ 并行研究,实时汇报进度 ↓ 最终综合报告

一个人直接问 AI,上下文窗口是一个。4 个 Agent 并行,等于 4 倍搜索量、4 倍信息源、4 个独立视角。


// 快速开始

// 1. 安装 AI 客户端

# Claude Code $ npm install -g @anthropic-ai/claude-code # Codex (macOS / Linux) $ curl -fsSL https://chatgpt.com/codex/install.sh | sh $ codex --version

// 2. 安装 Skills

# 克隆仓库 $ git clone https://github.com/xbtlin/ai-berkshire.git $ cd ai-berkshire # Claude Code 用户 $ ./scripts/install-claude-commands.sh # Codex 用户 $ ./scripts/install-codex-skills.sh $ ./scripts/install-codex-prompts.sh # 可选 slash prompts

// 3. 实战调用

# 深度研究 $ /investment-research 腾讯 $ /investment-team 美团 # 财报分析 $ /earnings-review 腾讯 2025Q4 $ /earnings-team PDD 2025年报 # 行业筛选 $ /industry-funnel AI算力 $ /investment-checklist 茅台, 英伟达, 苹果 # 持仓管理 $ /portfolio-review 腾讯30%, 美团20%, 茅台20%, 现金30% $ /news-pulse 腾讯

// 实战研究报告(产出物样例)

作者公开了 4 份真实报告。下表来自 /investment-checklist 7 家公司横向对比:

公司通过?能力圈好生意护城河管理层安全边际综合
茅台✅ 通过★★★★★★★★★★★★★★★★★★☆☆★★★★☆4.7
腾讯✅ 通过★★★★☆★★★★★★★★★★★★★★★★★★★☆4.7
英伟达✅ 有条件★★★★☆★★★★★★★★★★★★★★★★★★☆☆4.3
美团✅ 有条件★★★★☆★★★★☆★★★★☆★★★★☆★★★★☆4.0
快手✅ 有条件★★★☆☆★★★★☆★★★★☆★★★★☆★★★★★4.0
拼多多❓ 灰色★★★★☆★★★★☆★★★☆☆★★★☆☆★★★★★3.8
泡泡玛特❓ 灰色★★★☆☆★★★★☆★★★★☆★★★★★★★★☆☆3.7

7 家公司用同一份 Checklist 筛选,评分标准完全一致。这种"可复现研究流程"是直接问 AI 永远做不到的——今天分析腾讯有护城河评分,明天分析美团可能就忘了。


// 竞品对比

维度AI Berkshire普通 LLM 投研Bloomberg/Wind
价格免费(MIT)免费年费 2-20 万美元
方法论四大师融合 + 对抗无框架,看 prompt数据为主
数据来源实时联网搜索看 prompt 写啥专业金融数据库
输出形式强制结论 + 价格区间平衡分析原始数据
可复现性✅ 同一标准输出❌ 每次都不同
多 Agent✅ 4 Agent 并行
精度decimal.Decimal 精确算LLM 心算数据库精确
适合散户 + 自媒体 + 独立投资人随便问问机构专业用户

和 AI Berkshire 同类的项目我之前评测过几个:Cognee(Agent 记忆层)、design.md(设计规范)、gstack(一人做工程)、Ponytail(克制编码)。它们的共同点是不卖新模型,卖新流程。AI Berkshire 在金融投研这个垂直领域做到了同样的事。


// 博主观点 · 综合评分

// OVERALL VERDICT
8.0
/ 10.0 · 强烈推荐,独立投资人必试
+ 优点
✓ 方法论融合做到了"真对抗"——单 prompt 永远做不到
✓ 金融严谨性工具实用(decimal 精确算 + Benford 检测)
✓ 18 个 Skill 覆盖个股/行业/持仓/思维全场景
✓ 可复现性强(同一 Checklist 横向对比)
✓ 开源 + 双平台兼容(Claude Code + Codex)
✓ 实盘战绩可验证(真实账户截图 + 146 万元两年收益)
− 短板
✗ 贡献者数据异常(`claude` 账号 617 commits > 作者 455)
✗ 无 MCP 实时数据接入(Wind/Bloomberg 集成在路线图)
✗ LLM 心算风险未彻底消除(依赖 Python 工具兜底)
✗ 历史回测缺失(AI 研报 vs 实际股价对照实验未做)
✗ 学习曲线陡(18 个 Skill 想用透需要时间)
✗ 数据源依赖公开网络(深度不如专业数据库)

// 各项评分

创新方向
9.0 / 10
实用性
8.5 / 10
成熟度
7.0 / 10
治理透明度
7.5 / 10

// 跟我在做的事有什么关系

我自己也是 AI 重度用户。过去三个月我每天跑 GitHub AI 日报、写评测文章、搭 MangaVideo(AI 短剧工具),所有这些事都重度依赖 AI Agent。AI Berkshire 给我最大的启发不是"投资研究可以这么做"——而是"专业经验 + 框架思维"这个范式可以复制到任何领域

具体三点:

1. 强制结论比"平衡分析"更有价值。 我自己写评测文章,AI 给我的初稿永远是"一方面另一方面"。后来我加了一条规则:"如果你不能给一个明确判断,就别写这段。" 写出来的文章有用十倍。AI Berkshire 的"镜子测试"是同一件事的工程化。

2. 多视角对抗比单视角更接近真相。 我以前写文章是一个人想,现在我会让 AI 扮演三个不同立场的"评审"互相挑战,最后我做综合。这种结构能避免我自己的盲点。

3. 工具的严谨性比"AI 看起来很对"更重要。 金融场景对精度要求极高,所有计算必须用 Python decimal 兜底。这跟 Cognee 的认知化步骤、design.md 的 lint 规则、Ponytail 的 YAGNI 决策链都是同一类思路——让 AI 在结构化的约束里发挥,不让 AI 自由发挥

对独立投资人的实操建议:

我会持续记录一个不会编程的产品经理如何用 AI 写代码、做开源工具、搭 AI 视频流水线。如果你想看更多这种"AI 接管完整专业领域"的拆解,可以关注我。


License: MIT · 本评测仅记录作者对项目的技术理解和个人判断,不构成任何投资建议。历史收益不代表未来表现,投资有风险,决策需谨慎。