~/reviews · OpenMontage · 2026-06-22

cat README.md

OpenMontage

全球首个开源 Agentic 视频制作系统——12 条流水线、52 个工具、500+ Agent 技能,把你的 AI 编程助手变成完整视频导演。不是生成一个片段,是从研究到成片的端到端编排。

agentic video-production 12-pipelines python agplv3 remotion agent-first budget-governance

// 目录

我的卡点 为什么值得讲 我的判断 它到底是什么 架构拆解 我发现了什么 竞品对比 成本实测 短板在哪 跟我的关系 参考链接

// 概览

Stars
8,712
今日 +987 · 创建仅 2 个月 · 日增速历史级
工具 / 流水线
52 / 12
7 大类工具覆盖全环节 · 12 条端到端制作流水线
Agent 技能
500+
三层知识架构 · 5 平台兼容 · 14 视频供应商
Forks
1,151
社区参与活跃
许可证
AGPLv3
商业闭源受限 · 衍生作品必须开源
Contributors
~2
主要维护者 calesthio · Bus Factor ≈ 1
Commits / Last Update
103 / 05-07
初始发布 2026-03-29 · 最后提交距今约 1.5 个月
Issues / PRs
28 / 39
28 open issues · 39 open PRs · 9 merged · 无正式 Release

生成完了,然后呢?

我这半年一直在做 AI 短剧和短视频工具。做了 MangaVideo,跑了无数次 Seedance、Kling、Runway 的生成 API,也拆过 MoneyPrinterTurbo 的编排层。每次做完一条视频,我都觉得流程可以更顺——但每次卡的地方都一样:生成了一个片段,然后呢?

谁来决定下一条片段是什么风格?谁来对齐节奏和情绪?谁来检查旁白和画面是不是对得上?谁来确保整条视频不是一堆 AI 生成的碎片拼在一起,而是有起承转合的作品?

我一直以为这个"谁来"是一个更好的编排脚本。直到拆完 OpenMontage,我才意识到:这个"谁来"应该是 Agent 本身。

为什么生成和成片之间有鸿沟

做 AI 视频的人大概都经历过这种割裂感——生成能力越来越强(Seedance 2.0、Kling v3、Runway Gen-4,每个都能输出让人惊叹的单片段),但把这些片段变成一条完整视频的过程,还是手工作坊式的。你要自己选模型、自己写脚本、自己下载素材、自己拖进剪辑软件、自己调字幕时间轴。

这不是"差一点点"的问题。生成和编排之间的鸿沟,才是 AI 视频真正卡人的地方。大部分人能生成一个漂亮片段,但不到 5% 的人能把十几个片段变成一条 60 秒的完整视频——中间的衔接、节奏、成本控制、质量验证,全是手动活。

我的判断

AI 视频的下一个战场不是谁生成得更惊艳,是谁能在生成和成片之间修一条高速公路。OpenMontage 是目前最野心勃勃的一次尝试——它不生成视频,它让 Agent 当导演。

它到底是什么

OpenMontage 是 calesthio 开源的项目(AGPLv3),定位"全球首个开源 Agentic 视频制作系统"。说白了,它不是又一个视频生成 API 的壳,而是把你的 AI 编程助手(Claude Code、Cursor、Copilot、Windsurf、Codex)变成一个有流水线意识的视频导演。

核心架构很干净:没有代码编排器。AI 编程助手本身就是编排器。Python 提供工具和持久化,所有创意决策存在于可读的指令文件(YAML 流水线清单 + Markdown 技能 + JSON Schema 合约)里。

12 条流水线覆盖了视频制作的大多数场景:动画解说、动态图形、虚拟人发言人、电影级预告片、纪录片蒙太奇、播客再利用、屏幕演示、真人演讲、角色动画、长视频切短片段、素材增强、本地化配音。

52 个生产工具分 7 大类(视频生成 13 个、图像 10 个、TTS 4 个、音乐音效 3 个、后期 7 个、增强 4 个、分析 4 个),覆盖从转录到渲染的全部环节。供应商方面,14 个视频生成 + 10 个图像 + 4 个 TTS + 多个音乐/后期,全部通过 7 维度评分引擎自动选择最优供应商。

还有一个很聪明的设计:参考视频驱动创作。粘贴 YouTube/Reel/TikTok 视频 URL,Agent 分析后生成差异化的制作计划。这比从零开始写 Prompt 要靠谱得多。

零 API Key 也能跑:Piper TTS(离线)+ Archive.org/NASA/Wikimedia(免费素材)+ Pexels/Pixabay/Unsplash(开发者 Key 免费)+ Remotion/HyperFrames(本地合成)+ FFmpeg(后处理)。一行 make setup 就能开工。

三层知识架构,比我想的干净

OpenMontage 的知识架构分三层,这是我拆完之后最想搬走的设计:

Layer 1:tools/ + pipeline_defs/——告诉 Agent "你能做什么"。48 个 Python 工具 + 12 条 YAML 流水线清单,是可执行的能力清单。

Layer 2:skills/——告诉 Agent "怎么做好"。Markdown 技能文件,每条流水线有阶段导演技能,写清楚了质量标准、审查清单、交付承诺。

Layer 3:.agents/skills/——告诉 Agent "底层原理是什么"。外部技术知识包,Agent 按需读取,不是一次性灌进去。

这个分层比我之前 MangaVideo 的单层 CLAUDE.md 干净太多。单层 CLAUDE.md 把所有东西塞在一起,Agent 读着容易忘,改着容易冲突。三层之后,每层有明确边界,Agent 只在需要的时候读需要的层。

更让我意外的是治理层:

预合成验证门控——阻止违反交付承诺的渲染。比如你说"这个视频以动态为主",Agent 发现 80% 是静态图像,直接拦住不让渲染。省 GPU 时间,省钱。

渲染后自检——ffprobe 验证 + 4 点帧提取(检测黑帧和损坏叠加层)+ 音频电平分析 + 交付承诺验证。Agent 渲染完还自己检查一遍。

幻灯片风险评分——6 维度分析(重复性、装饰性视觉、弱动态、镜头意图、排版过度依赖、不支持的影院声明),防止 AI 生成"PPT 动画"。

预算控制——执行前估算成本 + 三种模式(observe/warn/cap)+ 每操作审批阈值 $0.50 + 总预算上限 $10。你不会因为一条测试视频花掉 $50。


// 架构流程

🧠
Agent 编排AI 编程助手 = 导演
🔧
Python 工具52 工具 · 7 维评分
🎨
渲染引擎Remotion · HyperFrames · FFmpeg
质量门控预合成验证 · 渲染后自检
AGENT-FIRST · 无代码编排器 · AI 编程助手本身就是编排核心

// 竞品对比

项目 定位 优势 劣势
OpenMontage Agent 当导演
端到端制作流水线
12 流水线 · 52 工具 · 7 维评分
治理层完善 · 预算控制
零 Key 可用 · 参考视频驱动
AGPLv3 商用受限
Bus Factor ≈ 1 · 仅 2 月龄
无正式 Release
MoneyPrinterTurbo 编排层
LLM → TTS → 素材 → 合成
66K Stars · MIT 可商用
批量生成杀手功能
11+ LLM 引擎可换
素材同质化(全靠 Pexels)
关键词级匹配不懂语义
功能窄,只有一条流水线
ShortGPT 短视频自动化
字幕 + 翻译
字幕做得好
轻量安装
功能窄 · 社区小
停更 · GPL-3.0
ComfyUI 节点式可控生成
工作流编排器
140K Stars · 生态最大
细粒度控制 · 可复现
非 Agent 驮动 · 学习曲线陡
只管生成不管成片
UI 给人用不给 Agent 用
InVideo AI / Pippit SaaS 视频生成
零配置
零门槛 · 即用
模板丰富
月费 · 数据上云
闭源 · 无流水线概念
单片段生成为主

// 成本实测

吉卜力动画
$0.15
产品广告 VOID
$0.69
Pixar 风格短片
$1.33
预算上限 (default)
$10.00

官方展示的 6 个制作案例,成本从 $0.15 到 $1.33。最低的是 12 张 FLUX 图像 + Remotion 合成的吉卜力风格动画($0.15),最高的是 6 个 Kling v3 片段 + Chirp3-HD 旁白的 Pixar 风格短片($1.33)。一条 60 秒视频平均成本不到 $1。


// 供应商覆盖

视频生成
14 供应商
图像生成
10 供应商
TTS 配音
4 供应商
音乐/音效
3 供应商
本地免费
全部可替代

// 我发现了什么

拆完 OpenMontage,我最大的收获不是"又多了一个视频生成工具",而是Agent-first 架构在视频制作领域的可行性

过去所有 AI 视频工具的设计思路都是:生成是核心,编排是附属。OpenMontage 翻转了这个关系:编排是核心,生成是可替换的组件。这跟 Ponytail 把 AI 编码从"写更多"改成"只写必须写的"是同款思路——不是让工具更强,是让工具更克制。

7 维度评分引擎(任务匹配 30% / 输出质量 20% / 控制功能 15% / 可靠性 15% / 成本效率 10% / 延迟 5% / 连续性 5%)是整个项目最精巧的设计。它不是简单的价格排序,而是把质量、可靠性、连续性都纳入考量。这意味着 Agent 不会因为 Kling 更贵就不用它——如果 Kling 的输出质量和连续性更适合当前场景,它会被选上。

三层知识架构也是。大多数 Agent 项目把所有指令塞在一个 CLAUDE.md 里,Agent 读着容易忘,改着容易冲突。OpenMontage 把"你能做什么""怎么做好""底层原理是什么"分成三层,Agent 只在需要的时候读需要的层。这比一次性灌 5000 行 prompt 干净太多。

// 短板

说完了好话,说几句不太好看的:

AGPLv3 是最大的法律限制。如果你想用 OpenMontage 做自己的商业产品,必须也开源。跟 MIT 或 Apache-2.0 比,这个门槛够劝退不少团队。

Bus Factor ≈ 1。主要维护者就是 calesthio 一人,外加一个 Doubao TTS PR 的贡献者。103 次提交,最后一次在 2026-05-07——已经一个半月没更新了。如果维护者跑路,项目基本就废了。

项目才 2 个月。2026-03-29 初始发布,没有正式 Release 版本号。28 个 Open Issues / 39 个 Open PRs 待处理。离"稳定可用"还有很远的路。

Agent 效果依赖底层模型质量。复杂流水线跑得好不好,跟用 Claude Code 还是 Codex 有关系。如果你用的是较弱的模型,编排质量会明显下降。

本地 GPU 门槛。免费视频生成需要至少 8GB 显存跑 WAN 2.1 或 CogVideo。没有 GPU 就只能用付费 API。

不适合创意叙事。12 条流水线偏模板化。如果你要做角色一致性强的连续叙事(比如短剧),这不是最合适的工具。它更像一个视频工厂,不是一个故事工作室。

VERDICT · 综合评分
8.4
方向 9.2 · 成熟度 7.0 · 治理 8.8 · 生态 6.5
✅ Agent-first 架构在视频制作领域首次完整实现
✅ 三层知识架构比单层 prompt 干净太多
✅ 7 维评分引擎 · 不是简单价格排序
✅ 预合成验证 + 渲染后自检 · 治理层完善
✅ 零 Key 可用 · 参考视频驱动 · 预算控制
✅ 12 流水线覆盖绝大多数视频场景
❌ AGPLv3 商业闭源受限
❌ Bus Factor ≈ 1 · 最后提交已 1.5 个月
❌ 项目仅 2 个月 · 无正式 Release
❌ Agent 效果依赖底层模型质量
❌ 不适合创意叙事 · 偏模板化流水线
❌ 本地 GPU 门槛 8GB+ 显存

// 跟我在做的事有什么关系

我做 MangaVideo 的初衷就是想把 AI 短剧的流程自动化。拆完 OpenMontage 之后,我对自己项目最大的反思是:我一直把"编排"当成脚本层面的事(Python 调 API → 拼片段 → 渲染),但 OpenMontage 告诉我,编排应该交给 Agent。Agent 才是有审美判断、有质量意识、有成本控制意识的那个"导演"。

三层知识架构的分层思路也值得搬。我之前 MangaVideo 的 CLAUDE.md 把所有东西塞在一起,Agent 读着容易忘,改着容易冲突。拆成三层之后,每层有明确边界,Agent 只在需要的时候读需要的层。

预合成验证和渲染后自检这两个门控机制也值得搬过来。我之前做 MangaVideo 时最大的返工来源就是"生成完了才发现节奏不对",如果 Agent 能在渲染前自我审查,至少能省一半的废稿时间。

但 OpenMontage 的短剧支持还偏弱——12 条流水线里没有"连续叙事"这条线,角色一致性是硬伤。所以 MangaVideo 在短剧这个垂直场景里还有自己的空间。OpenMontage 做的是视频工厂,MangaVideo 做的是故事工作室——定位不冲突。


calesthio/OpenMontage · GitHub

OSSInsight 分析页

Show and Tell · 社区作品展示

YouTube @OpenMontage

X (Twitter) @calesthioailabs

MoneyPrinterTurbo · 对比参考

AGENT_GUIDE.md · Agent 操作指南