cat README.md
OpenMontage
全球首个开源 Agentic 视频制作系统——12 条流水线、52 个工具、500+ Agent 技能,把你的 AI 编程助手变成完整视频导演。不是生成一个片段,是从研究到成片的端到端编排。
// 目录
// 概览
生成完了,然后呢?
我这半年一直在做 AI 短剧和短视频工具。做了 MangaVideo,跑了无数次 Seedance、Kling、Runway 的生成 API,也拆过 MoneyPrinterTurbo 的编排层。每次做完一条视频,我都觉得流程可以更顺——但每次卡的地方都一样:生成了一个片段,然后呢?
谁来决定下一条片段是什么风格?谁来对齐节奏和情绪?谁来检查旁白和画面是不是对得上?谁来确保整条视频不是一堆 AI 生成的碎片拼在一起,而是有起承转合的作品?
我一直以为这个"谁来"是一个更好的编排脚本。直到拆完 OpenMontage,我才意识到:这个"谁来"应该是 Agent 本身。
为什么生成和成片之间有鸿沟
做 AI 视频的人大概都经历过这种割裂感——生成能力越来越强(Seedance 2.0、Kling v3、Runway Gen-4,每个都能输出让人惊叹的单片段),但把这些片段变成一条完整视频的过程,还是手工作坊式的。你要自己选模型、自己写脚本、自己下载素材、自己拖进剪辑软件、自己调字幕时间轴。
这不是"差一点点"的问题。生成和编排之间的鸿沟,才是 AI 视频真正卡人的地方。大部分人能生成一个漂亮片段,但不到 5% 的人能把十几个片段变成一条 60 秒的完整视频——中间的衔接、节奏、成本控制、质量验证,全是手动活。
我的判断
AI 视频的下一个战场不是谁生成得更惊艳,是谁能在生成和成片之间修一条高速公路。OpenMontage 是目前最野心勃勃的一次尝试——它不生成视频,它让 Agent 当导演。
它到底是什么
OpenMontage 是 calesthio 开源的项目(AGPLv3),定位"全球首个开源 Agentic 视频制作系统"。说白了,它不是又一个视频生成 API 的壳,而是把你的 AI 编程助手(Claude Code、Cursor、Copilot、Windsurf、Codex)变成一个有流水线意识的视频导演。
核心架构很干净:没有代码编排器。AI 编程助手本身就是编排器。Python 提供工具和持久化,所有创意决策存在于可读的指令文件(YAML 流水线清单 + Markdown 技能 + JSON Schema 合约)里。
12 条流水线覆盖了视频制作的大多数场景:动画解说、动态图形、虚拟人发言人、电影级预告片、纪录片蒙太奇、播客再利用、屏幕演示、真人演讲、角色动画、长视频切短片段、素材增强、本地化配音。
52 个生产工具分 7 大类(视频生成 13 个、图像 10 个、TTS 4 个、音乐音效 3 个、后期 7 个、增强 4 个、分析 4 个),覆盖从转录到渲染的全部环节。供应商方面,14 个视频生成 + 10 个图像 + 4 个 TTS + 多个音乐/后期,全部通过 7 维度评分引擎自动选择最优供应商。
还有一个很聪明的设计:参考视频驱动创作。粘贴 YouTube/Reel/TikTok 视频 URL,Agent 分析后生成差异化的制作计划。这比从零开始写 Prompt 要靠谱得多。
零 API Key 也能跑:Piper TTS(离线)+ Archive.org/NASA/Wikimedia(免费素材)+ Pexels/Pixabay/Unsplash(开发者 Key 免费)+ Remotion/HyperFrames(本地合成)+ FFmpeg(后处理)。一行 make setup 就能开工。
三层知识架构,比我想的干净
OpenMontage 的知识架构分三层,这是我拆完之后最想搬走的设计:
Layer 1:tools/ + pipeline_defs/——告诉 Agent "你能做什么"。48 个 Python 工具 + 12 条 YAML 流水线清单,是可执行的能力清单。
Layer 2:skills/——告诉 Agent "怎么做好"。Markdown 技能文件,每条流水线有阶段导演技能,写清楚了质量标准、审查清单、交付承诺。
Layer 3:.agents/skills/——告诉 Agent "底层原理是什么"。外部技术知识包,Agent 按需读取,不是一次性灌进去。
这个分层比我之前 MangaVideo 的单层 CLAUDE.md 干净太多。单层 CLAUDE.md 把所有东西塞在一起,Agent 读着容易忘,改着容易冲突。三层之后,每层有明确边界,Agent 只在需要的时候读需要的层。
更让我意外的是治理层:
预合成验证门控——阻止违反交付承诺的渲染。比如你说"这个视频以动态为主",Agent 发现 80% 是静态图像,直接拦住不让渲染。省 GPU 时间,省钱。
渲染后自检——ffprobe 验证 + 4 点帧提取(检测黑帧和损坏叠加层)+ 音频电平分析 + 交付承诺验证。Agent 渲染完还自己检查一遍。
幻灯片风险评分——6 维度分析(重复性、装饰性视觉、弱动态、镜头意图、排版过度依赖、不支持的影院声明),防止 AI 生成"PPT 动画"。
预算控制——执行前估算成本 + 三种模式(observe/warn/cap)+ 每操作审批阈值 $0.50 + 总预算上限 $10。你不会因为一条测试视频花掉 $50。
// 架构流程
// 竞品对比
| 项目 | 定位 | 优势 | 劣势 |
|---|---|---|---|
| OpenMontage | Agent 当导演 端到端制作流水线 |
12 流水线 · 52 工具 · 7 维评分 治理层完善 · 预算控制 零 Key 可用 · 参考视频驱动 |
AGPLv3 商用受限 Bus Factor ≈ 1 · 仅 2 月龄 无正式 Release |
| MoneyPrinterTurbo | 编排层 LLM → TTS → 素材 → 合成 |
66K Stars · MIT 可商用 批量生成杀手功能 11+ LLM 引擎可换 |
素材同质化(全靠 Pexels) 关键词级匹配不懂语义 功能窄,只有一条流水线 |
| ShortGPT | 短视频自动化 字幕 + 翻译 |
字幕做得好 轻量安装 |
功能窄 · 社区小 停更 · GPL-3.0 |
| ComfyUI | 节点式可控生成 工作流编排器 |
140K Stars · 生态最大 细粒度控制 · 可复现 |
非 Agent 驮动 · 学习曲线陡 只管生成不管成片 UI 给人用不给 Agent 用 |
| InVideo AI / Pippit | SaaS 视频生成 零配置 |
零门槛 · 即用 模板丰富 |
月费 · 数据上云 闭源 · 无流水线概念 单片段生成为主 |
// 成本实测
官方展示的 6 个制作案例,成本从 $0.15 到 $1.33。最低的是 12 张 FLUX 图像 + Remotion 合成的吉卜力风格动画($0.15),最高的是 6 个 Kling v3 片段 + Chirp3-HD 旁白的 Pixar 风格短片($1.33)。一条 60 秒视频平均成本不到 $1。
// 供应商覆盖
// 我发现了什么
拆完 OpenMontage,我最大的收获不是"又多了一个视频生成工具",而是Agent-first 架构在视频制作领域的可行性。
过去所有 AI 视频工具的设计思路都是:生成是核心,编排是附属。OpenMontage 翻转了这个关系:编排是核心,生成是可替换的组件。这跟 Ponytail 把 AI 编码从"写更多"改成"只写必须写的"是同款思路——不是让工具更强,是让工具更克制。
7 维度评分引擎(任务匹配 30% / 输出质量 20% / 控制功能 15% / 可靠性 15% / 成本效率 10% / 延迟 5% / 连续性 5%)是整个项目最精巧的设计。它不是简单的价格排序,而是把质量、可靠性、连续性都纳入考量。这意味着 Agent 不会因为 Kling 更贵就不用它——如果 Kling 的输出质量和连续性更适合当前场景,它会被选上。
三层知识架构也是。大多数 Agent 项目把所有指令塞在一个 CLAUDE.md 里,Agent 读着容易忘,改着容易冲突。OpenMontage 把"你能做什么""怎么做好""底层原理是什么"分成三层,Agent 只在需要的时候读需要的层。这比一次性灌 5000 行 prompt 干净太多。
// 短板
说完了好话,说几句不太好看的:
AGPLv3 是最大的法律限制。如果你想用 OpenMontage 做自己的商业产品,必须也开源。跟 MIT 或 Apache-2.0 比,这个门槛够劝退不少团队。
Bus Factor ≈ 1。主要维护者就是 calesthio 一人,外加一个 Doubao TTS PR 的贡献者。103 次提交,最后一次在 2026-05-07——已经一个半月没更新了。如果维护者跑路,项目基本就废了。
项目才 2 个月。2026-03-29 初始发布,没有正式 Release 版本号。28 个 Open Issues / 39 个 Open PRs 待处理。离"稳定可用"还有很远的路。
Agent 效果依赖底层模型质量。复杂流水线跑得好不好,跟用 Claude Code 还是 Codex 有关系。如果你用的是较弱的模型,编排质量会明显下降。
本地 GPU 门槛。免费视频生成需要至少 8GB 显存跑 WAN 2.1 或 CogVideo。没有 GPU 就只能用付费 API。
不适合创意叙事。12 条流水线偏模板化。如果你要做角色一致性强的连续叙事(比如短剧),这不是最合适的工具。它更像一个视频工厂,不是一个故事工作室。
✅ 三层知识架构比单层 prompt 干净太多
✅ 7 维评分引擎 · 不是简单价格排序
✅ 预合成验证 + 渲染后自检 · 治理层完善
✅ 零 Key 可用 · 参考视频驱动 · 预算控制
✅ 12 流水线覆盖绝大多数视频场景
❌ Bus Factor ≈ 1 · 最后提交已 1.5 个月
❌ 项目仅 2 个月 · 无正式 Release
❌ Agent 效果依赖底层模型质量
❌ 不适合创意叙事 · 偏模板化流水线
❌ 本地 GPU 门槛 8GB+ 显存
// 跟我在做的事有什么关系
我做 MangaVideo 的初衷就是想把 AI 短剧的流程自动化。拆完 OpenMontage 之后,我对自己项目最大的反思是:我一直把"编排"当成脚本层面的事(Python 调 API → 拼片段 → 渲染),但 OpenMontage 告诉我,编排应该交给 Agent。Agent 才是有审美判断、有质量意识、有成本控制意识的那个"导演"。
三层知识架构的分层思路也值得搬。我之前 MangaVideo 的 CLAUDE.md 把所有东西塞在一起,Agent 读着容易忘,改着容易冲突。拆成三层之后,每层有明确边界,Agent 只在需要的时候读需要的层。
预合成验证和渲染后自检这两个门控机制也值得搬过来。我之前做 MangaVideo 时最大的返工来源就是"生成完了才发现节奏不对",如果 Agent 能在渲染前自我审查,至少能省一半的废稿时间。
但 OpenMontage 的短剧支持还偏弱——12 条流水线里没有"连续叙事"这条线,角色一致性是硬伤。所以 MangaVideo 在短剧这个垂直场景里还有自己的空间。OpenMontage 做的是视频工厂,MangaVideo 做的是故事工作室——定位不冲突。