~/reviews · OpenMontage · 2026-06-22

cat README.md

OpenMontage

全球首个开源 Agentic 视频制作系统——12 条流水线、52 个工具、500+ Agent 技能，把你的 AI 编程助手变成完整视频导演。不是生成一个片段，是从研究到成片的端到端编排。

agentic video-production 12-pipelines python agplv3 remotion agent-first budget-governance

// 目录

我的卡点为什么值得讲我的判断它到底是什么架构拆解我发现了什么竞品对比成本实测短板在哪跟我的关系参考链接

// 概览

Stars

8,712

今日 +987 · 创建仅 2 个月 · 日增速历史级

工具 / 流水线

52 / 12

7 大类工具覆盖全环节 · 12 条端到端制作流水线

Agent 技能

500+

三层知识架构 · 5 平台兼容 · 14 视频供应商

Forks

1,151

社区参与活跃

许可证

AGPLv3

商业闭源受限 · 衍生作品必须开源

Contributors

主要维护者 calesthio · Bus Factor ≈ 1

Commits / Last Update

103 / 05-07

初始发布 2026-03-29 · 最后提交距今约 1.5 个月

Issues / PRs

28 / 39

28 open issues · 39 open PRs · 9 merged · 无正式 Release

生成完了，然后呢？

我这半年一直在做 AI 短剧和短视频工具。做了 MangaVideo，跑了无数次 Seedance、Kling、Runway 的生成 API，也拆过 MoneyPrinterTurbo 的编排层。每次做完一条视频，我都觉得流程可以更顺——但每次卡的地方都一样：生成了一个片段，然后呢？

谁来决定下一条片段是什么风格？谁来对齐节奏和情绪？谁来检查旁白和画面是不是对得上？谁来确保整条视频不是一堆 AI 生成的碎片拼在一起，而是有起承转合的作品？

我一直以为这个"谁来"是一个更好的编排脚本。直到拆完 OpenMontage，我才意识到：这个"谁来"应该是 Agent 本身。

为什么生成和成片之间有鸿沟

做 AI 视频的人大概都经历过这种割裂感——生成能力越来越强（Seedance 2.0、Kling v3、Runway Gen-4，每个都能输出让人惊叹的单片段），但把这些片段变成一条完整视频的过程，还是手工作坊式的。你要自己选模型、自己写脚本、自己下载素材、自己拖进剪辑软件、自己调字幕时间轴。

这不是"差一点点"的问题。生成和编排之间的鸿沟，才是 AI 视频真正卡人的地方。大部分人能生成一个漂亮片段，但不到 5% 的人能把十几个片段变成一条 60 秒的完整视频——中间的衔接、节奏、成本控制、质量验证，全是手动活。

我的判断

AI 视频的下一个战场不是谁生成得更惊艳，是谁能在生成和成片之间修一条高速公路。OpenMontage 是目前最野心勃勃的一次尝试——它不生成视频，它让 Agent 当导演。

它到底是什么

OpenMontage 是 calesthio 开源的项目（AGPLv3），定位"全球首个开源 Agentic 视频制作系统"。说白了，它不是又一个视频生成 API 的壳，而是把你的 AI 编程助手（Claude Code、Cursor、Copilot、Windsurf、Codex）变成一个有流水线意识的视频导演。

核心架构很干净：没有代码编排器。AI 编程助手本身就是编排器。Python 提供工具和持久化，所有创意决策存在于可读的指令文件（YAML 流水线清单 + Markdown 技能 + JSON Schema 合约）里。

12 条流水线覆盖了视频制作的大多数场景：动画解说、动态图形、虚拟人发言人、电影级预告片、纪录片蒙太奇、播客再利用、屏幕演示、真人演讲、角色动画、长视频切短片段、素材增强、本地化配音。

52 个生产工具分 7 大类（视频生成 13 个、图像 10 个、TTS 4 个、音乐音效 3 个、后期 7 个、增强 4 个、分析 4 个），覆盖从转录到渲染的全部环节。供应商方面，14 个视频生成 + 10 个图像 + 4 个 TTS + 多个音乐/后期，全部通过 7 维度评分引擎自动选择最优供应商。

还有一个很聪明的设计：参考视频驱动创作。粘贴 YouTube/Reel/TikTok 视频 URL，Agent 分析后生成差异化的制作计划。这比从零开始写 Prompt 要靠谱得多。

零 API Key 也能跑：Piper TTS（离线）+ Archive.org/NASA/Wikimedia（免费素材）+ Pexels/Pixabay/Unsplash（开发者 Key 免费）+ Remotion/HyperFrames（本地合成）+ FFmpeg（后处理）。一行 make setup 就能开工。

三层知识架构，比我想的干净

OpenMontage 的知识架构分三层，这是我拆完之后最想搬走的设计：

Layer 1：tools/ + pipeline_defs/——告诉 Agent "你能做什么"。48 个 Python 工具 + 12 条 YAML 流水线清单，是可执行的能力清单。

Layer 2：skills/——告诉 Agent "怎么做好"。Markdown 技能文件，每条流水线有阶段导演技能，写清楚了质量标准、审查清单、交付承诺。

Layer 3：.agents/skills/——告诉 Agent "底层原理是什么"。外部技术知识包，Agent 按需读取，不是一次性灌进去。

这个分层比我之前 MangaVideo 的单层 CLAUDE.md 干净太多。单层 CLAUDE.md 把所有东西塞在一起，Agent 读着容易忘，改着容易冲突。三层之后，每层有明确边界，Agent 只在需要的时候读需要的层。

更让我意外的是治理层：

预合成验证门控——阻止违反交付承诺的渲染。比如你说"这个视频以动态为主"，Agent 发现 80% 是静态图像，直接拦住不让渲染。省 GPU 时间，省钱。

渲染后自检——ffprobe 验证 + 4 点帧提取（检测黑帧和损坏叠加层）+ 音频电平分析 + 交付承诺验证。Agent 渲染完还自己检查一遍。

幻灯片风险评分——6 维度分析（重复性、装饰性视觉、弱动态、镜头意图、排版过度依赖、不支持的影院声明），防止 AI 生成"PPT 动画"。

预算控制——执行前估算成本 + 三种模式（observe/warn/cap）+ 每操作审批阈值 $0.50 + 总预算上限 $10。你不会因为一条测试视频花掉 $50。

// 架构流程

🧠

Agent 编排AI 编程助手 = 导演

→

🔧

Python 工具52 工具 · 7 维评分

→

🎨

渲染引擎Remotion · HyperFrames · FFmpeg

→

✅

质量门控预合成验证 · 渲染后自检

AGENT-FIRST · 无代码编排器 · AI 编程助手本身就是编排核心

// 竞品对比

项目	定位	优势	劣势
OpenMontage	Agent 当导演端到端制作流水线	12 流水线 · 52 工具 · 7 维评分治理层完善 · 预算控制零 Key 可用 · 参考视频驱动	AGPLv3 商用受限 Bus Factor ≈ 1 · 仅 2 月龄无正式 Release
MoneyPrinterTurbo	编排层 LLM → TTS → 素材 → 合成	66K Stars · MIT 可商用批量生成杀手功能 11+ LLM 引擎可换	素材同质化（全靠 Pexels）关键词级匹配不懂语义功能窄，只有一条流水线
ShortGPT	短视频自动化字幕 + 翻译	字幕做得好轻量安装	功能窄 · 社区小停更 · GPL-3.0
ComfyUI	节点式可控生成工作流编排器	140K Stars · 生态最大细粒度控制 · 可复现	非 Agent 驮动 · 学习曲线陡只管生成不管成片 UI 给人用不给 Agent 用
InVideo AI / Pippit	SaaS 视频生成零配置	零门槛 · 即用模板丰富	月费 · 数据上云闭源 · 无流水线概念单片段生成为主

// 成本实测

吉卜力动画

$0.15

产品广告 VOID

$0.69

Pixar 风格短片

$1.33

预算上限 (default)

$10.00

官方展示的 6 个制作案例，成本从 $0.15 到 $1.33。最低的是 12 张 FLUX 图像 + Remotion 合成的吉卜力风格动画（$0.15），最高的是 6 个 Kling v3 片段 + Chirp3-HD 旁白的 Pixar 风格短片（$1.33）。一条 60 秒视频平均成本不到 $1。

// 供应商覆盖

视频生成

14 供应商

图像生成

10 供应商

TTS 配音

4 供应商

音乐/音效

3 供应商

本地免费

全部可替代

// 我发现了什么

拆完 OpenMontage，我最大的收获不是"又多了一个视频生成工具"，而是Agent-first 架构在视频制作领域的可行性。

过去所有 AI 视频工具的设计思路都是：生成是核心，编排是附属。OpenMontage 翻转了这个关系：编排是核心，生成是可替换的组件。这跟 Ponytail 把 AI 编码从"写更多"改成"只写必须写的"是同款思路——不是让工具更强，是让工具更克制。

7 维度评分引擎（任务匹配 30% / 输出质量 20% / 控制功能 15% / 可靠性 15% / 成本效率 10% / 延迟 5% / 连续性 5%）是整个项目最精巧的设计。它不是简单的价格排序，而是把质量、可靠性、连续性都纳入考量。这意味着 Agent 不会因为 Kling 更贵就不用它——如果 Kling 的输出质量和连续性更适合当前场景，它会被选上。

三层知识架构也是。大多数 Agent 项目把所有指令塞在一个 CLAUDE.md 里，Agent 读着容易忘，改着容易冲突。OpenMontage 把"你能做什么""怎么做好""底层原理是什么"分成三层，Agent 只在需要的时候读需要的层。这比一次性灌 5000 行 prompt 干净太多。

// 短板

说完了好话，说几句不太好看的：

AGPLv3 是最大的法律限制。如果你想用 OpenMontage 做自己的商业产品，必须也开源。跟 MIT 或 Apache-2.0 比，这个门槛够劝退不少团队。

Bus Factor ≈ 1。主要维护者就是 calesthio 一人，外加一个 Doubao TTS PR 的贡献者。103 次提交，最后一次在 2026-05-07——已经一个半月没更新了。如果维护者跑路，项目基本就废了。

项目才 2 个月。2026-03-29 初始发布，没有正式 Release 版本号。28 个 Open Issues / 39 个 Open PRs 待处理。离"稳定可用"还有很远的路。

Agent 效果依赖底层模型质量。复杂流水线跑得好不好，跟用 Claude Code 还是 Codex 有关系。如果你用的是较弱的模型，编排质量会明显下降。

本地 GPU 门槛。免费视频生成需要至少 8GB 显存跑 WAN 2.1 或 CogVideo。没有 GPU 就只能用付费 API。

不适合创意叙事。12 条流水线偏模板化。如果你要做角色一致性强的连续叙事（比如短剧），这不是最合适的工具。它更像一个视频工厂，不是一个故事工作室。

VERDICT · 综合评分

8.4

方向 9.2 · 成熟度 7.0 · 治理 8.8 · 生态 6.5

✅ Agent-first 架构在视频制作领域首次完整实现
✅ 三层知识架构比单层 prompt 干净太多
✅ 7 维评分引擎 · 不是简单价格排序
✅ 预合成验证 + 渲染后自检 · 治理层完善
✅ 零 Key 可用 · 参考视频驱动 · 预算控制
✅ 12 流水线覆盖绝大多数视频场景

❌ AGPLv3 商业闭源受限
❌ Bus Factor ≈ 1 · 最后提交已 1.5 个月
❌ 项目仅 2 个月 · 无正式 Release
❌ Agent 效果依赖底层模型质量
❌ 不适合创意叙事 · 偏模板化流水线
❌ 本地 GPU 门槛 8GB+ 显存

// 跟我在做的事有什么关系

我做 MangaVideo 的初衷就是想把 AI 短剧的流程自动化。拆完 OpenMontage 之后，我对自己项目最大的反思是：我一直把"编排"当成脚本层面的事（Python 调 API → 拼片段 → 渲染），但 OpenMontage 告诉我，编排应该交给 Agent。Agent 才是有审美判断、有质量意识、有成本控制意识的那个"导演"。

三层知识架构的分层思路也值得搬。我之前 MangaVideo 的 CLAUDE.md 把所有东西塞在一起，Agent 读着容易忘，改着容易冲突。拆成三层之后，每层有明确边界，Agent 只在需要的时候读需要的层。

预合成验证和渲染后自检这两个门控机制也值得搬过来。我之前做 MangaVideo 时最大的返工来源就是"生成完了才发现节奏不对"，如果 Agent 能在渲染前自我审查，至少能省一半的废稿时间。

但 OpenMontage 的短剧支持还偏弱——12 条流水线里没有"连续叙事"这条线，角色一致性是硬伤。所以 MangaVideo 在短剧这个垂直场景里还有自己的空间。OpenMontage 做的是视频工厂，MangaVideo 做的是故事工作室——定位不冲突。

// links

calesthio/OpenMontage · GitHub

OSSInsight 分析页

Show and Tell · 社区作品展示

YouTube @OpenMontage

X (Twitter) @calesthioailabs

MoneyPrinterTurbo · 对比参考

AGENT_GUIDE.md · Agent 操作指南

项目	定位	优势	劣势
OpenMontage	Agent 当导演端到端制作流水线	12 流水线 · 52 工具 · 7 维评分治理层完善 · 预算控制零 Key 可用 · 参考视频驱动	AGPLv3 商用受限 Bus Factor ≈ 1 · 仅 2 月龄无正式 Release
MoneyPrinterTurbo	编排层 LLM → TTS → 素材 → 合成	66K Stars · MIT 可商用批量生成杀手功能 11+ LLM 引擎可换	素材同质化（全靠 Pexels）关键词级匹配不懂语义功能窄，只有一条流水线
ShortGPT	短视频自动化字幕 + 翻译	字幕做得好轻量安装	功能窄 · 社区小停更 · GPL-3.0
ComfyUI	节点式可控生成工作流编排器	140K Stars · 生态最大细粒度控制 · 可复现	非 Agent 驮动 · 学习曲线陡只管生成不管成片 UI 给人用不给 Agent 用
InVideo AI / Pippit	SaaS 视频生成零配置	零门槛 · 即用模板丰富	月费 · 数据上云闭源 · 无流水线概念单片段生成为主