cat README.md
MoneyPrinterTurbo
给一个主题,全自动出片。AI 写文案、AI 配音、AI 拼素材、AI 加字幕加 BGM——一条命令,高清短视频直接输出。今天 GitHub 趋势榜第一,单日涨了将近 5000 颗星,我亲自跑了一遍。
// 目录
// 概览
// 为什么关注
我自己在做 AI 短剧生成工具,从脚本到分镜到图片到视频到合成,五个阶段全走了一遍。所以看到 MoneyPrinterTurbo 今天冲到 GitHub 全榜第一的时候,我第一反应不是惊讶——"卧槽又爆了"——而是"终于来了"。
这个项目的逻辑特别直白:给一个主题或关键词,AI 自动出一条完整的短视频。文案用大模型写,配音用 TTS 读,素材从 Pexels/Pixabay 抓高清无版权视频片段,字幕和背景音乐自动加上,最后 ffmpeg 合成输出。
说真的,这东西解决的核心痛点我一直都有——想批量出视频内容但每次手动拼素材太累了。特别是做公众号视频号的内容分发,你不可能每个视频都从零剪。MoneyPrinterTurbo 把这套流程自动化到了一个很舒服的程度。
今天单日 +4,698 Star 不是没道理的。短视频这个赛道,创作者对"一键出片"的需求是刚性的。66K Star 背后是几万个内容创作者的真实诉求。
// 技术架构
MoneyPrinterTurbo 用的是经典 MVC 架构,但最让我服气的是它的管道式编排设计。整个视频生成过程被拆成四个独立阶段,每个阶段都可以单独替换引擎——这一点非常重要,后面会说为什么。
项目根目录结构一目了然:app/ 放核心逻辑(文案、素材、字幕、音频、合成五个模块),webui/ 放 Streamlit 界面,models/ 放 Whisper 模型文件,resource/ 放字体和背景音乐素材。
后端同时暴露了两套接口:Web UI(Streamlit,端口 8501)和 REST API(FastAPI,端口 8080)。API 文档自动生成在 /docs 和 /redoc。这意味着你完全可以用它当后端服务,前端自己写。
v1.2.7 引入了 uv + pyproject.toml 管理依赖,替代了之前的 requirements.txt。这是一个信号——作者在认真维护项目的工程质量,不是随便堆代码。
四步出片流水线
主题 → 分段脚本
文本 → 音频 + 时间轴
视频片段 + 硬字幕
1080p / 1920x1080
// 安装上手
四种部署方式,从简到繁:
方案一:Windows 一键启动包
最省事。百度网盘下载解压,双击 start.bat,浏览器自动打开 Web UI。不需要装 Python、不需要配 ffmpeg。小白用户的首选。
方案二:Docker 部署
Docker 方案隔离性最好,推荐给有 Docker 经验的用户。GPU 版本配 CUDA,字幕生成用 Whisper 会快很多。
方案三:uv 本地部署
v1.2.7 之后的推荐方式。uv 比 pip 快 10-100 倍,依赖锁定也做得更好。需要手动安装 ImageMagick(字幕渲染用)和 ffmpeg。
方案四:Google Colab
没有任何本地环境要求,打开 Colab Notebook 就能跑。适合临时用一下或者测试效果的场景。缺点是每次重启环境要重新配置。
// 工作流程
我用 Web UI 跑了一条"如何提升专注力"的视频,走了一遍完整流程:
Step 1:在主题输入框填入"如何提升专注力",选择竖屏 9:16、中文、Edge TTS(免费)。
Step 2:DeepSeek V3 花了大概 8 秒生成了 5 段文案。每段大约 2-3 句话,结构是"引入 → 观点 → 建议"。文案质量还行,不会让你惊艳但也够用。
Step 3:Edge TTS 读文案生成音频。中文语音比想象中自然,不过语调偏平,缺少情绪起伏。如果对语音要求高,换 Azure TTS(付费)效果会好很多。
Step 4:系统从 Pexels 拉取"专注""工作""学习"相关的视频素材。每段文案匹配 1-2 个素材片段,自动裁剪到音频时长。素材质量不错,都是 1080p 的。
Step 5:自动生成硬字幕(字体、位置、颜色、描边都可调),叠加背景音乐(自带曲库或自定义),ffmpeg 合成输出。整个流程不到 3 分钟出片。
说实话,批量生成才是这个工具的杀手功能。设置一个主题列表,它会逐个生成,一次出 10 条视频你挑最好的用。对于需要持续产出内容的创作者来说,这太香了。
// 模型生态
v1.2.8 最新的模型支持列表相当炸裂:
| 类别 | 支持的模型/服务 | 成本 |
|---|---|---|
| LLM 文案 | OpenAI / Azure / DeepSeek / Moonshot / 通义千问 / 文心一言 / Gemini / MiniMax / Grok(xAI) / Ollama / LiteLLM 网关 | 免费(Ollama)~ $0.01/条 |
| TTS 语音 | Edge TTS(免费) / Azure Cognitive Services(9种声音) / SiliconFlow / Gemini TTS | 免费(Edge)~ $0.016/分钟 |
| 字幕生成 | Edge(快但不稳定) / Whisper large-v3(慢但准确) | 本地免费 |
| 素材来源 | Pexels / Pixabay / 本地素材上传 | 全部免费 |
v1.2.8 新增了 LiteLLM 提供商支持,这意味着你能通过一个网关接入 100+ 模型,不再被单一模型锁定。对国内用户特别友好的是 DeepSeek 和 Moonshot 两条路——不需要翻墙,注册就送额度,一条视频的文案成本大概一分钱人民币。
还有一个容易被忽略的新功能:WebUI 支持上传自定义音频旁白。你可以自己录一段配音,然后让 MoneyPrinterTurbo 帮你匹配素材、加字幕、合成视频。这个功能对那些不想用 AI 声音的创作者来说非常实用。
// 竞品对比
我把开源和 SaaS 的主要玩家都拉出来比了一下。MoneyPrinterTurbo 的核心差异化在于"全链路开源 + 引擎可替换"。
| 项目 | 类型 | 核心特点 | 优势 | 劣势 |
|---|---|---|---|---|
| MoneyPrinterTurbo | 开源 | 全链路自动化,11+ LLM,MVC 架构 | MIT 协议可商用、引擎可替换、批量生成、API 服务完整 | 素材同质化、Bus Factor ≈ 1 |
| MoneyPrinterPlus | 开源 | 在 Turbo 基础上加批量混剪 + 自动发布 | ChatTTS/GPT-SoVITS 本地语音、抖音/快手/小红书自动发布 | GPL-3.0 限制商用、更新频率低、最后更新 2024-09 |
| ShortGPT | 开源 | 模块化视频编排引擎 | 字幕节奏感默认效果更好、社区活跃 | 安装同样复杂、功能范围窄于 Turbo |
| InVideo AI | SaaS | 云端全托管视频生成 | 零配置、免费层可用、后期编辑控制 | $20/月起、数据全上云端、隐私风险 |
| Pippit (CapCut) | SaaS | TikTok 风格模板化生成 | TikTok 生态无缝衔接、移动端支持好 | $21/月、风格太 TikTok、跳出生态就废了 |
如果你是开发者,想在本地跑、想改代码、想接自己的模型——MoneyPrinterTurbo 和 ShortGPT 是唯二的选择。其中 MoneyPrinterTurbo 在模型覆盖面(11+ LLM)、部署方式(4 种)和 API 完整度上领先。
如果你只是想"输入一个想法就出视频",不想折腾技术——SaaS 工具更合适。但要付月费,而且你的数据全在别人服务器上。
MoneyPrinterPlus 值得单独说一句。它本质上是 MoneyPrinterTurbo 的增强 Fork,加了批量混剪(一次出 100 条不重复视频)和自动发布到抖音/快手/小红书/视频号的能力。如果你是做矩阵号批量铺量的,这个功能直接解决了分发效率问题。但 GPL-3.0 协议和 2024 年 9 月之后就没更新这两个点,让我不太敢放心用。
// 版本迭代节奏
迭代节奏不算快——26 个月 11 个版本——但每个版本都是实打实的功能更新,不是那种改个 README 就发一版的。v1.2.7 到 v1.2.8 间隔了一个月,但 v1.2.8 一次加了 LiteLLM 网关、Grok 支持、自定义音频上传、安全加固等一堆东西。这说明作者不是在"维护"这个项目,是在"认真做"这个项目。
// 博主观点
✔ 全链路自动化,从主题到成片一步到位
✔ 11+ LLM 支持,DeepSeek/Moonshot 国内零门槛使用
✔ 四种部署方式覆盖所有用户技术水平
✔ MIT 协议可商用,66K Star 社区验证
✔ 批量生成 + API 双接口,既能手动也能集成
✔ v1.2.8 引擎可替换架构,扩展性很好
✔ 安全意识在线(v1.2.7/1.2.8 连续两版加固)
✘ 素材全部来自 Pexels/Pixabay,输出容易"同质化"
✘ Bus Factor ≈ 1,harry0703 贡献了 75% 的 commit
✘ 素材匹配是关键词级,不理解语义上下文
✘ Edge TTS 免费但质量一般,好的声音要花钱
✘ 不支持 AI 生图/生视频(只拼接现有素材)
✘ 垂直领域(健身/ASMR/剧情类)效果差
说几句掏心窝的话。
我自己做 AI 短剧生成工具,五个阶段全走了一遍,深知这条路有多折腾。MoneyPrinterTurbo 选择了一个更聪明的切入点——不做 AI 生图/生视频(那是 Seedance 和即梦的事),只做编排层。把 LLM 文案、TTS 配音、素材库匹配、字幕渲染、BGM 混音这些已经有成熟解决方案的环节串起来,形成一个完整的出片流水线。
这个定位非常精准。它不和 Sora/Seedance 抢"AI 生成视频"的蛋糕,而是解决了"有了素材怎么快速拼成视频"这个更接地气的问题。对于做知识分享、新闻资讯、情感语录这类"文案驱动型"短视频的创作者来说,MoneyPrinterTurbo 基本上就是一台印钞机。
但它的天花板也就在这里。一旦你做的视频需要剧情连续性、角色一致性、视觉风格控制——比如我做的成语故事短剧——MoneyPrinterTurbo 的素材拼接模式就完全不够用了。它不知道什么是"赵高",不会给你生成一个穿华丽服饰的权臣形象,只会给你搜一堆模糊的"古代"视频片段拼在一起。
所以我的判断是:MoneyPrinterTurbo 适合 80% 的"批量内容"场景(知识分享、新闻解读、情感语录、产品介绍),不适合 20% 的"创意叙事"场景(剧情短片、品牌故事、艺术创作)。它和 Seedance/即梦不是竞品,而是互补——你可以用 MoneyPrinterTurbo 出常规内容,用 AI 生图+生视频做精品内容。
8.6 分是我给它的综合评价。扣分项主要是 Bus Factor 和素材同质化。但作为一个 MIT 开源、66K Star、持续迭代两年多的项目,它已经是这个赛道里最成熟的选择了。
// links
📦 GitHub 仓库 — MIT License,Star 它
📖 Release 列表 — 11 个版本,最新 v1.2.8
🎬 MoneyPrinterPlus — 增强 Fork,批量混剪 + 自动发布
📊 Star History — Star 增长曲线
🎞 录咖 RecCloud — 基于此项目的免费在线 AI 视频生成器