开源 AI 图片/视频生成工作室——200+ 模型,零内容过滤,MIT 协议,可自部署
我最近在做「指鹿为马」成语短剧,每天在即梦 CLI、Seedance API 之间折腾,对这个领域算是有点体感。看到这个项目的时候第一反应是:"又一个套壳?"但翻完源码和 Release 记录之后,想法有变化。下面说说我实际调研的发现。
Open-Generative-AI 是 Anil-matcha(GitHub 用户)做的开源 AI 多媒体生成工具,定位很直白:免费、无内容过滤、200+ 模型的图片/视频生成工作室。
它的核心卖点是三个字:聚、免、私。把各家平台的模型聚合到一个界面;不收订阅费也不审查你的 prompt;数据可以留在本地。MIT 协议开源,代码随便改。
整个产品围绕五个"Studio"组织,每个 Studio 是一个独立的功能模块:
文生图 + 图生图双模式。上传参考图后自动切换到 i2i 模型列表,最多支持 14 张参考图同时输入。
文生视频 + 图生视频双模式。Seedance 2.0 支持 9 张参考图输入,Kling/Veo/Sora 全覆盖。
口型同步,两种模式:照片+音频→会说话的视频,或已有视频+音频→对口型。9 个专用模型。
影视级摄影控制——镜头类型、焦段、光圈、胶片模拟。给提示词加一层电影语言。
节点式多步骤流水线编辑器。可以串联多个模型做复杂 pipeline,支持社区模板分享。
官方声称 200+ 模型,我按类别梳理了核心的几个。完整列表在源码 packages/studio/src/models.js 里,是唯一的模型定义来源(单点维护,这点设计得不错)。
| 类别 | 代表模型 | 数量 | 亮点 |
|---|---|---|---|
| 文生图 T2I | Flux Dev, Midjourney v7, GPT-4o, SDXL, Nano Banana 2, Seedream 5.0, Ideogram v3 | 50+ | Nano Banana 2 支持 1K/2K/4K 分辨率 |
| 图生图 I2I | GPT-4o Edit, Kling O1 Edit, Seedream Edit v4/v4.5, Flux Kontext, Qwen Edit | 55+ | Nano Banana 2 Edit 支持最多 14 张参考图 |
| 文生视频 T2V | Kling v3, Sora 2, Veo 3, Seedance 2.0, Wan 2.6, Hailuo 2.3 | 40+ | Seedance 2.0 支持 5/10/15s 三档时长 |
| 图生视频 I2V | Kling v2.1 I2V, Veo3 I2V, Runway I2V, Seedance 2.0 I2V, Midjourney v7 I2V | 60+ | Seedance 2.0 I2V 最高 9 张参考图 |
| 口型同步 | Infinite Talk, LTX 2.3 Lipsync, LatentSync, Sync Lipsync, Creatify | 9 | LTX 2.3 支持 1080p 输出 |
| 本地推理 | Z-Image Turbo/Base, Dreamshaper 8, Realistic Vision, Anything v5, SDXL Base | 7 | Metal GPU 加速(Apple Silicon 原生) |
直接下安装包,三平台全覆盖:
# macOS Apple Silicon (M1/M2/M3/M4)
# 下载 DMG → 拖到 Applications → 终端执行:
xattr -cr "/Applications/Open Generative AI.app"
# Windows
# 下载 exe → SmartScreen 弹窗点「更多信息」→「仍要运行」
# Linux (Ubuntu)
sudo apt install ./open-generative-ai_1.0.11_amd64.deb
直接访问 muapi.ai/open-generative-ai 注册账号就能用,不用装任何东西。功能跟桌面版基本一致,区别是网页版没有本地推理能力。
# 克隆(注意带 submodule)
git clone --recurse-submodules https://github.com/Anil-matcha/Open-Generative-AI.git
cd Open-Generative-AI
# 安装依赖并构建 workspace 包
npm run setup
# 启动桌面版(推荐)或网页版
npm run electron:dev # 桌面应用
npm run dev # 网页版 → localhost:3000
这是我觉得最有意思的部分。桌面端内置了两套本地推理引擎,不需要把图片发到云端:
基于 stable-diffusion.cpp 编译的原生推理库。Apple Silicon 上走 Metal GPU 加速,M2 Mac 跑 SD 1.5 大概 1-2 秒/step;Windows/Linux 支持 CUDA/Vulkan/ROCm。覆盖 Z-Image Turbo(8 步快速出图)、Dreamshaper 8、Realistic Vision、Anything v5、SDXL 等 7 个模型。Z-Image 要求 16GB 以上内存,低配 Mac 会卡死——文档里有明确警告。
针对视频和大图的方案。需要一台带 CUDA/ROCm 的 GPU 机器跑 Gradio Server,桌面端通过网络连接。支持 Flux.1 Dev、Qwen-Image、Wan 2.2(T2V/I2V)、Hunyuan Video、LTX Video。适合有闲置 GPU 服务器的人。
| 本地模型 | 大小 | 类型 | 最低内存建议 |
|---|---|---|---|
| Z-Image Turbo ⚡ | 2.5 GB + 2.7 GB aux | Diffusion Transformer | 16 GB RAM |
| Z-Image Base | 3.5 GB + 2.7 GB aux | Diffusion Transformer | 16 GB RAM |
| Dreamshaper 8 | 2.1 GB | SD 1.5 | 8 GB RAM |
| Realistic Vision v5.1 | 2.1 GB | SD 1.5 | 8 GB RAM |
| Anything v5 | 2.1 GB | SD 1.5 | 8 GB RAM |
| SDXL Base 1.0 | 6.9 GB | SDXL | 16 GB RAM |
技术栈不算复杂但结构清晰:Next.js 14 App Router + React 18 + Tailwind CSS 3 + npm workspaces + Electron。核心设计是把 UI 组件抽成独立包 packages/studio,这样桌面端和 muapi.ai 网页版共享同一套组件代码——改一处两边生效。
Open-Generative-AI/
├── app/ # Next.js App Router 入口
│ ├── studio/page.js # 渲染 StandaloneShell 主界面
├── components/
│ ├── StandaloneShell.js # Tab 导航 + API Key 输入
│ └── ApiKeyModal.js # Key 管理弹窗(存 localStorage)
├── packages/studio/ # ★ 共享组件库(核心资产)
│ ├── models.js # 200+ 模型定义(单点真相)
│ ├── muapi.js # API 客户端封装
│ └── components/
│ ├── ImageStudio.jsx # t2i/i2i 自动切换
│ ├── VideoStudio.jsx # t2v/i2v 自动切换
│ ├── LipSyncStudio.jsx # 口型同步
│ ├── CinemaStudio.jsx # 电影级控制
│ └── WorkflowStudio.jsx # 节点式 Pipeline
├── electron/ # Electron 主进程(本地推理桥接)
├── next.config.mjs # transpilePackages: ['studio']
├── Dockerfile # Docker 部署支持
└── docker-compose.yml
API 调用流程:两步式设计——先 POST 提交任务拿到 request_id,再 GET 轮询结果直到 status=completed。文件上传走独立的 /upload_file 接口(multipart),返回 URL 后传给图像条件模型。models.js 是所有模型定义的唯一来源,新增模型只改这一个文件,这种集中管理在 200+ 模型的规模下确实能减少混乱。
| 维度 | Open-Gen-AI | ComfyUI | Fooocus | Pinokio | 各平台官网 |
|---|---|---|---|---|---|
| 定位 | 多平台模型聚合器 | 节点式工作流引擎 | 一键出图工具 | 浏览器 AI 管理 | 各自封闭生态 |
| 模型数量 | 200+(云+本地混合) | 无限(自定义节点) | ~10(SD 系列) | 依赖安装包 | 各 1-3 个 |
| 视频能力 | ✅ 100+ 视频模型 | ❌ 需额外插件 | ❌ 仅图片 | 部分支持 | 仅自家 |
| 使用门槛 | 低(填 Key 即用) | 高(需学节点) | 极低 | 中 | 低 |
| 自由度 | 中(受限于 API 参数) | 极高(完全可控) | 低(预设好) | 中 | 低 |
| 本地推理 | ✅ sd.cpp + Wan2GP | ✅ 完整支持 | ✅ 内置 | 依赖模型 | ❌ 纯云端 |
| 内容审查 | ❌ 无 | ❌ 无 | ❌ 无 | 取决于模型 | ✅ 有(严格) |
| 价格 | 免费(BYOK) | 免费 | 免费 | 免费 | 付费订阅 |
| 适合人群 | 跨平台创作者 | 专业玩家/AI艺术家 | 快速出图党 | 懒人尝鲜 | 单一平台用户 |
Open-Generative-AI 是一个定位清晰、执行到位的聚合工具。它不试图重新发明轮子,而是把散落在各平台的 AI 生成模型统一到一个界面里。对于需要频繁切换多个生图/生视频平台的创作者来说,省下来的上下文切换时间是很实在的收益。
它的天花板取决于两个东西:一是 Muapi.ai API 网关的长期可靠性(毕竟所有云模型调用都经过它),二是 Workflow Studio 能不能发展成真正有用的 Pipeline 工具而不是摆设。如果能做到这两点,从"好用的小工具"进化成"创作者的工作台"是有可能的。
适合谁试:做多平台 AI 内容创作的、对商业平台审查烦的、需要一个统一入口管理各种模型 API Key 的人。
不适合谁:需要像素级可控性的(去 ComfyUI)、只用单一平台的(直接用官方就好)、对数据隐私要求极高的(本地推理模型有限且质量不如云端)。