🔥 GitHub Trending · 今日 +703 Star

Open-Generative-AI

开源 AI 图片/视频生成工作室——200+ 模型，零内容过滤，MIT 协议，可自部署

总 Star 15,102

Forks 2,589

版本 v1.0.11

语言 JavaScript 98.9%

协议 MIT

🎨 图片生成 🎬 视频生成 👄 口型同步 🖥️ 桌面客户端 🔓 无审查 ⚡ 本地推理

8.3

综合评分 /10

📑 目录导航

1 先说结论：这东西到底值不值得装
2 项目概览：它到底是什么
3 五大 Studio 逐个拆解
4 200+ 模型清单：到底支持哪些
5 安装部署：从下载到出图
6 本地推理能力：sd.cpp + Wan2GP 双引擎
7 技术架构：Monorepo 怎么组织的
8 跟同类工具对比：谁更值得用
9 我踩过的坑和真实体验
10 综合评分 & 最终建议

💡先说结论：这东西到底值不值得装

一句话：如果你经常在多个 AI 生图/生视频平台之间来回切，或者对商业平台的内容审查感到烦躁，那 Open-Generative-AI 值得花 30 分钟试一下。它不是要替代 ComfyUI 或专业工作流，而是一个聚合器 + 统一 UI——把 Flux、Kling、Seedance、Sora、Veo 这些散落各处的模型塞进一个窗口里操作。

我最近在做「指鹿为马」成语短剧，每天在即梦 CLI、Seedance API 之间折腾，对这个领域算是有点体感。看到这个项目的时候第一反应是："又一个套壳？"但翻完源码和 Release 记录之后，想法有变化。下面说说我实际调研的发现。

🔍项目概览：它到底是什么

Open-Generative-AI 是 Anil-matcha（GitHub 用户）做的开源 AI 多媒体生成工具，定位很直白：免费、无内容过滤、200+ 模型的图片/视频生成工作室。

它的核心卖点是三个字：聚、免、私。把各家平台的模型聚合到一个界面；不收订阅费也不审查你的 prompt；数据可以留在本地。MIT 协议开源，代码随便改。

创建时间

约 2026 年初

Commits

177

Releases

12 个 (最新 v1.0.11)

Open Issues

8 个（健康）

Release 频率

~每 2 天一版

作者

@Anil-matcha (个人开发者)

🎛️五大 Studio 逐个拆解

整个产品围绕五个"Studio"组织，每个 Studio 是一个独立的功能模块：

🖼️ Image Studio

文生图 + 图生图双模式。上传参考图后自动切换到 i2i 模型列表，最多支持 14 张参考图同时输入。

Flux Dev Midjourney v7 SDXL Nano Banana 2 Ideogram v3 +50+

🎬 Video Studio

文生视频 + 图生视频双模式。Seedance 2.0 支持 9 张参考图输入，Kling/Veo/Sora 全覆盖。

Kling v3 Sora 2 Veo 3 Seedance 2.0 Wan 2.6 +40+

👄 LipSync Studio

口型同步，两种模式：照片+音频→会说话的视频，或已有视频+音频→对口型。9 个专用模型。

Infinite Talk LTX 2.3 LatentSync Sync Lipsync Wan 2.2 S2V

🎥 Cinema Studio

影视级摄影控制——镜头类型、焦段、光圈、胶片模拟。给提示词加一层电影语言。

70mm Film Anamorphic f/1.4 DoF 8mm Ultra-Wide

🔗 Workflow Studio

节点式多步骤流水线编辑器。可以串联多个模型做复杂 pipeline，支持社区模板分享。

Node Editor Community Templates Custom Pipeline

🤖200+ 模型清单：重点说说哪些值得关注

官方声称 200+ 模型，我按类别梳理了核心的几个。完整列表在源码 packages/studio/src/models.js 里，是唯一的模型定义来源（单点维护，这点设计得不错）。

类别	代表模型	数量	亮点
文生图 T2I	Flux Dev, Midjourney v7, GPT-4o, SDXL, Nano Banana 2, Seedream 5.0, Ideogram v3	50+	Nano Banana 2 支持 1K/2K/4K 分辨率
图生图 I2I	GPT-4o Edit, Kling O1 Edit, Seedream Edit v4/v4.5, Flux Kontext, Qwen Edit	55+	Nano Banana 2 Edit 支持最多 14 张参考图
文生视频 T2V	Kling v3, Sora 2, Veo 3, Seedance 2.0, Wan 2.6, Hailuo 2.3	40+	Seedance 2.0 支持 5/10/15s 三档时长
图生视频 I2V	Kling v2.1 I2V, Veo3 I2V, Runway I2V, Seedance 2.0 I2V, Midjourney v7 I2V	60+	Seedance 2.0 I2V 最高 9 张参考图
口型同步	Infinite Talk, LTX 2.3 Lipsync, LatentSync, Sync Lipsync, Creatify	9	LTX 2.3 支持 1080p 输出
本地推理	Z-Image Turbo/Base, Dreamshaper 8, Realistic Vision, Anything v5, SDXL Base	7	Metal GPU 加速（Apple Silicon 原生）

注意：这些模型的调用全部走 Muapi.ai 的 API 网关（BYOK，Bring Your Own Key）。也就是说你得自己去各平台申请 API Key 填进去，项目本身不提供免费额度。本地推理的那 7 个模型除外——那些是真的在你电脑上跑的。

📦安装部署：从下载到出图

方案一：桌面客户端（推荐）

直接下安装包，三平台全覆盖：

# macOS Apple Silicon (M1/M2/M3/M4)
# 下载 DMG → 拖到 Applications → 终端执行：
xattr -cr "/Applications/Open Generative AI.app"

# Windows
# 下载 exe → SmartScreen 弹窗点「更多信息」→「仍要运行」

# Linux (Ubuntu)
sudo apt install ./open-generative-ai_1.0.11_amd64.deb

方案二：网页版（零安装）

直接访问 muapi.ai/open-generative-ai 注册账号就能用，不用装任何东西。功能跟桌面版基本一致，区别是网页版没有本地推理能力。

方案三：开发模式（想改源码的话）

# 克隆（注意带 submodule）
git clone --recurse-submodules https://github.com/Anil-matcha/Open-Generative-AI.git
cd Open-Generative-AI

# 安装依赖并构建 workspace 包
npm run setup

# 启动桌面版（推荐）或网页版
npm run electron:dev   # 桌面应用
npm run dev            # 网页版 → localhost:3000

⚡本地推理能力：sd.cpp + Wan2GP 双引擎

这是我觉得最有意思的部分。桌面端内置了两套本地推理引擎，不需要把图片发到云端：

🔹

引擎一：sd.cpp（内置绑定）

基于 stable-diffusion.cpp 编译的原生推理库。Apple Silicon 上走 Metal GPU 加速，M2 Mac 跑 SD 1.5 大概 1-2 秒/step；Windows/Linux 支持 CUDA/Vulkan/ROCm。覆盖 Z-Image Turbo（8 步快速出图）、Dreamshaper 8、Realistic Vision、Anything v5、SDXL 等 7 个模型。Z-Image 要求 16GB 以上内存，低配 Mac 会卡死——文档里有明确警告。
🔹

引擎二：Wan2GP（远程 Gradio 服务）

针对视频和大图的方案。需要一台带 CUDA/ROCm 的 GPU 机器跑 Gradio Server，桌面端通过网络连接。支持 Flux.1 Dev、Qwen-Image、Wan 2.2（T2V/I2V）、Hunyuan Video、LTX Video。适合有闲置 GPU 服务器的人。

本地模型	大小	类型	最低内存建议
Z-Image Turbo ⚡	2.5 GB + 2.7 GB aux	Diffusion Transformer	16 GB RAM
Z-Image Base	3.5 GB + 2.7 GB aux	Diffusion Transformer	16 GB RAM
Dreamshaper 8	2.1 GB	SD 1.5	8 GB RAM
Realistic Vision v5.1	2.1 GB	SD 1.5	8 GB RAM
Anything v5	2.1 GB	SD 1.5	8 GB RAM
SDXL Base 1.0	6.9 GB	SDXL	16 GB RAM

🏗️技术架构：Monorepo 怎么组织的

技术栈不算复杂但结构清晰：Next.js 14 App Router + React 18 + Tailwind CSS 3 + npm workspaces + Electron。核心设计是把 UI 组件抽成独立包 packages/studio，这样桌面端和 muapi.ai 网页版共享同一套组件代码——改一处两边生效。

Open-Generative-AI/
├── app/                          # Next.js App Router 入口
│   ├── studio/page.js            # 渲染 StandaloneShell 主界面
├── components/
│   ├── StandaloneShell.js        # Tab 导航 + API Key 输入
│   └── ApiKeyModal.js            # Key 管理弹窗（存 localStorage）
├── packages/studio/              # ★ 共享组件库（核心资产）
│   ├── models.js                 # 200+ 模型定义（单点真相）
│   ├── muapi.js                  # API 客户端封装
│   └── components/
│       ├── ImageStudio.jsx       # t2i/i2i 自动切换
│       ├── VideoStudio.jsx       # t2v/i2v 自动切换
│       ├── LipSyncStudio.jsx     # 口型同步
│       ├── CinemaStudio.jsx      # 电影级控制
│       └── WorkflowStudio.jsx    # 节点式 Pipeline
├── electron/                      # Electron 主进程（本地推理桥接）
├── next.config.mjs              # transpilePackages: ['studio']
├── Dockerfile                     # Docker 部署支持
└── docker-compose.yml

API 调用流程：两步式设计——先 POST 提交任务拿到 request_id，再 GET 轮询结果直到 status=completed。文件上传走独立的 /upload_file 接口（multipart），返回 URL 后传给图像条件模型。models.js 是所有模型定义的唯一来源，新增模型只改这一个文件，这种集中管理在 200+ 模型的规模下确实能减少混乱。

⚖️跟同类工具对比：谁更值得用

维度	Open-Gen-AI	ComfyUI	Fooocus	Pinokio	各平台官网
定位	多平台模型聚合器	节点式工作流引擎	一键出图工具	浏览器 AI 管理	各自封闭生态
模型数量	200+（云+本地混合）	无限（自定义节点）	~10（SD 系列）	依赖安装包	各 1-3 个
视频能力	✅ 100+ 视频模型	❌ 需额外插件	❌ 仅图片	部分支持	仅自家
使用门槛	低（填 Key 即用）	高（需学节点）	极低	中	低
自由度	中（受限于 API 参数）	极高（完全可控）	低（预设好）	中	低
本地推理	✅ sd.cpp + Wan2GP	✅ 完整支持	✅ 内置	依赖模型	❌ 纯云端
内容审查	❌ 无	❌ 无	❌ 无	取决于模型	✅ 有（严格）
价格	免费（BYOK）	免费	免费	免费	付费订阅
适合人群	跨平台创作者	专业玩家/AI艺术家	快速出图党	懒人尝鲜	单一平台用户

我的判断：Open-Generative-AI 不跟 ComfyUI 抢用户——ComfyUI 用户需要的是极致的可控性，Open-Gen-AI 给的是便利性和覆盖率。它真正的竞争对手不是开源工具，而是你同时在 Kling、即梦、Midjourney、Sora 四个浏览器标签页之间切换的那种痛苦。

🧪我踩过的坑和真实体验

✅ 做得好的地方

模型覆盖面真的广——Seedance 2.0、Kling v3、Veo 3、Sora 2 这些主流全齐了，做短视频的不用在十个网站之间跳来跳去
t2i/i2i 和 t2v/i2V 的自动模式切换做得聪明，上传图片就自动切模型列表，不用手动找
本地推理 sd.cpp + Metal 加速对 Mac 用户友好，不用折腾 Python 环境
发布节奏快，19 天 11 个版本，Bug 修复及时（null prompt 问题、Windows 构建修复都在几天内解决）
MIT 协议，想怎么改就怎么改，商用也没问题
Workflow Studio 的节点编辑器思路很好，社区模板如果起来会是杀手功能

⚠️ 需要注意的地方

本质上是 Muapi.ai 的前端壳——所有云模型调用都走它的 API 网关，你的 Prompt 和生成记录理论上它能看见
"无内容过滤"是双刃剑——自由度高但也意味着没有安全底线，滥用风险自担
有人报了 SSRF 安全漏洞（Issue #162），上传代理没校验目标 URL，这个在安全审计层面是个红旗
Cinema Studio 和 Workflow Studio 还比较初级，更像概念验证阶段
个人开发者项目 Bus Factor = 1，作者哪天不干了就没人维护了
Windows 安装包没代码签名，SmartScreen 会拦，小白用户可能被吓退
8 个 Open Issue 里有两个是核心功能（图片/视频生成）报错的，稳定性还需观察

关于"无内容过滤"这件事多说两句：作为内容创作者我能理解为什么这个卖点吸引人——你在做历史剧角色，某些古装造型在商业平台容易被误判违规。但从技术角度看，完全没有 guardrails 意味着模型输出的不可预测性更高，而且如果你拿它生成的素材去做公开发布的内容，版权和法律风险需要自己把控。这不是项目的问题，是使用者需要注意的事。

📊综合评分 & 最终建议

模型丰富度 9.0

易用性 8.5

本地推理 7.5

代码质量 7.5

社区活跃度 7.0

安全性 6.5

稳定性 7.5

差异化竞争力 8.5

最终评价

Open-Generative-AI 是一个定位清晰、执行到位的聚合工具。它不试图重新发明轮子，而是把散落在各平台的 AI 生成模型统一到一个界面里。对于需要频繁切换多个生图/生视频平台的创作者来说，省下来的上下文切换时间是很实在的收益。

它的天花板取决于两个东西：一是 Muapi.ai API 网关的长期可靠性（毕竟所有云模型调用都经过它），二是 Workflow Studio 能不能发展成真正有用的 Pipeline 工具而不是摆设。如果能做到这两点，从"好用的小工具"进化成"创作者的工作台"是有可能的。

适合谁试：做多平台 AI 内容创作的、对商业平台审查烦的、需要一个统一入口管理各种模型 API Key 的人。
不适合谁：需要像素级可控性的（去 ComfyUI）、只用单一平台的（直接用官方就好）、对数据隐私要求极高的（本地推理模型有限且质量不如云端）。

🔗 GitHub 仓库 🌐 在线体验 💬 Discord 社区 🐦 作者 Twitter

Open-Generative-AI

💡先说结论：这东西到底值不值得装

🔍项目概览：它到底是什么

🎛️五大 Studio 逐个拆解

🖼️ Image Studio

🎬 Video Studio

👄 LipSync Studio

🎥 Cinema Studio

🔗 Workflow Studio

🤖200+ 模型清单：重点说说哪些值得关注

📦安装部署：从下载到出图

方案一：桌面客户端（推荐）

方案二：网页版（零安装）

方案三：开发模式（想改源码的话）

⚡本地推理能力：sd.cpp + Wan2GP 双引擎

引擎一：sd.cpp（内置绑定）

引擎二：Wan2GP（远程 Gradio 服务）

🏗️技术架构：Monorepo 怎么组织的

⚖️跟同类工具对比：谁更值得用

🧪我踩过的坑和真实体验

✅ 做得好的地方

⚠️ 需要注意的地方

📊综合评分 & 最终建议

最终评价