🔥 GitHub Trending · 今日 +703 Star

Open-Generative-AI

开源 AI 图片/视频生成工作室——200+ 模型,零内容过滤,MIT 协议,可自部署

总 Star 15,102
Forks 2,589
版本 v1.0.11
语言 JavaScript 98.9%
协议 MIT
🎨 图片生成 🎬 视频生成 👄 口型同步 🖥️ 桌面客户端 🔓 无审查 ⚡ 本地推理
8.3
综合评分 /10
📑 目录导航

💡先说结论:这东西到底值不值得装

一句话:如果你经常在多个 AI 生图/生视频平台之间来回切,或者对商业平台的内容审查感到烦躁,那 Open-Generative-AI 值得花 30 分钟试一下。它不是要替代 ComfyUI 或专业工作流,而是一个聚合器 + 统一 UI——把 Flux、Kling、Seedance、Sora、Veo 这些散落各处的模型塞进一个窗口里操作。

我最近在做「指鹿为马」成语短剧,每天在即梦 CLI、Seedance API 之间折腾,对这个领域算是有点体感。看到这个项目的时候第一反应是:"又一个套壳?"但翻完源码和 Release 记录之后,想法有变化。下面说说我实际调研的发现。

🔍项目概览:它到底是什么

Open-Generative-AI 是 Anil-matcha(GitHub 用户)做的开源 AI 多媒体生成工具,定位很直白:免费、无内容过滤、200+ 模型的图片/视频生成工作室

它的核心卖点是三个字:聚、免、私。把各家平台的模型聚合到一个界面;不收订阅费也不审查你的 prompt;数据可以留在本地。MIT 协议开源,代码随便改。

创建时间
约 2026 年初
Commits
177
Releases
12 个 (最新 v1.0.11)
Open Issues
8 个(健康)
Release 频率
~每 2 天一版
作者
@Anil-matcha (个人开发者)

🎛️五大 Studio 逐个拆解

整个产品围绕五个"Studio"组织,每个 Studio 是一个独立的功能模块:

🖼️ Image Studio

文生图 + 图生图双模式。上传参考图后自动切换到 i2i 模型列表,最多支持 14 张参考图同时输入。

Flux Dev Midjourney v7 SDXL Nano Banana 2 Ideogram v3 +50+

🎬 Video Studio

文生视频 + 图生视频双模式。Seedance 2.0 支持 9 张参考图输入,Kling/Veo/Sora 全覆盖。

Kling v3 Sora 2 Veo 3 Seedance 2.0 Wan 2.6 +40+

👄 LipSync Studio

口型同步,两种模式:照片+音频→会说话的视频,或已有视频+音频→对口型。9 个专用模型。

Infinite Talk LTX 2.3 LatentSync Sync Lipsync Wan 2.2 S2V

🎥 Cinema Studio

影视级摄影控制——镜头类型、焦段、光圈、胶片模拟。给提示词加一层电影语言。

70mm Film Anamorphic f/1.4 DoF 8mm Ultra-Wide

🔗 Workflow Studio

节点式多步骤流水线编辑器。可以串联多个模型做复杂 pipeline,支持社区模板分享。

Node Editor Community Templates Custom Pipeline

🤖200+ 模型清单:重点说说哪些值得关注

官方声称 200+ 模型,我按类别梳理了核心的几个。完整列表在源码 packages/studio/src/models.js 里,是唯一的模型定义来源(单点维护,这点设计得不错)。

类别 代表模型 数量 亮点
文生图 T2I Flux Dev, Midjourney v7, GPT-4o, SDXL, Nano Banana 2, Seedream 5.0, Ideogram v3 50+ Nano Banana 2 支持 1K/2K/4K 分辨率
图生图 I2I GPT-4o Edit, Kling O1 Edit, Seedream Edit v4/v4.5, Flux Kontext, Qwen Edit 55+ Nano Banana 2 Edit 支持最多 14 张参考图
文生视频 T2V Kling v3, Sora 2, Veo 3, Seedance 2.0, Wan 2.6, Hailuo 2.3 40+ Seedance 2.0 支持 5/10/15s 三档时长
图生视频 I2V Kling v2.1 I2V, Veo3 I2V, Runway I2V, Seedance 2.0 I2V, Midjourney v7 I2V 60+ Seedance 2.0 I2V 最高 9 张参考图
口型同步 Infinite Talk, LTX 2.3 Lipsync, LatentSync, Sync Lipsync, Creatify 9 LTX 2.3 支持 1080p 输出
本地推理 Z-Image Turbo/Base, Dreamshaper 8, Realistic Vision, Anything v5, SDXL Base 7 Metal GPU 加速(Apple Silicon 原生)
注意:这些模型的调用全部走 Muapi.ai 的 API 网关(BYOK,Bring Your Own Key)。也就是说你得自己去各平台申请 API Key 填进去,项目本身不提供免费额度。本地推理的那 7 个模型除外——那些是真的在你电脑上跑的。

📦安装部署:从下载到出图

方案一:桌面客户端(推荐)

直接下安装包,三平台全覆盖:

# macOS Apple Silicon (M1/M2/M3/M4)
# 下载 DMG → 拖到 Applications → 终端执行:
xattr -cr "/Applications/Open Generative AI.app"

# Windows
# 下载 exe → SmartScreen 弹窗点「更多信息」→「仍要运行」

# Linux (Ubuntu)
sudo apt install ./open-generative-ai_1.0.11_amd64.deb

方案二:网页版(零安装)

直接访问 muapi.ai/open-generative-ai 注册账号就能用,不用装任何东西。功能跟桌面版基本一致,区别是网页版没有本地推理能力。

方案三:开发模式(想改源码的话)

# 克隆(注意带 submodule)
git clone --recurse-submodules https://github.com/Anil-matcha/Open-Generative-AI.git
cd Open-Generative-AI

# 安装依赖并构建 workspace 包
npm run setup

# 启动桌面版(推荐)或网页版
npm run electron:dev   # 桌面应用
npm run dev            # 网页版 → localhost:3000

本地推理能力:sd.cpp + Wan2GP 双引擎

这是我觉得最有意思的部分。桌面端内置了两套本地推理引擎,不需要把图片发到云端:

本地模型大小类型最低内存建议
Z-Image Turbo ⚡2.5 GB + 2.7 GB auxDiffusion Transformer16 GB RAM
Z-Image Base3.5 GB + 2.7 GB auxDiffusion Transformer16 GB RAM
Dreamshaper 82.1 GBSD 1.58 GB RAM
Realistic Vision v5.12.1 GBSD 1.58 GB RAM
Anything v52.1 GBSD 1.58 GB RAM
SDXL Base 1.06.9 GBSDXL16 GB RAM

🏗️技术架构:Monorepo 怎么组织的

技术栈不算复杂但结构清晰:Next.js 14 App Router + React 18 + Tailwind CSS 3 + npm workspaces + Electron。核心设计是把 UI 组件抽成独立包 packages/studio,这样桌面端和 muapi.ai 网页版共享同一套组件代码——改一处两边生效。

Open-Generative-AI/
├── app/                          # Next.js App Router 入口
│   ├── studio/page.js            # 渲染 StandaloneShell 主界面
├── components/
│   ├── StandaloneShell.js        # Tab 导航 + API Key 输入
│   └── ApiKeyModal.js            # Key 管理弹窗(存 localStorage)
├── packages/studio/              # ★ 共享组件库(核心资产)
│   ├── models.js                 # 200+ 模型定义(单点真相)
│   ├── muapi.js                  # API 客户端封装
│   └── components/
│       ├── ImageStudio.jsx       # t2i/i2i 自动切换
│       ├── VideoStudio.jsx       # t2v/i2v 自动切换
│       ├── LipSyncStudio.jsx     # 口型同步
│       ├── CinemaStudio.jsx      # 电影级控制
│       └── WorkflowStudio.jsx    # 节点式 Pipeline
├── electron/                      # Electron 主进程(本地推理桥接)
├── next.config.mjs              # transpilePackages: ['studio']
├── Dockerfile                     # Docker 部署支持
└── docker-compose.yml

API 调用流程:两步式设计——先 POST 提交任务拿到 request_id,再 GET 轮询结果直到 status=completed。文件上传走独立的 /upload_file 接口(multipart),返回 URL 后传给图像条件模型。models.js 是所有模型定义的唯一来源,新增模型只改这一个文件,这种集中管理在 200+ 模型的规模下确实能减少混乱。

⚖️跟同类工具对比:谁更值得用

维度 Open-Gen-AI ComfyUI Fooocus Pinokio 各平台官网
定位 多平台模型聚合器 节点式工作流引擎 一键出图工具 浏览器 AI 管理 各自封闭生态
模型数量 200+(云+本地混合) 无限(自定义节点) ~10(SD 系列) 依赖安装包 各 1-3 个
视频能力 ✅ 100+ 视频模型 ❌ 需额外插件 ❌ 仅图片 部分支持 仅自家
使用门槛 低(填 Key 即用) 高(需学节点) 极低
自由度 中(受限于 API 参数) 极高(完全可控) 低(预设好)
本地推理 ✅ sd.cpp + Wan2GP ✅ 完整支持 ✅ 内置 依赖模型 ❌ 纯云端
内容审查 ❌ 无 ❌ 无 ❌ 无 取决于模型 ✅ 有(严格)
价格 免费(BYOK) 免费 免费 免费 付费订阅
适合人群 跨平台创作者 专业玩家/AI艺术家 快速出图党 懒人尝鲜 单一平台用户
我的判断:Open-Generative-AI 不跟 ComfyUI 抢用户——ComfyUI 用户需要的是极致的可控性,Open-Gen-AI 给的是便利性和覆盖率。它真正的竞争对手不是开源工具,而是你同时在 Kling、即梦、Midjourney、Sora 四个浏览器标签页之间切换的那种痛苦。

🧪我踩过的坑和真实体验

✅ 做得好的地方

  • 模型覆盖面真的广——Seedance 2.0、Kling v3、Veo 3、Sora 2 这些主流全齐了,做短视频的不用在十个网站之间跳来跳去
  • t2i/i2i 和 t2v/i2V 的自动模式切换做得聪明,上传图片就自动切模型列表,不用手动找
  • 本地推理 sd.cpp + Metal 加速对 Mac 用户友好,不用折腾 Python 环境
  • 发布节奏快,19 天 11 个版本,Bug 修复及时(null prompt 问题、Windows 构建修复都在几天内解决)
  • MIT 协议,想怎么改就怎么改,商用也没问题
  • Workflow Studio 的节点编辑器思路很好,社区模板如果起来会是杀手功能

⚠️ 需要注意的地方

  • 本质上是 Muapi.ai 的前端壳——所有云模型调用都走它的 API 网关,你的 Prompt 和生成记录理论上它能看见
  • "无内容过滤"是双刃剑——自由度高但也意味着没有安全底线,滥用风险自担
  • 有人报了 SSRF 安全漏洞(Issue #162),上传代理没校验目标 URL,这个在安全审计层面是个红旗
  • Cinema Studio 和 Workflow Studio 还比较初级,更像概念验证阶段
  • 个人开发者项目 Bus Factor = 1,作者哪天不干了就没人维护了
  • Windows 安装包没代码签名,SmartScreen 会拦,小白用户可能被吓退
  • 8 个 Open Issue 里有两个是核心功能(图片/视频生成)报错的,稳定性还需观察
关于"无内容过滤"这件事多说两句:作为内容创作者我能理解为什么这个卖点吸引人——你在做历史剧角色,某些古装造型在商业平台容易被误判违规。但从技术角度看,完全没有 guardrails 意味着模型输出的不可预测性更高,而且如果你拿它生成的素材去做公开发布的内容,版权和法律风险需要自己把控。这不是项目的问题,是使用者需要注意的事。

📊综合评分 & 最终建议

模型丰富度 9.0
易用性 8.5
本地推理 7.5
代码质量 7.5
社区活跃度 7.0
安全性 6.5
稳定性 7.5
差异化竞争力 8.5

最终评价

Open-Generative-AI 是一个定位清晰、执行到位的聚合工具。它不试图重新发明轮子,而是把散落在各平台的 AI 生成模型统一到一个界面里。对于需要频繁切换多个生图/生视频平台的创作者来说,省下来的上下文切换时间是很实在的收益。

它的天花板取决于两个东西:一是 Muapi.ai API 网关的长期可靠性(毕竟所有云模型调用都经过它),二是 Workflow Studio 能不能发展成真正有用的 Pipeline 工具而不是摆设。如果能做到这两点,从"好用的小工具"进化成"创作者的工作台"是有可能的。

适合谁试:做多平台 AI 内容创作的、对商业平台审查烦的、需要一个统一入口管理各种模型 API Key 的人。
不适合谁:需要像素级可控性的(去 ComfyUI)、只用单一平台的(直接用官方就好)、对数据隐私要求极高的(本地推理模型有限且质量不如云端)。

🔗 GitHub 仓库 🌐 在线体验 💬 Discord 社区 🐦 作者 Twitter