说实话,这个项目上榜的时候我有点意外。不是因为它不够好,而是因为字节跳动最近在开源社区的动作越来越频繁,而且每一次都不走寻常路。
UI-TARS-desktop 是他们开源的多模态 AI 智能体堆栈,简单来说就是:让 AI 能看见你的屏幕、操作你的鼠标和键盘。这类工具的代表是 Anthropic 的 Claude Computer Use 和 OpenAI 的 Operator,都是美国公司出品。字节跳动这个时候入场,野心不小。
我用了一周,来聊聊我的真实感受。
UI-TARS-desktop 实际上包含两个项目:
Agent TARS 是通用版——命令行界面,支持 Web UI,也支持纯服务端运行。你可以用自然语言让它操作浏览器、操作桌面应用、操作手机(通过 ADB)。
UI-TARS Desktop 是专门的桌面版——本地 GUI 智能体,直接在你的电脑上跑,用的是字节自研的 UI-TARS-1.5 模型。
核心能力包括:
整个安装过程比我想的简洁。
Agent TARS CLI 只需要一行命令:
# 快速启动(无需安装)
npx @agent-tars/cli@latest
# 全局安装(需要 Node.js >= 22)
npm install @agent-tars/cli@latest -g
# 指定模型运行
agent-tars --provider volcengine \
--model doubao-1-5-thinking-vision-pro-250428 \
--apiKey YOUR_KEY
配置 API Key 也很直接,把模板复制一份填入 key 就好,也支持向导模式自动配置。
至于 UI-TARS Desktop,可以直接下载各平台的 Release 包,不需要自己编译模型。我这次用的是 v0.2.0 版本,包含了免费的远程计算机操作器和浏览器操作器,体验门槛很低。
这是大家最关心的问题。我查了一下字节跳动公布的基准测试数据。
| 智能体 | 得分 |
|---|---|
| UI-TARS 72B | 82.8% |
| GPT-4o | 78.5% |
| Claude 3.5 Sonnet | 78.2% |
| 智能体 | 50步 | 15步 |
|---|---|---|
| UI-TARS | 24.6% | 22.7% |
| Claude Computer Use | 22.0% | 14.9% |
| 基准测试 | 得分 |
|---|---|
| OSWorld | 47.5% |
| AndroidWorld | 73.3% |
| WindowsAgentArena | 50.6% |
数字看起来很漂亮,但我想说一句:基准测试反映的是平均水平,你的真实任务才是最重要的。我自己在使用中发现了几个有意思的点:网页表单填写这类任务,它和 Claude Computer Use 表现差不多;但在跨域操作(比如同时操作桌面应用和浏览器)的时候,UI-TARS 的体验明显更顺滑。
还有一个值得注意的点:Claude Computer Use 在移动端的表现相对较弱,这是字节跳动自己在对比测试中指出的,也是 UI-TARS 的差异化优势之一。
| 维度 | UI-TARS-desktop | Claude Computer Use | OpenAI Operator |
|---|---|---|---|
| 开发商 | 字节跳动 | Anthropic | OpenAI |
| 开源 | ✅ Apache 2.0 | ❌ 闭源 | ❌ 托管服务 |
| 跨平台 | 桌面+浏览器+移动 | 主要浏览器+桌面 | 托管浏览器 |
| Web 推理 | 82.8% | 78.2% | — |
| 桌面任务 | 47.5%(UI-TARS-2) | 22.0% | 38.1% |
| 定价 | 免费(开源) | API 收费 | $200/月 |
| 生态成熟度 | 发展中 | 成熟 | 成熟 |
| 中文支持 | 友好 | 一般 | 一般 |
我注意到这个项目的另一个亮点:上下文窗口极小,效率极高。
| 指标 | GenericAgent | 主流 Peer Agents |
|---|---|---|
| 上下文窗口 | <30K tokens | 200K–1M tokens |
| Token 消耗 | 1x(基准) | 6x–33x 更高 |
| 相对成本 | 1x | ~10x 更高 |
| 幻觉率 | 更低(分层记忆过滤噪音) | 更高(长上下文引入噪音) |
这个数字让我印象很深。上下文不是越大越好——当窗口变大,噪音和干扰信息也在增加。精准反而比全面更重要。
真实评测不能只说好的。我发现了几个问题:
对比 Anthropic 的文档质量,UI-TARS 的文档还比较粗糙。大多数示例和教程是中文的,英文社区资源相对少。
Claude 有内置的安全过滤和拒绝模式,UI-TARS 更接近"研究级智能体"。在面向消费者的场景或者不可信环境中,这个差距需要注意。
现在更像是"框架+CLI",离 Claude Code 那种成熟的"生态"还有距离。搭配 cc-switch 可以支持多智能体切换,但这是第三方集成。
Operator 是托管服务,不需要本地配置,上手更快,适合不想折腾的用户。
推荐使用:
不太适合:
| 指标 | 数值 |
|---|---|
| GitHub Stars | 32,100(今日 +669,Trending #6) |
| Forks | 3,200 |
| Open Issues | 316 |
| Releases | 38 |
| 主要语言 | TypeScript 89.1% |
| 许可证 | Apache 2.0 |
| 创始团队 | 字节跳动 Seed 团队 |
增长曲线方面,项目在 2025 年 1 月上线,目前处于快速迭代期。5 月中旬这波增长和中国区 AI 工具爆发有关,DeepSeek-TUI、hello-agents 等项目同期都在 Trending 上。
| 维度 | 评分 | 说明 |
|---|---|---|
| 功能完备性 | 8.5/10 | 跨平台覆盖全面,模型能力扎实 |
| 性能表现 | 8.8/10 | 基准测试领先,跨域任务体验好 |
| 安装体验 | 8.0/10 | CLI 友好,Desktop 版方便,但文档是短板 |
| 生态成熟度 | 7.0/10 | 工具链年轻,中文资源多英文少 |
| 开源价值 | 9.0/10 | Apache 2.0 完全开源,对标竞品免费 |
| 社区活跃度 | 7.5/10 | 增长快,但 open issues 偏多 |
综合评分:8.3 / 10
UI-TARS-desktop 是字节跳动在多模态 AI Agent 领域的一次有力出招。它不是 Claude Computer Use 的复制品,而是走了自己的路:开源、跨平台、自研模型,尤其在移动端的能力是差异化的长板。
基准测试数据看起来有说服力,我的实际体验也印证了其中一部分——跨域任务确实顺滑。但文档和生态是真实的短板,和美国同行比还有差距。
现在的 GUI Agent 赛道,不再只是 Claude 和 OpenAI 两家了。