GitHub AI 开源项目深度评测

browser-use:让 AI 真正操控浏览器

当 AI Agent 遇上网页自动化——用自然语言操控浏览器,告别写不完的 Selenium 脚本

今日热门 AI 项目 Python MIT License 2026年5月19日
94.5K GitHub Stars
10.7K Forks
v0.12.7 最新版
123 Releases
3 安全补丁
3-5x 速度优势

先说结论

坦白讲,browser-use 是我最近看到的最"接底气"的 AI 开源项目之一。

它解决的不是什么玄学问题——就是怎么让 AI 真正操控浏览器,帮人把那些重复性的网页操作自动化掉。投简历、查商品价格、更新 CRM、让 AI 帮你读一个需要登录才能看的页面……这些事它都能干。

94K 颗星、10K+ 分叉、今天(5月19日)刚发了 v0.12.7 安全补丁——说明维护得相当勤快,不是那种"发布即停更"的项目。

一句话:如果你在做 AI Agent 产品,或者工作中需要"让 AI 操作网页"的能力,browser-use 值得花一个下午上手试试。

项目是什么

browser-use 是一个 Python 库,本质上是把浏览器(Chromium)的控制权交给大语言模型(LLM)。

传统的网页自动化工具(比如 Selenium、Playwright)需要你写死操作步骤——"点击这个按钮""输入这段文字""等页面加载完"。browser-use 的思路不一样:你告诉 AI 你想干什么,它自己理解页面结构、规划操作步骤、一步步执行。

比如这个任务:

"帮我去亚马逊查一下 iPhone 16 的最低价,并截图"

丢给 browser-use,它就会自动打开浏览器、导航到亚马逊、搜索 iPhone 16、找到价格、截图。整个过程不需要你写任何操作指令。

这个项目最初火起来是在 2024 年底,趁着 AI Agent 概念爆发的东风。经过大半年的迭代,已经从"玩具项目"变成了真正能上生产的东西。

browser-use 工作原理
LLM
Claude / GPT / Gemini
browser-use
Python Core
Chromium
CDP 协议
任意网站
自动操作
AI 理解任务 → 解析页面 DOM → 通过 CDP 控制 Chromium → 执行操作 → 循环直到完成

核心功能一览

1. LLM 驱动的浏览器自动化

支持接入多种 LLM:

ChatBrowserUse Claude GPT-4 Gemini Ollama(本地)

最推荐的是官方出的 ChatBrowserUse() 模型,在官方 BU Bench 测试中,速度比其他模型快 3-5 倍,准确率也是 SOTA 水准。不过要注意,这个模型是付费的——输入 0.20 美元/百万 Token,输出 2.00 美元/百万 Token。

如果你想省钱,用本地的 Ollama 也能跑,只是速度和准确率会差一些。

2. 云端版本(Stealth 模式)

这是 browser-use 区别于大多数开源方案的关键功能。

普通浏览器自动化遇到的问题:网站能检测到是机器人在访问,然后弹出验证码或直接封 IP。

browser-use 的云端版本提供了:

  • IP 轮换(代理池)
  • 真实浏览器指纹
  • 云端 CAPTCHA 识别

也就是说——你可以让 AI 以"假扮真人"的方式访问那些反爬严格的网站。这部分功能需要付费,但在需要自动化高防网站的场景下,这个能力值回票价。

3. MCP 服务端支持

今年 AI 圈子里 MCP(Model Context Protocol)火得一塌糊涂,browser-use 也没落下。它提供了 MCP 服务端,可以接入 Cursor、Claude Code 等支持 MCP 的 AI 编程工具。

换句话说,你可以在 Cursor 里直接召唤 browser-use 帮你操作网页。

4. CLI 工具

不想写代码?CLI 也能用:

browser-use open https://example.com
browser-use click 5
browser-use type "Hello"
browser-use screenshot page.png
browser-use close

适合快速验证想法,或者在脚本里调用。

5. 1000+ 应用集成

官方宣传支持 1000+ 应用的自动化,包括 Gmail、Slack、Notion 等主流工具。实际体验上,这些集成质量参差不齐——大厂应用通常比较稳定,小众网站可能需要自己调教。

安装和使用

环境要求

快速安装

# 初始化项目并安装
uv init && uv add browser-use && uv sync

# 安装 Chromium 浏览器
uvx browser-use install

写一个最简单的自动化脚本

from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    browser = Browser()
    agent = Agent(
        task="帮我查一下 browser-use 仓库有多少 stars",
        llm=ChatBrowserUse(),
        browser=browser,
    )
    await agent.run()

asyncio.run(main())

三行核心代码就能让 AI 自动帮你操作浏览器——上手门槛确实很低。

进阶用法(自定义工具)

from browser_use import action

@action(description="发送邮件")
def send_email(recipient: str, subject: str, body: str):
    # 你的发送邮件逻辑
    pass

AI 在执行任务时遇到需要发邮件的场景,会自动调用这个函数。

实际跑起来怎么样

看了 GitHub Issues 和社区讨论,整理了几个大家普遍关心的点:

BU Bench 速度对比(相对 ChatBrowserUse 基准 = 100%)
ChatBrowserUse
3-5x faster
GPT-4 / Claude
基准
本地模型 (Ollama)
5-10x slower
数据来源:browser-use 官方 BU Bench v1 评测 · 100 任务横跨 GAIA / WebBench / Mind2Web 2 / BrowseComp
维度体验
稳定性主流英文网站表现不错,国内网站(尤其是滑动验证码类)会有概率失败。icon-only 按钮的识别也是个老毛病。
速度用 ChatBrowserUse() 的话,一个复杂任务通常 30 秒到 2 分钟能跑完;换成本地模型(Ollama),可能要 5-10 分钟。
成本云端版本按量付费。普通场景一次任务约 0.01-0.05 美元,批量跑的话成本需要估算。
安全性今天刚发的 v0.12.7 修复了 3 个安全漏洞,维护团队响应速度不错。

和同类项目对比

对比项 browser-use Playwright MCP Puppeteer
LLM 集成 原生支持 有限支持 不支持
AI Agent 能力 内置 需自行组装
上手难度
Stealth 模式 云端支持
开源协议 MIT MIT Apache 2.0
社区活跃度 非常活跃 一般 活跃但偏传统

简单说:如果你只是需要一个浏览器自动化工具,Playwright/Puppeteer 更成熟;但如果你的目标是让 AI 自主操作网页——browser-use 是目前最成熟的方案。

适合的场景

适合

  • 投简历自动化(填表类网站)
  • 电商价格监控(多平台追踪)
  • CRM 数据录入
  • AI 研究助手(读需要登录的页面)
  • 用自然语言写自动化测试

不太适合

  • 纯爬虫(Scrapy 更高效)
  • 对速度要求极高的场景
  • 需要处理复杂验证码的网站
  • 非 Python 技术栈

局限性要诚实说

这项目有几个绕不开的问题:

  1. Python only:没有 JS/其他语言的 SDK,如果你用别的技术栈,集成成本高。
  2. 版本依赖严苛:对依赖版本要求非常严格,在已有复杂依赖的环境里安装容易出现冲突。这个问题在 GitHub 上已经一堆 Issue 了,维护团队目前没有给出优雅解法。
  3. 国内网站适配:英文网站体验很好,国内一些网站的 CSS 选择器和交互逻辑比较"野",AI 识别准确率会下降。
  4. 上下文窗口限制:AI 能看到的页面内容受上下文窗口大小限制,页面很长的话可能会漏掉关键信息。

社区数据

94,520 Stars
10,669 Forks
60 Open Issues
172 Pull Requests
123 Releases
9,236 Commits

从数据看,这是一个活跃度很高的项目。Issues 数量控制在 60 个,说明维护者有在及时处理问题,而不是放着 thousands of stale issues。

综合评分

4.5 易用性
4.0 功能完整性
4.5 社区活跃度
3.5 文档质量
4.0 生产就绪度

我的评价

browser-use 是目前 AI + 浏览器自动化这个赛道里最值得关注的开源项目。它不是最"花哨"的,但胜在踏实——安装简单、文档清晰、社区活跃、一直在更新。

最让我印象深刻的两个点:一是官方出的 BU Bench 基准测试,说明团队是真的在认真做性能优化,不只是堆功能;二是 Stealth 模式解决了实际工作中一个很痛的痛点——那些反爬严格的网站,别的工具根本搞不定,它能搞定。

当然,它不是万能药。Python only 的限制、国内网站的适配问题、版本依赖冲突,都是实打实的坑。如果你的场景刚好落在它的能力范围内,它会非常好用;如果不在,你可能会骂它。

如果你在做 AI Agent 产品,或者工作中需要"让 AI 操作网页"的能力,browser-use 值得花一个下午上手试试。