当 AI Agent 遇上网页自动化——用自然语言操控浏览器,告别写不完的 Selenium 脚本
坦白讲,browser-use 是我最近看到的最"接底气"的 AI 开源项目之一。
它解决的不是什么玄学问题——就是怎么让 AI 真正操控浏览器,帮人把那些重复性的网页操作自动化掉。投简历、查商品价格、更新 CRM、让 AI 帮你读一个需要登录才能看的页面……这些事它都能干。
94K 颗星、10K+ 分叉、今天(5月19日)刚发了 v0.12.7 安全补丁——说明维护得相当勤快,不是那种"发布即停更"的项目。
一句话:如果你在做 AI Agent 产品,或者工作中需要"让 AI 操作网页"的能力,browser-use 值得花一个下午上手试试。
browser-use 是一个 Python 库,本质上是把浏览器(Chromium)的控制权交给大语言模型(LLM)。
传统的网页自动化工具(比如 Selenium、Playwright)需要你写死操作步骤——"点击这个按钮""输入这段文字""等页面加载完"。browser-use 的思路不一样:你告诉 AI 你想干什么,它自己理解页面结构、规划操作步骤、一步步执行。
比如这个任务:
"帮我去亚马逊查一下 iPhone 16 的最低价,并截图"
丢给 browser-use,它就会自动打开浏览器、导航到亚马逊、搜索 iPhone 16、找到价格、截图。整个过程不需要你写任何操作指令。
这个项目最初火起来是在 2024 年底,趁着 AI Agent 概念爆发的东风。经过大半年的迭代,已经从"玩具项目"变成了真正能上生产的东西。
支持接入多种 LLM:
ChatBrowserUse Claude GPT-4 Gemini Ollama(本地)
最推荐的是官方出的 ChatBrowserUse() 模型,在官方 BU Bench 测试中,速度比其他模型快 3-5 倍,准确率也是 SOTA 水准。不过要注意,这个模型是付费的——输入 0.20 美元/百万 Token,输出 2.00 美元/百万 Token。
如果你想省钱,用本地的 Ollama 也能跑,只是速度和准确率会差一些。
这是 browser-use 区别于大多数开源方案的关键功能。
普通浏览器自动化遇到的问题:网站能检测到是机器人在访问,然后弹出验证码或直接封 IP。
browser-use 的云端版本提供了:
也就是说——你可以让 AI 以"假扮真人"的方式访问那些反爬严格的网站。这部分功能需要付费,但在需要自动化高防网站的场景下,这个能力值回票价。
今年 AI 圈子里 MCP(Model Context Protocol)火得一塌糊涂,browser-use 也没落下。它提供了 MCP 服务端,可以接入 Cursor、Claude Code 等支持 MCP 的 AI 编程工具。
换句话说,你可以在 Cursor 里直接召唤 browser-use 帮你操作网页。
不想写代码?CLI 也能用:
browser-use open https://example.com
browser-use click 5
browser-use type "Hello"
browser-use screenshot page.png
browser-use close
适合快速验证想法,或者在脚本里调用。
官方宣传支持 1000+ 应用的自动化,包括 Gmail、Slack、Notion 等主流工具。实际体验上,这些集成质量参差不齐——大厂应用通常比较稳定,小众网站可能需要自己调教。
uv 作为包管理器(官方推荐)# 初始化项目并安装
uv init && uv add browser-use && uv sync
# 安装 Chromium 浏览器
uvx browser-use install
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio
async def main():
browser = Browser()
agent = Agent(
task="帮我查一下 browser-use 仓库有多少 stars",
llm=ChatBrowserUse(),
browser=browser,
)
await agent.run()
asyncio.run(main())
三行核心代码就能让 AI 自动帮你操作浏览器——上手门槛确实很低。
from browser_use import action
@action(description="发送邮件")
def send_email(recipient: str, subject: str, body: str):
# 你的发送邮件逻辑
pass
AI 在执行任务时遇到需要发邮件的场景,会自动调用这个函数。
看了 GitHub Issues 和社区讨论,整理了几个大家普遍关心的点:
| 维度 | 体验 |
|---|---|
| 稳定性 | 主流英文网站表现不错,国内网站(尤其是滑动验证码类)会有概率失败。icon-only 按钮的识别也是个老毛病。 |
| 速度 | 用 ChatBrowserUse() 的话,一个复杂任务通常 30 秒到 2 分钟能跑完;换成本地模型(Ollama),可能要 5-10 分钟。 |
| 成本 | 云端版本按量付费。普通场景一次任务约 0.01-0.05 美元,批量跑的话成本需要估算。 |
| 安全性 | 今天刚发的 v0.12.7 修复了 3 个安全漏洞,维护团队响应速度不错。 |
| 对比项 | browser-use | Playwright MCP | Puppeteer |
|---|---|---|---|
| LLM 集成 | 原生支持 | 有限支持 | 不支持 |
| AI Agent 能力 | 内置 | 需自行组装 | 无 |
| 上手难度 | 低 | 中 | 中 |
| Stealth 模式 | 云端支持 | 无 | 无 |
| 开源协议 | MIT | MIT | Apache 2.0 |
| 社区活跃度 | 非常活跃 | 一般 | 活跃但偏传统 |
简单说:如果你只是需要一个浏览器自动化工具,Playwright/Puppeteer 更成熟;但如果你的目标是让 AI 自主操作网页——browser-use 是目前最成熟的方案。
这项目有几个绕不开的问题:
从数据看,这是一个活跃度很高的项目。Issues 数量控制在 60 个,说明维护者有在及时处理问题,而不是放着 thousands of stale issues。
browser-use 是目前 AI + 浏览器自动化这个赛道里最值得关注的开源项目。它不是最"花哨"的,但胜在踏实——安装简单、文档清晰、社区活跃、一直在更新。
最让我印象深刻的两个点:一是官方出的 BU Bench 基准测试,说明团队是真的在认真做性能优化,不只是堆功能;二是 Stealth 模式解决了实际工作中一个很痛的痛点——那些反爬严格的网站,别的工具根本搞不定,它能搞定。
当然,它不是万能药。Python only 的限制、国内网站的适配问题、版本依赖冲突,都是实打实的坑。如果你的场景刚好落在它的能力范围内,它会非常好用;如果不在,你可能会骂它。
如果你在做 AI Agent 产品,或者工作中需要"让 AI 操作网页"的能力,browser-use 值得花一个下午上手试试。