
Browser Use Server
使用 Python 脚本启用浏览器自动化,提供诸如拍摄网页截图、检索 HTML 内容和执行 JavaScript 等操作。
Tools
screenshot
Take a screenshot of a webpage
get_html
Get the HTML content of a webpage
execute_js
Execute JavaScript code on a webpage
get_console_logs
Get the console logs of a webpage
README
Browser Use Server
一个使用 Python 脚本进行浏览器自动化的模型上下文协议服务器。与 Cline 配合使用。
<a href="https://glama.ai/mcp/servers/0aqrsbhx3z"><img width="380" height="200" src="https://glama.ai/mcp/servers/0aqrsbhx3z/badge" alt="Browser Use Server MCP server" /></a>
功能
浏览器操作
screenshot
: 捕获网页的屏幕截图(完整页面或视口)get_html
: 检索网页的 HTML 内容execute_js
: 在网页上执行 JavaScriptget_console_logs
: 从网页获取控制台日志
所有操作都支持页面加载后的自定义交互步骤(例如,单击元素、滚动)。
前提条件
- (可选但推荐) 安装 Xvfb 以进行无头浏览器自动化:
# Ubuntu/Debian
sudo apt-get install xvfb
# CentOS/RHEL
sudo yum install xorg-x11-server-Xvfb
# Arch Linux
sudo pacman -S xorg-server-xvfb
Xvfb (X Virtual Frame Buffer) 创建一个虚拟显示器,允许浏览器自动化而不被检测为机器人。 了解有关 Xvfb 的更多信息 here。
- 安装 Miniconda 或 Anaconda
- 创建一个 Conda 环境:
conda create -n browser-use python=3.11
conda activate browser-use
pip install browser-use
- 设置 LLM 配置:
该服务器支持多个 LLM 提供商。 您可以使用以下任何 API 密钥:
# 必需:设置至少一个以下 API 密钥
export GLHF_API_KEY=your_api_key
export GROQ_API_KEY=your_api_key
export OPENAI_API_KEY=your_api_key
export OPENROUTER_API_KEY=your_api_key
export GITHUB_API_KEY=your_api_key
export DEEPSEEK_API_KEY=your_api_key
export GEMINI_API_KEY=your_api_key
export OLLAMA_API_KEY=your_api_key
# 可选:覆盖默认配置
export MODEL=your_preferred_model # 覆盖默认模型
export BASE_URL=your_custom_url # 覆盖默认 API 端点
export USE_VISION=false # 启用/禁用视觉功能(默认:false)
服务器将自动使用它找到的第一个可用 API 密钥。 您可以选择使用环境变量自定义任何提供商的模型和基本 URL。
安装
通过 Smithery 安装
要通过 Smithery 为 Claude Desktop 自动安装 Browser Use Server:
npx -y @smithery/cli install @ztobs/cline-browser-use-mcp --client claude
- 克隆此存储库
- 安装依赖项:
npm install
- 构建服务器:
npm run build
MCP 配置
将以下配置添加到您的 Cline MCP 设置:
"browser-use": {
"command": "node",
"args": [
"/home/YOUR_HOME/Documents/Cline/MCP/browser-use-server/build/index.js"
],
"env": {
// 必需:设置至少一个 API 密钥
"GLHF_API_KEY": "your_api_key",
"GROQ_API_KEY": "your_api_key",
"OPENAI_API_KEY": "your_api_key",
"OPENROUTER_API_KEY": "your_api_key",
"GITHUB_API_KEY": "your_api_key",
"DEEPSEEK_API_KEY": "your_api_key",
"GEMINI_API_KEY": "your_api_key",
"OLLAMA_API_KEY": "your_api_key",
// 可选:配置覆盖
"MODEL": "your_preferred_model",
"BASE_URL": "your_custom_url",
"USE_VISION": "false"
},
"disabled": false,
"autoApprove": []
}
替换:
YOUR_HOME
替换为您的实际主目录名称your_api_key
替换为您的实际 API 密钥
用法
运行服务器:
node build/index.js
该服务器将在 stdio 上可用,并支持以下操作:
截图
参数:
- url:网页 URL(必需)
- full_page:是否捕获完整页面或仅捕获视口(可选,默认:false)
- steps:逗号分隔的操作或描述页面加载后要执行的步骤的句子(可选)
获取 HTML
参数:
- url:网页 URL(必需)
- steps:逗号分隔的操作或描述页面加载后要执行的步骤的句子(可选)
执行 JavaScript
参数:
- url:网页 URL(必需)
- script:要执行的 JavaScript 代码(必需)
- steps:逗号分隔的操作或描述页面加载后要执行的步骤的句子(可选)
获取控制台日志
参数:
- url:网页 URL(必需)
- steps:逗号分隔的操作或描述页面加载后要执行的步骤的句子(可选)
Cline 用法示例
以下是您可以使用 browser-use 服务器和 Cline 完成的一些示例任务:
在开发期间修改网页元素
要更改需要身份验证的页面上的标题颜色:
Change the colour of the headline with the text "Alle Foren im Überblick." to deep blue on https://localhost:3000/foren/ page
To check/see the page, use browser-use MCP server to:
Open https://localhost:3000/auth,
Login with ztobs:Password123,
Navigate to https://localhost:3000/foren/,
Accept cookies if required
hint: execute all browser actions in one command with multiple comma-separated steps
此任务演示了:
- 使用逗号分隔的步骤进行多步骤浏览器自动化
- 身份验证处理
- Cookie 接受
- DOM 操作
- CSS 样式更改
服务器将按顺序执行这些步骤,并处理沿途所需的任何交互。
配置
LLM 配置
该服务器支持多个 LLM 提供商及其默认配置:
- GLHF:使用 deepseek-ai/DeepSeek-V3 模型
- Ollama:使用 qwen2.5:32b-instruct-q4_K_M 模型,具有 32k 上下文窗口
- Groq:使用 deepseek-r1-distill-llama-70b 模型
- OpenAI:使用 gpt-4o-mini 模型
- Openrouter:使用 deepseek/deepseek-chat 模型
- Github:使用 gpt-4o-mini 模型
- DeepSeek:使用 deepseek-chat 模型
- Gemini:使用 gemini-2.0-flash-exp 模型
您可以使用环境变量覆盖这些默认值:
MODEL
:为任何提供商设置自定义模型名称BASE_URL
:设置自定义 API 端点 URL(如果提供商支持)
视觉支持
服务器通过 USE_VISION 环境变量支持视觉功能:
- 设置 USE_VISION=true 以启用浏览器操作的视觉功能
- 默认值为 false,以在不需要视觉时优化性能
- 对于需要视觉理解网页内容的任务很有用
Xvfb 支持
服务器自动检测是否安装了 Xvfb,并且:
- 在可用时使用 xvfb-run,从而实现更好的浏览器自动化,而不会被检测为机器人
- 在未安装 Xvfb 时回退到直接执行
- 相应地设置 RUNNING_UNDER_XVFB 环境变量
超时
默认超时时间为 5 分钟(300000 毫秒)。 修改 build/index.js
中的 TIMEOUT 常量来更改此设置。
错误处理
服务器提供详细的错误消息,用于:
- Python 脚本执行失败
- 浏览器操作超时
- 无效参数
调试
使用 MCP Inspector 进行调试:
npm run inspector
引用
@software{browser_use2024,
author = {Müller, Magnus and Žunič, Gregor},
title = {Browser Use: Enable AI to control your browser},
year = {2024},
publisher = {GitHub},
url = {https://github.com/browser-use/browser-use}
}
许可证
MIT
推荐服务器
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。
Excel MCP Server
一个模型上下文协议服务器,使 AI 助手能够读取和写入 Microsoft Excel 文件,支持诸如 xlsx、xlsm、xltx 和 xltm 等格式。
Playwright MCP Server
提供一个利用模型上下文协议的服务器,以实现类人浏览器的自动化,该服务器使用 Playwright,允许控制浏览器行为,例如导航、元素交互和滚动。
@kazuph/mcp-fetch
用于获取网页内容和处理图像的模型上下文协议服务器。这使得 Claude Desktop(或任何 MCP 客户端)能够适当地获取网页内容和处理图像。
Claude Code MCP
一个实现了 Claude Code 作为模型上下文协议(Model Context Protocol, MCP)服务器的方案,它可以通过标准化的 MCP 接口来使用 Claude 的软件工程能力(代码生成、编辑、审查和文件操作)。
Apple MCP Server
通过 MCP 协议与 Apple 应用(如“信息”、“备忘录”和“通讯录”)进行交互,从而使用自然语言发送消息、搜索和打开应用内容。
DuckDuckGo MCP Server
一个模型上下文协议 (MCP) 服务器,通过 DuckDuckGo 提供网页搜索功能,并具有内容获取和解析的附加功能。
YouTube Transcript MCP Server
这个服务器用于获取指定 YouTube 视频 URL 的字幕,从而可以与 Goose CLI 或 Goose Desktop 集成,进行字幕提取和处理。
serper-search-scrape-mcp-server
这个 Serper MCP 服务器支持搜索和网页抓取,并且支持 Serper API 引入的所有最新参数,例如位置信息。