MCP Browser Use Server
使人工智能代理能够使用自然语言与网络浏览器交互,具有自动浏览、表单填写、基于视觉的元素检测以及用于系统性浏览器控制的结构化 JSON 响应等功能。
Tools
run_browser_agent
Handle run-browser-agent tool calls.
README
MCP 服务器(带浏览器使用)
用于 browser-use 的 MCP 服务器。
<a href="https://glama.ai/mcp/servers/tjea5rgnbv"><img width="380" height="200" src="https://glama.ai/mcp/servers/tjea5rgnbv/badge" alt="Browser Use Server MCP server" /></a>
概述
此仓库包含 browser-use 库的服务器,该库提供了一个强大的浏览器自动化系统,使 AI 代理能够通过自然语言与 Web 浏览器进行交互。 该服务器基于 Anthropic 的 模型上下文协议 (MCP) 构建,并提供与 browser-use 库的无缝集成。
特性
- 浏览器控制
- 通过自然语言实现自动化浏览器交互
- 导航、表单填写、点击和滚动功能
- 标签页管理和屏幕截图功能
- Cookie 和状态管理
- 代理系统
- 在 custom_agent.py 中实现自定义代理
- 基于视觉的元素检测
- 用于操作的结构化 JSON 响应
- 消息历史记录管理和摘要
- 配置
- 基于环境变量的 API 密钥和设置配置
- Chrome 浏览器设置(调试端口、持久性)
- 模型提供程序选择和参数
依赖项
此项目依赖于以下 Python 包:
| 包 | 版本 | 描述 by the server. This is a security risk and should be used with caution. The server is not intended to be used in a production environment.
组件
资源
该服务器实现了一个浏览器自动化系统,具有:
- 与 browser-use 库集成,实现高级浏览器控制
- 自定义浏览器自动化功能
- 具有视觉功能的基于代理的交互系统
- 持久状态管理
- 可定制的模型设置
要求
- 操作系统(Linux、macOS、Windows;我们尚未测试 Docker 或 Microsoft WSL)
- Python 3.11 或更高版本
- uv (快速 Python 包安装程序)
- Chrome/Chromium 浏览器
- Claude Desktop
快速开始
Claude Desktop
在 MacOS 上:~/Library/Application\ Support/Claude/claude_desktop_config.json
在 Windows 上:%APPDATA%/Claude/claude_desktop_config.json
通过 Smithery 安装
要通过 Smithery 自动为 Claude Desktop 安装 Browser Use:
npx -y @smithery/cli install @JovaniPink/mcp-browser-use --client claude
<details> <summary>开发配置</summary>
"mcpServers": {
"mcp_server_browser_use": {
"command": "uvx",
"args": [
"mcp-server-browser-use",
],
"env": {
"OPENAI_ENDPOINT": "https://api.openai.com/v1",
"OPENAI_API_KEY": "",
"ANTHROPIC_API_KEY": "",
"GOOGLE_API_KEY": "",
"AZURE_OPENAI_ENDPOINT": "",
"AZURE_OPENAI_API_KEY": "",
// "DEEPSEEK_ENDPOINT": "https://api.deepseek.com",
// "DEEPSEEK_API_KEY": "",
// 设置为 false 以禁用匿名遥测
"ANONYMIZED_TELEMETRY": "false",
// Chrome 设置
"CHROME_PATH": "",
"CHROME_USER_DATA": "",
"CHROME_DEBUGGING_PORT": "9222",
"CHROME_DEBUGGING_HOST": "localhost",
// 设置为 true 以在 AI 任务之间保持浏览器打开
"CHROME_PERSISTENT_SESSION": "false",
// 模型设置
"MCP_MODEL_PROVIDER": "anthropic",
"MCP_MODEL_NAME": "claude-3-5-sonnet-20241022",
"MCP_TEMPERATURE": "0.3",
"MCP_MAX_STEPS": "30",
"MCP_USE_VISION": "true",
"MCP_MAX_ACTIONS_PER_STEP": "5",
"MCP_TOOL_CALL_IN_CONTENT": "true"
}
}
}
</details>
环境变量
主要环境变量:
# API 密钥
ANTHROPIC_API_KEY=anthropic_key
# Chrome 配置
# 可选:Chrome 可执行文件的路径
CHROME_PATH=/path/to/chrome
# 可选:Chrome 用户数据目录
CHROME_USER_DATA=/path/to/user/data
# 默认值:9222
CHROME_DEBUGGING_PORT=9222
# 默认值:localhost
CHROME_DEBUGGING_HOST=localhost
# 在任务之间保持浏览器打开
CHROME_PERSISTENT_SESSION=false
# 模型设置
# 选项:anthropic、openai、azure、deepseek
MCP_MODEL_PROVIDER=anthropic
# 模型名称
MCP_MODEL_NAME=claude-3-5-sonnet-20241022
MCP_TEMPERATURE=0.3
MCP_MAX_STEPS=30
MCP_USE_VISION=true
MCP_MAX_ACTIONS_PER_STEP=5
开发
设置
- 克隆存储库:
git clone https://github.com/JovaniPink/mcp-browser-use.git
cd mcp-browser-use
- 创建并激活虚拟环境:
python -m venv .venv
source .venv/bin/activate # 在 Windows 上:.venv\Scripts\activate
- 安装依赖项:
uv sync
- 启动服务器
uv run mcp-browser-use
调试
对于调试,请使用 MCP Inspector:
npx @modelcontextprotocol/inspector uv --directory /path/to/project run mcp-server-browser-use
Inspector 将显示调试界面的 URL。
浏览器操作
服务器通过自然语言支持各种浏览器操作:
- 导航:转到 URL、后退/前进、刷新
- 交互:点击、输入、滚动、悬停
- 表单:填写表单、提交、选择选项
- 状态:获取页面内容、截取屏幕截图
- 标签页:创建、关闭、在标签页之间切换
- 视觉:通过视觉外观查找元素
- Cookie 和存储:管理浏览器状态
安全
我想指出的是,有一些 Chrome 设置被设置为允许服务器控制浏览器。 这是一个安全风险,应谨慎使用。 该服务器不适合在生产环境中使用。
安全详情:SECURITY.MD
贡献
我们欢迎对此项目做出贡献。 请按照以下步骤操作:
- Fork 此存储库。
- 创建您的功能分支:
git checkout -b my-new-feature
。 - 提交您的更改:
git commit -m 'Add some feature'
。 - 推送到分支:
git push origin my-new-feature
。 - 提交拉取请求。
对于重大更改,请先打开一个 issue,讨论您想要更改的内容。 请根据需要更新测试以反映所做的任何更改。
推荐服务器
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。
Excel MCP Server
一个模型上下文协议服务器,使 AI 助手能够读取和写入 Microsoft Excel 文件,支持诸如 xlsx、xlsm、xltx 和 xltm 等格式。
Playwright MCP Server
提供一个利用模型上下文协议的服务器,以实现类人浏览器的自动化,该服务器使用 Playwright,允许控制浏览器行为,例如导航、元素交互和滚动。
@kazuph/mcp-fetch
用于获取网页内容和处理图像的模型上下文协议服务器。这使得 Claude Desktop(或任何 MCP 客户端)能够适当地获取网页内容和处理图像。
Claude Code MCP
一个实现了 Claude Code 作为模型上下文协议(Model Context Protocol, MCP)服务器的方案,它可以通过标准化的 MCP 接口来使用 Claude 的软件工程能力(代码生成、编辑、审查和文件操作)。
Apple MCP Server
通过 MCP 协议与 Apple 应用(如“信息”、“备忘录”和“通讯录”)进行交互,从而使用自然语言发送消息、搜索和打开应用内容。
DuckDuckGo MCP Server
一个模型上下文协议 (MCP) 服务器,通过 DuckDuckGo 提供网页搜索功能,并具有内容获取和解析的附加功能。
YouTube Transcript MCP Server
这个服务器用于获取指定 YouTube 视频 URL 的字幕,从而可以与 Goose CLI 或 Goose Desktop 集成,进行字幕提取和处理。
serper-search-scrape-mcp-server
这个 Serper MCP 服务器支持搜索和网页抓取,并且支持 Serper API 引入的所有最新参数,例如位置信息。