Oxylabs MCP Server

Oxylabs MCP Server

一个抓取工具,利用 Oxylabs Web Scraper API 来获取和处理网页内容,并提供灵活的选项来解析和渲染页面,从而能够高效地从复杂的网站中提取内容。

网络自动化与隐身
媒体内容处理
内容获取
访问服务器

Tools

oxylabs_scraper

Scrape url using Oxylabs Web Api

oxylabs_web_unblocker

Scrape url using Oxylabs Web Unblocker

README

Oxylabs Scraper 的 MCP 服务器

smithery badge

一个模型上下文协议 (MCP) 服务器,使像 Claude 这样的 AI 助手能够通过 Oxylabs 强大的网络抓取技术无缝访问网络数据。

📖 概述

Oxylabs MCP 服务器提供了 AI 模型和网络之间的桥梁。它使它们能够抓取任何 URL,渲染 JavaScript 繁重的页面,提取和格式化内容以供 AI 使用,绕过反抓取措施,并从 195 多个国家/地区访问受地理限制的网络数据。

此实现利用模型上下文协议 (MCP) 创建一种安全、标准化的方式,供 AI 助手与网络内容交互。

✨ 主要特性

<details> <summary><strong> 从任何站点抓取内容</strong></summary> <br>

  • 从任何 URL 提取数据,包括复杂的单页应用程序
  • 使用无头浏览器支持完全渲染动态网站
  • 选择完全 JavaScript 渲染、仅 HTML 或无
  • 模拟移动和桌面视口以实现逼真的渲染

</details>

<details> <summary><strong> 自动获取 AI 就绪数据</strong></summary> <br>

  • 自动清理 HTML 并将其转换为 Markdown 以提高可读性
  • 使用自动化解析器处理 Google、Amazon 等热门目标。

</details>

<details> <summary><strong> 绕过阻止和地理限制</strong></summary> <br>

  • 以高成功率绕过复杂的机器人保护系统
  • 可靠地抓取即使是最复杂的网站
  • 从覆盖 195 多个国家/地区的代理池中自动获取轮换 IP

</details>

<details> <summary><strong> 灵活的设置和跨平台支持</strong></summary> <br>

  • 如果需要,设置渲染和解析选项
  • 将数据直接馈送到 AI 模型或分析工具
  • 适用于 macOS、Windows 和 Linux

</details>

<details> <summary><strong> 内置错误处理和请求管理</strong></summary> <br>

  • 全面的错误处理和报告
  • 智能速率限制和请求管理

</details>

💡 示例查询

当您使用 Claude 设置 MCP 服务器时,您可以发出如下请求:

  • 你能抓取 https://www.google.com/search?q=ai 页面吗?
  • 抓取 https://www.amazon.de/-/en/Smartphone-Contract-Function-Manufacturer-Exclusive/dp/B0CNKD651V 并启用 parse
  • 抓取 https://www.amazon.de/-/en/gp/bestsellers/beauty/ref=zg_bs_nav_beauty_0 并启用 parserender
  • 使用 web unblocker 和 render 抓取 https://www.bestbuy.com/site/top-deals/all-electronics-on-sale/pcmcat1674241939957.c

✅ 前提条件

在开始之前,请确保您已具备:

  • Oxylabs 帐户:从 Oxylabs 获取您的用户名和密码(提供 1 周免费试用)

基本用法

通过 Smithery CLI:

  • Node.js (v16+)
  • npx 命令行工具

通过 uv:

  • uv 包管理器 – 使用 本指南 安装它

本地/开发设置

  • Python 3.12+
  • uv 包管理器 – 使用 本指南 安装它

🧩 API 参数

Oxylabs MCP 服务器支持以下参数:

参数 描述
url 要抓取的 URL 任何有效的 URL
parse 启用结构化数据提取 TrueFalse
render 使用无头浏览器渲染 htmlNone

⚙️ 基本设置说明

通过 Smithery 安装

通过 Smithery 自动为 Claude Desktop 安装 Oxylabs MCP 服务器:

npx -y @smithery/cli install @oxylabs/oxylabs-mcp --client claude

在 Claude Desktop 中使用 uv 安装

安装 uv 后,此方法将自动在 Claude Desktop 中设置 Oxylabs MCP 服务器。导航到 Claude → 设置 → 开发者 → 编辑配置 并按如下方式编辑您的 claude_desktop_config.json 文件:

{
  "mcpServers": {
    "oxylabs_scraper": {
      "command": "uvx",
      "args": ["oxylabs-mcp"],
      "env": {
        "OXYLABS_USERNAME": "YOUR_USERNAME_HERE",
        "OXYLABS_PASSWORD": "YOUR_PASSWORD_HERE"
      }
    }
  }
}

[!TIP] 如果您遇到错误,请尝试在 command 字段中使用 uvx 的完整路径。例如,/Users/my-user/.local/bin/uvx


💻 本地/开发设置说明

克隆存储库

git clone <git:url>

安装依赖项

安装 MCP 服务器依赖项:

cd mcp-server-oxylabs

# 创建虚拟环境并激活它
uv venv

source .venv/bin/activate # MacOS/Linux
# OR
.venv/Scripts/activate # Windows

# 安装依赖项
uv sync

使用 Claude Desktop 设置

导航到 Claude → 设置 → 开发者 → 编辑配置 并按如下方式编辑您的 claude_desktop_config.json 文件:

{
  "mcpServers": {
    "oxylabs_scraper": {
      "command": "uv",
      "args": [
        "--directory",
        "/<Absolute-path-to-folder>/oxylabs-mcp",
        "run",
        "oxylabs-mcp"
      ],
      "env": {
        "OXYLABS_USERNAME": "YOUR_USERNAME_HERE",
        "OXYLABS_PASSWORD": "YOUR_PASSWORD_HERE"
      }
    }
  }
}

🐞 调试

make run

然后访问 MCP Inspector,地址为 http://localhost:5173。您可能需要在检查器中将您的用户名和密码作为环境变量添加到 OXYLABS_USERNAMEOXYLABS_PASSWORD 下。

🛠️ 技术细节

此服务器提供两个主要工具:

  1. oxylabs_scraper:使用 Oxylabs Web Scraper API 进行常规网站抓取
  2. oxylabs_web_unblocker:使用 Oxylabs Web Unblocker 访问难以访问的网站

Web Scraper API 支持 JavaScript 渲染、已解析的结构化数据以及 Markdown 格式的清理 HTML。Web Unblocker 提供 JavaScript 渲染和清理后的 HTML,但不返回已解析的数据。


[!WARNING] 与 MCP Inspector 的使用受到 MCP 的 Python SDK 持续存在的问题的影响,请参阅:https://github.com/modelcontextprotocol/python-sdk/pull/85。对于 Claude,使用 SDK 的一个 fork 版本作为临时修复。

许可证

此项目已获得 MIT 许可证 的许可。

关于 Oxylabs

Oxylabs 成立于 2015 年,是一个市场领先的网络情报收集平台,以最高的业务、道德和合规标准为驱动力,使全球公司能够解锁数据驱动的洞察力。

image

推荐服务器

Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
mult-fetch-mcp-server

mult-fetch-mcp-server

一个多功能的、符合 MCP 规范的网页内容抓取工具,支持多种模式(浏览器/Node)、格式(HTML/JSON/Markdown/文本)和智能代理检测,并提供双语界面(英语/中文)。

精选
本地
Knowledge Graph Memory Server

Knowledge Graph Memory Server

为 Claude 实现持久性记忆,使用本地知识图谱,允许 AI 记住用户的信息,并可在自定义位置存储,跨对话保持记忆。

精选
本地
Hyperbrowser

Hyperbrowser

欢迎来到 Hyperbrowser,人工智能的互联网。Hyperbrowser 是下一代平台,旨在增强人工智能代理的能力,并实现轻松、可扩展的浏览器自动化。它专为人工智能开发者打造,消除了本地基础设施和性能瓶颈带来的麻烦,让您能够:

精选
本地
https://github.com/Streen9/react-mcp

https://github.com/Streen9/react-mcp

react-mcp 与 Claude Desktop 集成,能够根据用户提示创建和修改 React 应用程序。

精选
本地
Exa MCP Server

Exa MCP Server

一个模型上下文协议服务器,它使像 Claude 这样的人工智能助手能够以安全和受控的方式,使用 Exa AI 搜索 API 执行实时网络搜索。

精选
mcp-perplexity

mcp-perplexity

Perplexity API 的 MCP 服务器。

精选
MCP Web Research Server

MCP Web Research Server

一个模型上下文协议服务器,使 Claude 能够通过集成 Google 搜索、提取网页内容和捕获屏幕截图来进行网络研究。

精选
browser-use MCP server

browser-use MCP server

一个由人工智能驱动的浏览器自动化服务器,它实现了模型上下文协议,从而能够使用自然语言控制网页浏览器,以执行诸如导航、表单填写和视觉交互等任务。

精选
PubMedSearch MCP Server

PubMedSearch MCP Server

一个模型内容协议(Model Content Protocol)服务器,提供从 PubMed 数据库搜索和检索学术论文的工具。

精选