Fetch MCP

一个 MCP 服务器，使用 Playwright 无头浏览器检索网页内容，能够提取主要内容并转换为 Markdown 格式。

README

使用 Playwright 无头浏览器的 MCP 服务器，用于抓取网页内容。

JavaScript 支持: 与传统的网页抓取工具不同，Fetcher MCP 使用 Playwright 执行 JavaScript，使其能够处理动态网页内容和现代 Web 应用程序。
智能内容提取: 内置的 Readability 算法自动从网页中提取主要内容，删除广告、导航和其他非必要元素。
灵活的输出格式: 支持 HTML 和 Markdown 两种输出格式，方便与各种下游应用程序集成。
并行处理: fetch_urls 工具支持并发抓取多个 URL，显著提高批量操作的效率。
资源优化: 自动阻止不必要的资源（图像、样式表、字体、媒体），以减少带宽使用并提高性能。
强大的错误处理: 全面的错误处理和日志记录确保即使在处理有问题的网页时也能可靠运行。
可配置的参数: 可以对超时、内容提取和输出格式进行细粒度控制，以适应不同的用例。

直接使用 npx 运行：

npx -y fetcher-mcp

首次设置 - 通过在终端中运行以下命令来安装所需的浏览器：

npx playwright install chromium

使用 --debug 选项运行以显示浏览器窗口进行调试：

npx -y fetcher-mcp --debug

在 Claude Desktop 中配置此 MCP 服务器：

在 MacOS 上：~/Library/Application Support/Claude/claude_desktop_config.json

在 Windows 上：%APPDATA%/Claude/claude_desktop_config.json

{
  "mcpServers": {
    "fetcher": {
      "command": "npx",
      "args": ["-y", "fetcher-mcp"]
    }
  }
}

等待完全加载: 对于使用 CAPTCHA、重定向或其他验证机制的网站，请在提示中包含：
```
请等待页面完全加载
```
这将使用 waitForNavigation: true 参数。
增加超时时间: 对于加载缓慢的网站：
```
请将页面加载超时时间设置为 60 秒
```
这将相应地调整 timeout 和 navigationTimeout 参数。

保留原始 HTML 结构: 当内容提取可能失败时：
```
请保留原始 HTML 内容
```
设置 extractContent: false 和 returnHtml: true。
抓取完整的页面内容: 当提取的内容太有限时：
```
请抓取完整的网页内容，而不仅仅是主要内容
```
设置 extractContent: false。
以 HTML 格式返回内容: 当需要 HTML 格式而不是默认的 Markdown 时：
```
请以 HTML 格式返回内容
```
设置 returnHtml: true。

动态调试激活: 要在特定抓取操作期间显示浏览器窗口：
```
请为此抓取操作启用调试模式
```
即使服务器启动时没有使用 --debug 标志，也会设置 debug: true。

手动登录: 要使用您自己的凭据登录：
```
请在调试模式下运行，以便我可以手动登录到网站
```
设置 debug: true 或使用 --debug 标志，保持浏览器窗口打开以进行手动登录。
与调试浏览器交互: 启用调试模式后：
1. 浏览器窗口保持打开状态
2. 您可以使用您的凭据手动登录到网站
3. 登录完成后，将使用您的已验证会话抓取内容
为特定请求启用调试: 即使服务器已经在运行，您也可以为特定请求启用调试模式：
```
请为此身份验证步骤启用调试模式
```
仅为此特定请求设置 debug: true，打开浏览器窗口以进行手动登录。