Scrapling Fetch MCP

Scrapling Fetch MCP

一个 MCP 服务器,帮助 AI 助手访问实施了机器人检测的网站上的文本内容,从而弥合你在浏览器中看到的内容与 AI 可以访问的内容之间的差距。

Category
访问服务器

README

Scrapling Fetch MCP

License PyPI version

一个 MCP 服务器,旨在帮助 AI 助手访问实施了机器人检测的网站上的文本内容,从而弥合您在浏览器中看到的内容与 AI 可以访问的内容之间的差距。

预期用途

此工具针对从实施了机器人检测的网站上低批量检索文档和参考资料(仅限文本/HTML)进行了优化。它尚未针对通用站点抓取或数据收集进行设计或测试。

注意: 此项目是与 Claude Sonnet 3.7 合作开发的,使用了 LLM Context

安装

  1. 要求:

    • Python 3.10+
    • uv 包管理器
  2. 安装依赖项和工具:

uv tool install scrapling
scrapling install
uv tool install scrapling-fetch-mcp

与 Claude 设置

将此配置添加到您的 Claude 客户端的 MCP 服务器配置中:

{
  "mcpServers": {
    "Cyber-Chitta": {
      "command": "uvx",
      "args": ["scrapling-fetch-mcp"]
    }
  }
}

可用工具

此软件包提供两个不同的工具:

  1. s-fetch-page: 检索完整的网页,支持分页
  2. s-fetch-pattern: 提取与正则表达式模式匹配的内容,并带有周围的上下文

使用示例

获取完整页面

Human: 请获取并总结 https://example.com/docs 上的文档

Claude: 我会帮助你。让我获取文档。

<mcp:function_calls>
<mcp:invoke name="s-fetch-page">
<mcp:parameter name="url">https://example.com/docs</mcp:parameter>
<mcp:parameter name="mode">basic</mcp:parameter>
</mcp:invoke>
</mcp:function_calls>

根据我检索到的文档,这是摘要...

使用模式匹配提取特定内容

Human: 请在文档页面上找到所有提及 "API keys" 的地方。

Claude: 我会搜索该特定信息。

<mcp:function_calls>
<mcp:invoke name="s-fetch-pattern">
<mcp:parameter name="url">https://example.com/docs</mcp:parameter>
<mcp:parameter name="mode">basic</mcp:parameter>
<mcp:parameter name="search_pattern">API\s+keys?</mcp:parameter>
<mcp:parameter name="context_chars">150</mcp:parameter>
</mcp:invoke>
</mcp:function_calls>

我在文档中找到了几个提及 API 密钥的地方:
...

功能选项

  • 保护级别:

    • basic: 快速检索(1-2 秒),但在受到高度保护的站点上成功率较低
    • stealth: 平衡的保护(3-8 秒),适用于大多数站点
    • max-stealth: 最大保护(10+ 秒),适用于受到高度保护的站点
  • 内容目标选项:

    • s-fetch-page: 检索整个页面,支持分页(使用 start_indexmax_length
    • s-fetch-pattern: 使用正则表达式提取特定内容(使用 search_patterncontext_chars
      • 结果包括位置信息,以便使用 s-fetch-page 进行后续查询

最佳结果提示

  • basic 模式开始,仅在需要时升级到更高的保护级别
  • 对于大型文档,请将分页参数与 s-fetch-page 一起使用
  • 在大型页面上查找特定信息时,请使用 s-fetch-pattern
  • AI 将根据站点的保护级别自动调整其方法

局限性

  • 仅为文本内容设计: 专门用于文档、文章和参考资料
  • 不适用于高批量抓取或数据收集
  • 可能不适用于需要身份验证的站点
  • 性能因站点复杂性而异

许可证

Apache 2

推荐服务器

Baidu Map

Baidu Map

百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。

官方
精选
JavaScript
Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

官方
精选
本地
TypeScript
VeyraX

VeyraX

一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。

官方
精选
本地
graphlit-mcp-server

graphlit-mcp-server

模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。

官方
精选
TypeScript
Kagi MCP Server

Kagi MCP Server

一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

官方
精选
Python
e2b-mcp-server

e2b-mcp-server

使用 MCP 通过 e2b 运行代码。

官方
精选
Neon MCP Server

Neon MCP Server

用于与 Neon 管理 API 和数据库交互的 MCP 服务器

官方
精选
Exa MCP Server

Exa MCP Server

模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。

官方
精选