Scraper.is MCP Server

Scraper.is MCP Server

可以使用自然语言提示从网站提取数据,允许用户用简单的英语指定他们想要的内容,并返回结构化的 JSON 数据。

Category
访问服务器

Tools

scraperis_scraper

Extract data from websites using natural language prompts. The prompt should include the website URL and what data you want to extract. For example: 'Get me the top 10 products from producthunt.com' or 'Extract all article titles and authors from techcrunch.com/news'

README

Scraper.is MCP

npm version License: MIT

一个为 Scraper.is 集成的 模型上下文协议 (MCP) - 一个强大的 AI 助手网络抓取工具。

此软件包允许 AI 助手通过 MCP 协议抓取网络内容,使他们能够访问来自网络的最新信息。

特性

  • 🌐 网络抓取: 从任何网站提取内容
  • 📸 屏幕截图: 捕获网页的可视化表示
  • 📄 多种格式: 获取 markdown、HTML 或 JSON 格式的内容
  • 🔄 进度更新: 抓取操作期间的实时进度报告
  • 🔌 MCP 集成: 与 MCP 兼容的 AI 助手无缝集成

安装

npm install -g scraperis-mcp

或者使用 yarn:

yarn global add scraperis-mcp

前提条件

您需要一个 Scraper.is API 密钥才能使用此软件包。

获取您的 API 密钥

  1. scraper.is 注册或登录
  2. 导航到仪表板中的 API 密钥部分:https://www.scraper.is/dashboard/apikeys
  3. 创建一个新的 API 密钥或复制您现有的密钥
  4. 安全地存储此密钥,因为您需要它才能使用此软件包

用法

环境设置

创建一个包含您的 Scraper.is API 密钥的 .env 文件:

SCRAPERIS_API_KEY=your_api_key_here

Claude Desktop 集成

要将此软件包与 Claude Desktop 一起使用:

  1. 全局安装该软件包:

    npm install -g scraperis-mcp
    
  2. 将以下配置添加到您的 claude_desktop_config.json 文件中:

    {
      "mcpServers": {
        "scraperis_scraper": {
          "command": "scraperis-mcp",
          "args": [],
          "env": {
            "SCRAPERIS_API_KEY": "your-api-key-here",
            "DEBUG": "*"
          }
        }
      }
    }
    
  3. your-api-key-here 替换为您实际的 Scraper.is API 密钥。

  4. 重新启动 Claude Desktop 以应用更改。

使用 MCP Inspector 运行

对于开发和测试,您可以使用 MCP Inspector:

npx @modelcontextprotocol/inspector scraperis-mcp

与 AI 助手集成

此软件包旨在与支持模型上下文协议 (MCP) 的 AI 助手一起使用。 正确配置后,AI 助手可以使用以下工具:

Scrape 工具

scrape 工具允许 AI 从网站提取内容。 它支持多种格式:

  • markdown: 以 markdown 格式返回内容
  • html: 以 HTML 格式返回内容
  • screenshot: 返回网页的屏幕截图
  • json: 以 JSON 格式返回结构化数据

AI 的示例提示:

你能从 techcrunch.com 抓取最新的新闻并为我总结一下吗?

API 参考

工具

scrape

根据提示从网页抓取内容。

参数:

  • prompt (string): 描述要抓取内容的提示,包括 URL
  • format (string): 返回内容的格式 (markdownhtmlscreenshotjsonquick)

示例:

{
  "prompt": "从 producthunt.com 获取前 10 名产品",
  "format": "markdown"
}

开发

设置

  1. 克隆存储库:

    git clone https://github.com/Ai-Quill/scraperis-mcp.git
    cd scraperis-mcp
    
  2. 安装依赖项:

    npm install
    
  3. 构建项目:

    npm run build
    

脚本

  • npm run build: 构建项目
  • npm run watch: 监视更改并重新构建
  • npm run dev: 使用 MCP Inspector 运行以进行开发
  • npm run test: 运行测试
  • npm run lint: 运行 ESLint

贡献

欢迎贡献! 请随时提交 Pull Request。

许可证

此项目已获得 MIT 许可证的许可 - 有关详细信息,请参阅 LICENSE 文件。

致谢

推荐服务器

Baidu Map

Baidu Map

百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。

官方
精选
JavaScript
Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

官方
精选
本地
TypeScript
VeyraX

VeyraX

一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。

官方
精选
本地
graphlit-mcp-server

graphlit-mcp-server

模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。

官方
精选
TypeScript
Kagi MCP Server

Kagi MCP Server

一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

官方
精选
Python
e2b-mcp-server

e2b-mcp-server

使用 MCP 通过 e2b 运行代码。

官方
精选
Neon MCP Server

Neon MCP Server

用于与 Neon 管理 API 和数据库交互的 MCP 服务器

官方
精选
Exa MCP Server

Exa MCP Server

模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。

官方
精选