MCP 服务器

MCP Firecrawl Server

一个服务器，提供使用 Firecrawl 的 API 来抓取网站并从中提取结构化数据的工具，支持多种格式的基本网站抓取和基于自定义模式的数据提取。

浏览器自动化

搜索

JavaScript

访问服务器

Tools

scrape-website

extract-data

README

MCP Firecrawl 服务器

这是一个简单的 MCP 服务器，它提供使用 Firecrawl 的 API 来抓取网站并提取结构化数据的工具。

设置

安装依赖:

npm install

在根目录下创建一个 .env 文件，并包含以下变量:

FIRECRAWL_API_TOKEN=your_token_here
SENTRY_DSN=your_sentry_dsn_here

FIRECRAWL_API_TOKEN (必需): 你的 Firecrawl API 令牌
SENTRY_DSN (可选): Sentry DSN，用于错误跟踪和性能监控

启动服务器:

npm start

或者，你也可以在运行服务器时直接设置环境变量:

FIRECRAWL_API_TOKEN=your_token_here npm start

功能

网站抓取: 从网站提取各种格式的内容
结构化数据提取: 基于自定义模式提取特定的数据点
错误跟踪: 与 Sentry 集成，用于错误跟踪和性能监控

用法

该服务器公开了两个工具:

scrape-website: 具有多种格式选项的基本网站抓取
extract-data: 基于提示和模式的结构化数据提取

工具: scrape-website

此工具抓取网站并以请求的格式返回其内容。

参数:

url (字符串, 必需): 要抓取的网站的 URL
formats (字符串数组, 可选): 所需输出格式的数组。支持的格式有:
- "markdown" (默认)
- "html"
- "text"

使用 MCP Inspector 的示例:

# 基本用法 (默认为 markdown)
mcp-inspector --tool scrape-website --args '{
  "url": "https://example.com"
}'

# 多种格式
mcp-inspector --tool scrape-website --args '{
  "url": "https://example.com",
  "formats": ["markdown", "html", "text"]
}'

工具: extract-data

此工具基于提供的提示和模式从网站提取结构化数据。

参数:

urls (字符串数组, 必需): 要从中提取数据的 URL 数组
prompt (字符串, 必需): 描述要提取的数据的提示
schema (对象, 必需): 用于提取的数据的模式定义

模式定义应该是一个对象，其中键是字段名称，值是类型。支持的类型有:

"string": 用于文本字段
"boolean": 用于 true/false 字段
"number": 用于数字字段
数组: 指定为 ["type"]，其中 type 是上述类型之一
对象: 具有自己的类型定义的嵌套对象

使用 MCP Inspector 的示例:

# 提取公司信息的基本示例
mcp-inspector --tool extract-data --args '{
  "urls": ["https://example.com"],
  "prompt": "提取公司使命，是否支持 SSO，以及是否开源。",
  "schema": {
    "company_mission": "string",
    "supports_sso": "boolean",
    "is_open_source": "boolean"
  }
}'

# 包含嵌套数据的复杂示例
mcp-inspector --tool extract-data --args '{
  "urls": ["https://example.com/products", "https://example.com/pricing"],
  "prompt": "提取产品信息，包括名称、价格和功能。",
  "schema": {
    "products": [{
      "name": "string",
      "price": "number",
      "features": ["string"]
    }]
  }
}'

如果抓取或提取失败，这两个工具都将返回适当的错误消息，并且如果配置了 Sentry，则会自动将错误记录到 Sentry。