
MCP Firecrawl Server
一个服务器,提供使用 Firecrawl 的 API 来抓取网站并从中提取结构化数据的工具,支持多种格式的基本网站抓取和基于自定义模式的数据提取。
Tools
scrape-website
extract-data
README
MCP Firecrawl 服务器
这是一个简单的 MCP 服务器,它提供使用 Firecrawl 的 API 来抓取网站并提取结构化数据的工具。
设置
- 安装依赖:
npm install
- 在根目录下创建一个
.env
文件,并包含以下变量:
FIRECRAWL_API_TOKEN=your_token_here
SENTRY_DSN=your_sentry_dsn_here
FIRECRAWL_API_TOKEN
(必需): 你的 Firecrawl API 令牌SENTRY_DSN
(可选): Sentry DSN,用于错误跟踪和性能监控
- 启动服务器:
npm start
或者,你也可以在运行服务器时直接设置环境变量:
FIRECRAWL_API_TOKEN=your_token_here npm start
功能
- 网站抓取: 从网站提取各种格式的内容
- 结构化数据提取: 基于自定义模式提取特定的数据点
- 错误跟踪: 与 Sentry 集成,用于错误跟踪和性能监控
用法
该服务器公开了两个工具:
scrape-website
: 具有多种格式选项的基本网站抓取extract-data
: 基于提示和模式的结构化数据提取
工具: scrape-website
此工具抓取网站并以请求的格式返回其内容。
参数:
url
(字符串, 必需): 要抓取的网站的 URLformats
(字符串数组, 可选): 所需输出格式的数组。 支持的格式有:"markdown"
(默认)"html"
"text"
使用 MCP Inspector 的示例:
# 基本用法 (默认为 markdown)
mcp-inspector --tool scrape-website --args '{
"url": "https://example.com"
}'
# 多种格式
mcp-inspector --tool scrape-website --args '{
"url": "https://example.com",
"formats": ["markdown", "html", "text"]
}'
工具: extract-data
此工具基于提供的提示和模式从网站提取结构化数据。
参数:
urls
(字符串数组, 必需): 要从中提取数据的 URL 数组prompt
(字符串, 必需): 描述要提取的数据的提示schema
(对象, 必需): 用于提取的数据的模式定义
模式定义应该是一个对象,其中键是字段名称,值是类型。 支持的类型有:
"string"
: 用于文本字段"boolean"
: 用于 true/false 字段"number"
: 用于数字字段- 数组: 指定为
["type"]
,其中 type 是上述类型之一 - 对象: 具有自己的类型定义的嵌套对象
使用 MCP Inspector 的示例:
# 提取公司信息的基本示例
mcp-inspector --tool extract-data --args '{
"urls": ["https://example.com"],
"prompt": "提取公司使命,是否支持 SSO,以及是否开源。",
"schema": {
"company_mission": "string",
"supports_sso": "boolean",
"is_open_source": "boolean"
}
}'
# 包含嵌套数据的复杂示例
mcp-inspector --tool extract-data --args '{
"urls": ["https://example.com/products", "https://example.com/pricing"],
"prompt": "提取产品信息,包括名称、价格和功能。",
"schema": {
"products": [{
"name": "string",
"price": "number",
"features": ["string"]
}]
}
}'
如果抓取或提取失败,这两个工具都将返回适当的错误消息,并且如果配置了 Sentry,则会自动将错误记录到 Sentry。
故障排除
如果您遇到问题:
- 验证您的 Firecrawl API 令牌是否有效
- 检查您尝试抓取的 URL 是否可访问
- 对于复杂的模式,请确保它们遵循支持的格式
- 查看 Sentry 日志以获取详细的错误信息 (如果已配置)
推荐服务器
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Kagi MCP Server
一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。
Exa MCP Server
模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。
Playwright MCP Server
提供一个利用模型上下文协议的服务器,以实现类人浏览器的自动化,该服务器使用 Playwright,允许控制浏览器行为,例如导航、元素交互和滚动。
@kazuph/mcp-fetch
用于获取网页内容和处理图像的模型上下文协议服务器。这使得 Claude Desktop(或任何 MCP 客户端)能够适当地获取网页内容和处理图像。
Claude Code MCP
一个实现了 Claude Code 作为模型上下文协议(Model Context Protocol, MCP)服务器的方案,它可以通过标准化的 MCP 接口来使用 Claude 的软件工程能力(代码生成、编辑、审查和文件操作)。
DuckDuckGo MCP Server
一个模型上下文协议 (MCP) 服务器,通过 DuckDuckGo 提供网页搜索功能,并具有内容获取和解析的附加功能。

Supabase MCP Server
一个模型上下文协议(MCP)服务器,它提供对 Supabase 管理 API 的编程访问。该服务器允许 AI 模型和其他客户端通过标准化的接口来管理 Supabase 项目和组织。
YouTube Transcript MCP Server
这个服务器用于获取指定 YouTube 视频 URL 的字幕,从而可以与 Goose CLI 或 Goose Desktop 集成,进行字幕提取和处理。
serper-search-scrape-mcp-server
这个 Serper MCP 服务器支持搜索和网页抓取,并且支持 Serper API 引入的所有最新参数,例如位置信息。