
Prysm MCP Server
一个模型上下文协议服务器,使 AI 助手能够以高精度和灵活性抓取网页内容,支持多种抓取模式和内容格式化选项。
Tools
scrapeFocused
Fast web scraping optimized for speed (fewer scrolls, main content only)
scrapeBalanced
Balanced web scraping approach with good coverage and reasonable speed
scrapeDeep
Maximum extraction web scraping (slower but thorough)
formatResult
Format scraped data into different structured formats (markdown, HTML, JSON)
README
🔍 Prysm MCP 服务器
Prysm MCP (模型上下文协议) 服务器使像 Claude 等 AI 助手能够以高精度和灵活性抓取网页内容。
✨ 功能
- 🎯 多种抓取模式: 从专注(速度)、平衡(默认)或深度(彻底)模式中选择
- 🧠 内容分析: 分析 URL 以确定最佳抓取方法
- 📄 格式灵活性: 将结果格式化为 markdown、HTML 或 JSON
- 🖼️ 图像支持: 可选择提取甚至下载图像
- 🔍 智能滚动: 为单页应用程序配置滚动行为
- 📱 响应式: 适应不同的网站布局和结构
- 💾 文件输出: 将格式化的结果保存到您喜欢的目录
🚀 快速开始
安装
# 推荐:安装 LLM 优化版本
npm install -g @pinkpixel/prysm-mcp
# 或者安装标准版本
npm install -g prysm-mcp
# 或者克隆并构建
git clone https://github.com/pinkpixel-dev/prysm-mcp.git
cd prysm-mcp
npm install
npm run build
集成指南
我们为流行的 MCP 兼容应用程序提供详细的集成指南:
用法
有多种方法可以设置 Prysm MCP 服务器:
使用 mcp.json 配置
根据上述指南,在适当的位置创建一个 mcp.json
文件。
{
"mcpServers": {
"prysm-scraper": {
"description": "带有自定义输出目录的 Prysm 网络抓取器",
"command": "npx",
"args": [
"-y",
"@pinkpixel/prysm-mcp"
],
"env": {
"PRYSM_OUTPUT_DIR": "${workspaceFolder}/scrape_results",
"PRYSM_IMAGE_OUTPUT_DIR": "${workspaceFolder}/scrape_results/images"
}
}
}
}
🛠️ 工具
服务器提供以下工具:
scrapeFocused
快速网络抓取,针对速度进行了优化(较少的滚动,仅限主要内容)。
请使用专注模式抓取 https://example.com
可用参数:
url
(必需): 要抓取的 URLmaxScrolls
(可选): 最大滚动尝试次数(默认值:5)scrollDelay
(可选): 滚动之间的延迟(毫秒)(默认值:1000)scrapeImages
(可选): 是否在结果中包含图像downloadImages
(可选): 是否在本地下载图像maxImages
(可选): 要提取的最大图像数量output
(可选): 下载图像的输出目录
scrapeBalanced
平衡的网络抓取方法,具有良好的覆盖率和合理的速度。
请使用平衡模式抓取 https://example.com
可用参数:
- 与
scrapeFocused
相同,但默认值不同 maxScrolls
默认值:10scrollDelay
默认值:2000- 添加
timeout
参数以限制总抓取时间(默认值:30000 毫秒)
scrapeDeep
最大提取网络抓取(速度较慢但彻底)。
请使用深度模式抓取 https://example.com,并进行最大滚动
可用参数:
- 与
scrapeFocused
相同,但默认值不同 maxScrolls
默认值:20scrollDelay
默认值:3000maxImages
默认值:100
formatResult
将抓取的数据格式化为不同的结构化格式(markdown、HTML、JSON)。
将抓取的数据格式化为 markdown
可用参数:
data
(必需): 要格式化的抓取数据format
(必需): 输出格式 - "markdown"、"html" 或 "json"includeImages
(可选): 是否在输出中包含图像(默认值:true)output
(可选): 保存格式化结果的文件路径
您还可以通过指定输出路径将格式化的结果保存到文件:
将抓取的数据格式化为 markdown 并将其保存到 "my-results/output.md"
⚙️ 配置
输出目录
默认情况下,保存格式化的结果时,文件将保存到 ~/prysm-mcp/output/
。您可以通过两种方式自定义此设置:
- 环境变量: 将环境变量设置为您喜欢的目录:
# Linux/macOS
export PRYSM_OUTPUT_DIR="/path/to/custom/directory"
export PRYSM_IMAGE_OUTPUT_DIR="/path/to/custom/image/directory"
# Windows (命令提示符)
set PRYSM_OUTPUT_DIR=C:\path\to\custom\directory
set PRYSM_IMAGE_OUTPUT_DIR=C:\path\to\custom\image\directory
# Windows (PowerShell)
$env:PRYSM_OUTPUT_DIR="C:\path\to\custom\directory"
$env:PRYSM_IMAGE_OUTPUT_DIR="C:\path\to\custom\image\directory"
- 工具参数: 在调用工具时直接指定输出路径:
# 对于一般结果
将抓取的数据格式化为 markdown 并将其保存到 "/absolute/path/to/file.md"
# 对于抓取时下载的图像
请抓取 https://example.com 并将图像下载到 "/absolute/path/to/images"
- MCP 配置: 在您的 MCP 配置文件(例如,
.cursor/mcp.json
)中,您可以设置这些环境变量:
{
"mcpServers": {
"prysm-scraper": {
"command": "npx",
"args": ["-y", "@pinkpixel/prysm-mcp"],
"env": {
"PRYSM_OUTPUT_DIR": "${workspaceFolder}/scrape_results",
"PRYSM_IMAGE_OUTPUT_DIR": "${workspaceFolder}/scrape_results/images"
}
}
}
}
如果未指定 PRYSM_IMAGE_OUTPUT_DIR
,则它将默认为 PRYSM_OUTPUT_DIR
内名为 images
的子文件夹。
如果您仅提供相对路径或文件名,它将相对于配置的输出目录保存。
路径处理规则
formatResult
工具按以下方式处理路径:
- 绝对路径: 完全按照提供的路径使用 (
/home/user/file.md
) - 相对路径: 相对于配置的输出目录保存 (
subfolder/file.md
) - 仅文件名: 保存在配置的输出目录中 (
output.md
) - 目录路径: 如果路径指向目录,则会根据内容和时间戳自动生成文件名
🏗️ 开发
# 安装依赖项
npm install
# 构建项目
npm run build
# 在本地运行服务器
node bin/prysm-mcp
# 调试 MCP 通信
DEBUG=mcp:* node bin/prysm-mcp
# 设置自定义输出目录
PRYSM_OUTPUT_DIR=./my-output PRYSM_IMAGE_OUTPUT_DIR=./my-output/images node bin/prysm-mcp
通过 npx 运行
您可以直接使用 npx 运行服务器,而无需安装:
# 使用默认设置运行
npx @pinkpixel/prysm-mcp
# 使用自定义输出目录运行
PRYSM_OUTPUT_DIR=./my-output PRYSM_IMAGE_OUTPUT_DIR=./my-output/images npx @pinkpixel/prysm-mcp
📋 许可证
MIT
🙏 鸣谢
由 Pink Pixel 开发
推荐服务器

Baidu Map
百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Magic Component Platform (MCP)
一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

VeyraX
一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。
graphlit-mcp-server
模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。
Kagi MCP Server
一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

e2b-mcp-server
使用 MCP 通过 e2b 运行代码。
Neon MCP Server
用于与 Neon 管理 API 和数据库交互的 MCP 服务器
Exa MCP Server
模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。