Scraper.is MCP Server
可以使用自然语言提示从网站提取数据,允许用户用简单的英语指定他们想要的内容,并返回结构化的 JSON 数据。
Tools
scraperis_scraper
Extract data from websites using natural language prompts. The prompt should include the website URL and what data you want to extract. For example: 'Get me the top 10 products from producthunt.com' or 'Extract all article titles and authors from techcrunch.com/news'
README
Scraper.is MCP
一个为 Scraper.is 集成的 模型上下文协议 (MCP) - 一个强大的 AI 助手网络抓取工具。
此软件包允许 AI 助手通过 MCP 协议抓取网络内容,使他们能够访问来自网络的最新信息。
特性
- 🌐 网络抓取: 从任何网站提取内容
- 📸 屏幕截图: 捕获网页的可视化表示
- 📄 多种格式: 获取 markdown、HTML 或 JSON 格式的内容
- 🔄 进度更新: 抓取操作期间的实时进度报告
- 🔌 MCP 集成: 与 MCP 兼容的 AI 助手无缝集成
安装
npm install -g scraperis-mcp
或者使用 yarn:
yarn global add scraperis-mcp
前提条件
您需要一个 Scraper.is API 密钥才能使用此软件包。
获取您的 API 密钥
- 在 scraper.is 注册或登录
- 导航到仪表板中的 API 密钥部分:https://www.scraper.is/dashboard/apikeys
- 创建一个新的 API 密钥或复制您现有的密钥
- 安全地存储此密钥,因为您需要它才能使用此软件包
用法
环境设置
创建一个包含您的 Scraper.is API 密钥的 .env 文件:
SCRAPERIS_API_KEY=your_api_key_here
Claude Desktop 集成
要将此软件包与 Claude Desktop 一起使用:
-
全局安装该软件包:
npm install -g scraperis-mcp -
将以下配置添加到您的
claude_desktop_config.json文件中:{ "mcpServers": { "scraperis_scraper": { "command": "scraperis-mcp", "args": [], "env": { "SCRAPERIS_API_KEY": "your-api-key-here", "DEBUG": "*" } } } } -
将
your-api-key-here替换为您实际的 Scraper.is API 密钥。 -
重新启动 Claude Desktop 以应用更改。
使用 MCP Inspector 运行
对于开发和测试,您可以使用 MCP Inspector:
npx @modelcontextprotocol/inspector scraperis-mcp
与 AI 助手集成
此软件包旨在与支持模型上下文协议 (MCP) 的 AI 助手一起使用。 正确配置后,AI 助手可以使用以下工具:
Scrape 工具
scrape 工具允许 AI 从网站提取内容。 它支持多种格式:
markdown: 以 markdown 格式返回内容html: 以 HTML 格式返回内容screenshot: 返回网页的屏幕截图json: 以 JSON 格式返回结构化数据
AI 的示例提示:
你能从 techcrunch.com 抓取最新的新闻并为我总结一下吗?
API 参考
工具
scrape
根据提示从网页抓取内容。
参数:
prompt(string): 描述要抓取内容的提示,包括 URLformat(string): 返回内容的格式 (markdown、html、screenshot、json、quick)
示例:
{
"prompt": "从 producthunt.com 获取前 10 名产品",
"format": "markdown"
}
开发
设置
-
克隆存储库:
git clone https://github.com/Ai-Quill/scraperis-mcp.git cd scraperis-mcp -
安装依赖项:
npm install -
构建项目:
npm run build
脚本
npm run build: 构建项目npm run watch: 监视更改并重新构建npm run dev: 使用 MCP Inspector 运行以进行开发npm run test: 运行测试npm run lint: 运行 ESLint
贡献
欢迎贡献! 请随时提交 Pull Request。
许可证
此项目已获得 MIT 许可证的许可 - 有关详细信息,请参阅 LICENSE 文件。
致谢
推荐服务器
Baidu Map
百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Magic Component Platform (MCP)
一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。
VeyraX
一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。
graphlit-mcp-server
模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。
Kagi MCP Server
一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。
e2b-mcp-server
使用 MCP 通过 e2b 运行代码。
Neon MCP Server
用于与 Neon 管理 API 和数据库交互的 MCP 服务器
Exa MCP Server
模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。