Crawl4AI MCP Server

Crawl4AI MCP Server

Crawl4AI-MCP:一款强大的网络爬虫和内容分析服务器,它将定向网络抓取与 Claude AI 处理相结合。 通过可定制的深度、内容选择和 AI 分析功能,从特定网站提取见解。

Vistiqx

研究与数据
访问服务器

README

*** 这不是一个功能完善的 MCP ***

  • 这只是一个学习工具,我会在空闲时间回来完善它

Crawl4AI MCP 服务器

一个用于智能网络爬取和 AI 驱动的内容分析的 MCP (模型-控制器-处理器) 服务器。该服务器提供了一个简单的 API,用于爬取网站并使用 Claude AI 模型处理内容。

谁能从 Crawl4AI 中受益?

Crawl4AI 专为需要对特定网络内容进行有针对性的深入分析的个人和组织而设计。与提供广泛覆盖范围的通用搜索引擎或 AI 助手不同,Crawl4AI 可以更深入地了解您想要专门分析的内容。

理想适用于:

  • 研究人员 需要从特定网站或学术资源中提取结构化信息
  • 内容创作者 希望分析特定领域内的竞争对手内容或行业趋势
  • 数据分析师 需要处理网络数据以进行商业智能
  • 开发者 构建需要网络内容分析功能的应用程序
  • 数字营销人员 分析行业网站、博客或竞争对手内容
  • 商业分析师 从多个来源收集行业特定信息
  • 知识工作者 需要综合来自特定网络领域的信息

用户如何从 Crawl4AI 中受益

与通用搜索和 AI 工具相比,Crawl4AI MCP 服务器具有显着优势:

  • 有针对性的深度而非广度:无需在整个网络上获得广泛的表面级别结果,而是可以对您关心的特定网站进行全面分析
  • 可定制的爬取参数:精确控制爬取的深度、提取的内容以及处理方式
  • 程序化集成:轻松将网络内容分析集成到您自己的应用程序、工作流程和数据管道中
  • 灵活的 AI 处理:对相同的内容应用不同的分析方法 - 总结、提取事实、深度分析或生成问题
  • 隐私和控制:通过在本地运行服务器来保护敏感搜索和分析的隐私
  • 成本效益:使用您自己的 Claude API 密钥,精确控制令牌使用和处理成本
  • 自动化潜力:安排定期爬取和分析重要网站,以跟踪随时间的变化
  • 定制的 AI 提示:通过定制提示,专门根据您的需求定制 AI 分析
  • 内容转换:将非结构化网络内容转换为结构化、可操作的信息

Crawl4AI 弥合了简单网络抓取和复杂 AI 分析之间的差距,从而能够从网络中更有针对性和更有意义地提取见解。

特性

  • 具有可定制深度和内容选择器的网络爬取
  • 尊重 robots.txt 指令
  • 内容提取和处理
  • 使用 Claude 模型对爬取的内容进行 AI 驱动的分析
  • 简单的 REST API
  • 可通过命令行或环境变量配置
  • 详细的日志记录

安装

  1. 克隆此存储库:

    git clone https://github.com/yourusername/crawl4ai-mcp.git
    cd crawl4ai-mcp
    
  2. 安装依赖项:

    npm install
    
  3. 创建一个包含您的 Anthropic API 密钥的 .env 文件:

    ANTHROPIC_API_KEY=your_api_key_here
    

用法

启动服务器

使用默认设置启动服务器:

npm start

或使用命令行选项:

npm start -- --port 4000 --debug

可用选项:

  • --port <number>:服务器运行的端口(默认:3000)
  • --debug:启用调试日志记录

API 端点

爬取网站

POST /api/crawl

请求体:

{
  "url": "https://example.com",
  "depth": 2,
  "selector": "main",
  "aiProcessing": {
    "task": "summarize",
    "model": "claude-3-sonnet-20240229"
  }
}

参数:

  • url (必需):开始爬取的 URL
  • depth (可选):爬取的深度(默认:1)
  • selector (可选):用于内容提取的 CSS 选择器(默认:"body")
  • aiProcessing (可选):AI 处理的配置
    • task:处理类型(summarize、extract、analyze、questions)
    • model:要使用的 Claude 模型(默认:"claude-3-sonnet-20240229")

健康检查

GET /api/healthcheck

返回服务器状态和版本信息。

AI 处理任务

服务器支持多个 AI 处理任务:

  • summarize:创建爬取内容的全面摘要
  • extract:从内容中提取事实信息
  • analyze:对内容、论点和质量进行深入分析
  • questions:根据内容生成重要的问题和答案

配置

您可以使用环境变量配置服务器:

  • PORT:服务器端口(默认:3000)
  • ANTHROPIC_API_KEY:您的 Claude 的 Anthropic API 密钥
  • DEBUG:设置为 "true" 以启用调试日志记录

示例

爬取一个网站并总结其内容:

curl -X POST http://localhost:3000/api/crawl \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "depth": 1,
    "aiProcessing": {
      "task": "summarize"
    }
  }'

许可证

MIT 许可证

致谢

本项目使用以下库:

推荐服务器

Crypto Price & Market Analysis MCP Server

Crypto Price & Market Analysis MCP Server

一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。

精选
TypeScript
MCP PubMed Search

MCP PubMed Search

用于搜索 PubMed 的服务器(PubMed 是一个免费的在线数据库,用户可以在其中搜索生物医学和生命科学文献)。 我是在 MCP 发布当天创建的,但当时正在度假。 我看到有人在您的数据库中发布了类似的服务器,但还是决定发布我的服务器。

精选
Python
mixpanel

mixpanel

连接到您的 Mixpanel 数据。 从 Mixpanel 分析查询事件、留存和漏斗数据。

精选
TypeScript
Sequential Thinking MCP Server

Sequential Thinking MCP Server

这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

精选
Python
Nefino MCP Server

Nefino MCP Server

为大型语言模型提供访问德国可再生能源项目新闻和信息的能力,允许按地点、主题(太阳能、风能、氢能)和日期范围进行筛选。

官方
Python
Vectorize

Vectorize

将 MCP 服务器向量化以实现高级检索、私有深度研究、Anything-to-Markdown 文件提取和文本分块。

官方
JavaScript
Mathematica Documentation MCP server

Mathematica Documentation MCP server

一个服务器,通过 FastMCP 提供对 Mathematica 文档的访问,使用户能够从 Wolfram Mathematica 检索函数文档和列出软件包符号。

本地
Python
kb-mcp-server

kb-mcp-server

一个 MCP 服务器,旨在实现便携性、本地化、简易性和便利性,以支持对 txtai “all in one” 嵌入数据库进行基于语义/图的检索。任何 tar.gz 格式的 txtai 嵌入数据库都可以被加载。

本地
Python
Research MCP Server

Research MCP Server

这个服务器用作 MCP 服务器,与 Notion 交互以检索和创建调查数据,并与 Claude Desktop Client 集成以进行和审查调查。

本地
Python
Cryo MCP Server

Cryo MCP Server

一个API服务器,实现了模型补全协议(MCP),用于Cryo区块链数据提取,允许用户通过任何兼容MCP的客户端查询以太坊区块链数据。

本地
Python