WebSearch

WebSearch

构建为一个模型上下文协议(MCP)服务器,该服务器使用 Firecrawl API 提供高级网络搜索、内容提取、网络爬行和抓取功能。

Category
访问服务器

Tools

search

Performs web searches and retrieves up-to-date information from the internet. Args: - prompt: Specific query or topic to search for on the internet - limit: Maximum number of results to return (between 1 and 20) Returns: - Search results with relevant information about the requested topic

crawl

Crawls a website starting from the specified URL and extracts content from multiple pages. Args: - url: The complete URL of the web page to start crawling from - maxDepth: The maximum depth level for crawling linked pages - limit: The maximum number of pages to crawl Returns: - Content extracted from the crawled pages in markdown and HTML format

extract

Extracts specific information from a web page based on a prompt. Args: - url: The complete URL of the web page to extract information from - prompt: Instructions specifying what information to extract from the page - enabaleWebSearch: Whether to allow web searches to supplement the extraction - showSources: Whether to include source references in the response Returns: - Extracted information from the web page based on the prompt

scrape

README

WebSearch - 高级网页搜索和内容提取工具

License Python Version Firecrawl uv

一个强大的网页搜索和内容提取工具,使用 Python 构建,利用 Firecrawl API 实现高级网页抓取、搜索和内容分析功能。

🚀 功能

  • 高级网页搜索: 执行具有可自定义参数的智能网页搜索
  • 内容提取: 使用自然语言提示从网页中提取特定信息
  • 网页爬取: 使用可配置的深度和限制爬取网站
  • 网页抓取: 抓取网页,支持各种输出格式
  • MCP 集成: 构建为模型上下文协议 (MCP) 服务器,实现无缝集成

📋 前提条件

  • Python 3.8 或更高版本
  • uv 包管理器
  • Firecrawl API 密钥
  • OpenAI API 密钥(可选,用于增强功能)
  • Tavily API 密钥(可选,用于额外的搜索功能)

🛠️ 安装

  1. 安装 uv:
# 在 Windows 上 (使用 pip)
pip install uv

# 在 Unix/MacOS 上
curl -LsSf https://astral.sh/uv/install.sh | sh

# 将 uv 添加到 PATH (Unix/MacOS)
export PATH="$HOME/.local/bin:$PATH"

# 将 uv 添加到 PATH (Windows - 添加到环境变量)
# 添加: %USERPROFILE%\.local\bin
  1. 克隆存储库:
git clone https://github.com/yourusername/websearch.git
cd websearch
  1. 使用 uv 创建并激活虚拟环境:
# 创建虚拟环境
uv venv

# 在 Windows 上激活
.\.venv\Scripts\activate.ps1

# 在 Unix/MacOS 上激活
source .venv/bin/activate
  1. 使用 uv 安装依赖项:
# 从 requirements.txt 安装
uv sync
  1. 设置环境变量:
# 创建 .env 文件
touch .env

# 添加您的 API 密钥
FIRECRAWL_API_KEY=your_firecrawl_api_key
OPENAI_API_KEY=your_openai_api_key

🎯 使用

使用 Claude for Desktop 进行设置

您可以配置 Claude for Desktop 来访问 WebSearch 工具,而不是直接运行服务器:

  1. 找到或创建您的 Claude for Desktop 配置文件:

    • Windows: %env:AppData%\Claude\claude_desktop_config.json
    • macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
  2. 将 WebSearch 服务器配置添加到 mcpServers 部分:

{
  "mcpServers": {
    "websearch": {
      "command": "uv",
      "args": [
        "--directory",
        "D:\\ABSOLUTE\\PATH\\TO\\WebSearch",
        "run",
        "main.py"
      ]
    }
  }
}
  1. 确保将目录路径替换为 WebSearch 项目文件夹的绝对路径。

  2. 保存配置文件并重新启动 Claude for Desktop。

  3. 配置完成后,WebSearch 工具将出现在 Claude for Desktop 的工具菜单(锤子图标)中。

可用工具

  1. 搜索

  2. 提取信息

  3. 爬取网站

  4. 抓取内容

📚 API 参考

搜索

  • query (str): 搜索查询
  • 返回: JSON 格式的搜索结果

提取

  • urls (List[str]): 要从中提取信息的 URL 列表
  • prompt (str): 提取说明
  • enableWebSearch (bool): 启用补充网页搜索
  • showSources (bool): 包括来源参考
  • 返回: 指定格式的提取信息

爬取

  • url (str): 起始 URL
  • maxDepth (int): 最大爬取深度
  • limit (int): 要爬取的最大页面数
  • 返回: markdown/HTML 格式的爬取内容

抓取

  • url (str): 目标 URL
  • 返回: 抓取的内容,带有可选的屏幕截图

🔧 配置

环境变量

该工具需要某些 API 密钥才能运行。 我们提供了一个 .env.example 文件,您可以将其用作模板:

  1. 复制示例文件:
# 在 Unix/MacOS 上
cp .env.example .env

# 在 Windows 上
copy .env.example .env
  1. 使用您的 API 密钥编辑 .env 文件:
# OpenAI API 密钥 - AI 驱动功能所必需
OPENAI_API_KEY=your_openai_api_key_here

# Firecrawl API 密钥 - 网页抓取和搜索所必需
FIRECRAWL_API_KEY=your_firecrawl_api_key_here

获取 API 密钥

  1. OpenAI API 密钥:

    • 访问 OpenAI 的平台
    • 注册或登录
    • 导航到 API 密钥部分
    • 创建一个新的密钥
  2. Firecrawl API 密钥:

    • 访问 Firecrawl 的网站
    • 创建一个帐户
    • 导航到您的仪表板
    • 生成一个新的 API 密钥

如果一切配置正确,您应该收到一个包含搜索结果的 JSON 响应。

故障排除

如果遇到错误:

  1. 确保所有必需的 API 密钥都已在您的 .env 文件中设置
  2. 验证 API 密钥是否有效且未过期
  3. 检查 .env 文件是否位于项目的根目录中
  4. 确保环境变量已正确加载

🤝 贡献

  1. Fork 存储库
  2. 创建您的功能分支 (git checkout -b feature/AmazingFeature)
  3. 提交您的更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 打开一个 Pull Request

📝 许可证

该项目已获得 MIT 许可证的许可 - 有关详细信息,请参阅 LICENSE 文件。

🙏 鸣谢

  • Firecrawl 感谢他们强大的网页抓取 API
  • OpenAI 感谢 AI 功能
  • MCP MCP 社区感谢协议规范

📬 联系方式

José Martín Rodriguez Mortaloni - @m4s1t425 - jmrodriguezm13@gmail.com


用 ❤️ 使用 Python 和 Firecrawl 制作

推荐服务器

Baidu Map

Baidu Map

百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。

官方
精选
JavaScript
Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

官方
精选
本地
TypeScript
VeyraX

VeyraX

一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。

官方
精选
本地
graphlit-mcp-server

graphlit-mcp-server

模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。

官方
精选
TypeScript
Kagi MCP Server

Kagi MCP Server

一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

官方
精选
Python
e2b-mcp-server

e2b-mcp-server

使用 MCP 通过 e2b 运行代码。

官方
精选
Neon MCP Server

Neon MCP Server

用于与 Neon 管理 API 和数据库交互的 MCP 服务器

官方
精选
Exa MCP Server

Exa MCP Server

模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。

官方
精选