MD Webcrawl MCP
一个基于 Python 的 MCP 服务器,用于爬取网站,提取内容并保存为 Markdown 文件,同时具备网站结构和链接映射功能。
README
MD MCP Webcrawler 项目
一个基于 Python 的 MCP (https://modelcontextprotocol.io/introduction) 网络爬虫,用于提取和保存网站内容。
特性
- 提取网站内容并保存为 markdown 文件
- 映射网站结构和链接
- 批量处理多个 URL
- 可配置的输出目录
安装
- 克隆仓库:
git clone https://github.com/yourusername/webcrawler.git
cd webcrawler
- 安装依赖:
pip install -r requirements.txt
- 可选: 配置环境变量:
export OUTPUT_PATH=./output # 设置您偏好的输出目录
输出
爬取的内容以 markdown 格式保存在指定的输出目录中。
配置
服务器可以通过环境变量进行配置:
OUTPUT_PATH: 保存文件的默认输出目录MAX_CONCURRENT_REQUESTS: 最大并发请求数 (默认: 5)REQUEST_TIMEOUT: 请求超时时间,单位为秒 (默认: 30)
Claude 设置
使用 FastMCP 安装
fastmcp install server.py
或者使用自定义设置直接使用 fastmcp 运行
"Crawl Server": {
"command": "fastmcp",
"args": [
"run",
"/Users/mm22/Dev_Projekte/servers-main/src/Webcrawler/server.py"
],
"env": {
"OUTPUT_PATH": "/Users/user/Webcrawl"
}
开发
实时开发
fastmcp dev server.py --with-editable .
调试
建议使用 https://modelcontextprotocol.io/docs/tools/inspector 进行调试
示例
示例 1: 提取并保存内容
mcp call extract_content --url "https://example.com" --output_path "example.md"
示例 2: 创建内容索引
mcp call scan_linked_content --url "https://example.com" | \
mcp call create_index --content_map - --output_path "index.md"
贡献
- Fork 仓库
- 创建一个特性分支 (
git checkout -b feature/AmazingFeature) - 提交您的更改 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 打开一个 Pull Request
许可证
在 MIT 许可证下分发。 更多信息请参见 LICENSE。
要求
- Python 3.7+
- FastMCP (使用 pip install fastmcp 安装)
- requirements.txt 中列出的依赖项
推荐服务器
Baidu Map
百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Magic Component Platform (MCP)
一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。
VeyraX
一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。
graphlit-mcp-server
模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。
Kagi MCP Server
一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。
e2b-mcp-server
使用 MCP 通过 e2b 运行代码。
Neon MCP Server
用于与 Neon 管理 API 和数据库交互的 MCP 服务器
Exa MCP Server
模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。