
Doc Scraper MCP Server
使用 jina.ai 的转换服务将基于网络的文档转换为 Markdown 格式,允许用户从任何 URL 抓取文档并将其保存为 Markdown 文件。
README
Doc Scraper MCP 服务器
一个提供文档抓取功能的模型上下文协议 (MCP) 服务器。该服务器使用 jina.ai 的转换服务将基于 Web 的文档转换为 markdown 格式。
功能
- 从任何 Web URL 抓取文档
- 将 HTML 文档转换为 markdown 格式
- 将转换后的文档保存到指定的输出路径
- 与模型上下文协议 (MCP) 集成
安装
通过 Smithery 安装
要通过 Smithery 为 Claude Desktop 自动安装 Doc Scraper:
npx -y @smithery/cli install @askjohngeorge/mcp-doc-scraper --client claude
- 克隆存储库:
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper
- 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate # 在 Windows 上,使用:venv\Scripts\activate
- 安装依赖项:
pip install -e .
用法
可以使用 Python 运行服务器:
python -m mcp_doc_scraper
工具描述
服务器提供一个工具:
- 名称:
scrape_docs
- 描述: 从 URL 抓取文档并保存为 markdown
- 输入参数:
url
: 要抓取的文档的 URLoutput_path
: 应该保存 markdown 文件的路径
项目结构
doc_scraper/
├── __init__.py
├── __main__.py
└── server.py
依赖项
- aiohttp
- mcp
- pydantic
开发
要设置开发环境:
- 安装开发依赖项:
pip install -r requirements.txt
- 该服务器使用模型上下文协议。请务必熟悉 MCP 文档。
许可证
MIT 许可证
推荐服务器
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。
Excel MCP Server
一个模型上下文协议服务器,使 AI 助手能够读取和写入 Microsoft Excel 文件,支持诸如 xlsx、xlsm、xltx 和 xltm 等格式。
Playwright MCP Server
提供一个利用模型上下文协议的服务器,以实现类人浏览器的自动化,该服务器使用 Playwright,允许控制浏览器行为,例如导航、元素交互和滚动。
@kazuph/mcp-fetch
用于获取网页内容和处理图像的模型上下文协议服务器。这使得 Claude Desktop(或任何 MCP 客户端)能够适当地获取网页内容和处理图像。
Claude Code MCP
一个实现了 Claude Code 作为模型上下文协议(Model Context Protocol, MCP)服务器的方案,它可以通过标准化的 MCP 接口来使用 Claude 的软件工程能力(代码生成、编辑、审查和文件操作)。
Apple MCP Server
通过 MCP 协议与 Apple 应用(如“信息”、“备忘录”和“通讯录”)进行交互,从而使用自然语言发送消息、搜索和打开应用内容。
DuckDuckGo MCP Server
一个模型上下文协议 (MCP) 服务器,通过 DuckDuckGo 提供网页搜索功能,并具有内容获取和解析的附加功能。
YouTube Transcript MCP Server
这个服务器用于获取指定 YouTube 视频 URL 的字幕,从而可以与 Goose CLI 或 Goose Desktop 集成,进行字幕提取和处理。
serper-search-scrape-mcp-server
这个 Serper MCP 服务器支持搜索和网页抓取,并且支持 Serper API 引入的所有最新参数,例如位置信息。