Doc Scraper MCP Server

Doc Scraper MCP Server

使用 jina.ai 的转换服务将基于网络的文档转换为 Markdown 格式,允许用户从任何 URL 抓取文档并将其保存为 Markdown 文件。

浏览器自动化
本地
Python
访问服务器

README

Doc Scraper MCP 服务器

smithery badge

一个模型上下文协议 (MCP) 服务器,提供文档抓取功能。此服务器使用 jina.ai 的转换服务将基于 Web 的文档转换为 markdown 格式。

特性

  • 从任何 Web URL 抓取文档
  • 将 HTML 文档转换为 markdown 格式
  • 将转换后的文档保存到指定的输出路径
  • 与模型上下文协议 (MCP) 集成

安装

通过 Smithery 安装

要通过 Smithery 为 Claude Desktop 自动安装 Doc Scraper:

npx -y @smithery/cli install @askjohngeorge/mcp-doc-scraper --client claude
  1. 克隆存储库:
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper
  1. 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate  # 在 Windows 上,使用:venv\Scripts\activate
  1. 安装依赖项:
pip install -e .

用法

可以使用 Python 运行服务器:

python -m mcp_doc_scraper

工具描述

服务器提供一个工具:

  • 名称: scrape_docs
  • 描述: 从 URL 抓取文档并保存为 markdown
  • 输入参数:
    • url: 要抓取的文档的 URL
    • output_path: 应该保存 markdown 文件的路径

项目结构

doc_scraper/
├── __init__.py
├── __main__.py
└── server.py

依赖项

  • aiohttp
  • mcp
  • pydantic

开发

要设置开发环境:

  1. 安装开发依赖项:
pip install -r requirements.txt
  1. 服务器使用模型上下文协议。请务必熟悉 MCP 文档

许可证

MIT 许可证

推荐服务器

Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

官方
精选
本地
TypeScript
Claude Code MCP

Claude Code MCP

一个实现了 Claude Code 作为模型上下文协议(Model Context Protocol, MCP)服务器的方案,它可以通过标准化的 MCP 接口来使用 Claude 的软件工程能力(代码生成、编辑、审查和文件操作)。

精选
本地
JavaScript
Apple MCP Server

Apple MCP Server

通过 MCP 协议与 Apple 应用(如“信息”、“备忘录”和“通讯录”)进行交互,从而使用自然语言发送消息、搜索和打开应用内容。

精选
本地
TypeScript
Excel MCP Server

Excel MCP Server

一个模型上下文协议服务器,使 AI 助手能够读取和写入 Microsoft Excel 文件,支持诸如 xlsx、xlsm、xltx 和 xltm 等格式。

精选
本地
Go
Playwright MCP Server

Playwright MCP Server

提供一个利用模型上下文协议的服务器,以实现类人浏览器的自动化,该服务器使用 Playwright,允许控制浏览器行为,例如导航、元素交互和滚动。

精选
本地
TypeScript
@kazuph/mcp-fetch

@kazuph/mcp-fetch

用于获取网页内容和处理图像的模型上下文协议服务器。这使得 Claude Desktop(或任何 MCP 客户端)能够适当地获取网页内容和处理图像。

精选
本地
JavaScript
serper-search-scrape-mcp-server

serper-search-scrape-mcp-server

这个 Serper MCP 服务器支持搜索和网页抓取,并且支持 Serper API 引入的所有最新参数,例如位置。

精选
TypeScript
The Verge News MCP Server

The Verge News MCP Server

提供从The Verge的RSS feed获取和搜索新闻的工具,允许用户获取今日新闻、检索过去一周的随机文章,以及在最近的Verge内容中搜索特定关键词。

精选
TypeScript
Tavily MCP Server

Tavily MCP Server

使用 Tavily 的搜索 API 提供 AI 驱动的网络搜索功能,使 LLM 能够执行复杂的网络搜索、获得问题的直接答案以及搜索最近的新闻文章。

精选
Python