Doc Scraper MCP Server

Doc Scraper MCP Server

使用 jina.ai 的转换服务将基于网络的文档转换为 Markdown 格式,允许用户从任何 URL 抓取文档并将其保存为 Markdown 文件。

浏览器自动化
本地
Python
访问服务器

README

Doc Scraper MCP 服务器

smithery badge

一个提供文档抓取功能的模型上下文协议 (MCP) 服务器。该服务器使用 jina.ai 的转换服务将基于 Web 的文档转换为 markdown 格式。

功能

  • 从任何 Web URL 抓取文档
  • 将 HTML 文档转换为 markdown 格式
  • 将转换后的文档保存到指定的输出路径
  • 与模型上下文协议 (MCP) 集成

安装

通过 Smithery 安装

要通过 Smithery 为 Claude Desktop 自动安装 Doc Scraper:

npx -y @smithery/cli install @askjohngeorge/mcp-doc-scraper --client claude
  1. 克隆存储库:
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper
  1. 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate  # 在 Windows 上,使用:venv\Scripts\activate
  1. 安装依赖项:
pip install -e .

用法

可以使用 Python 运行服务器:

python -m mcp_doc_scraper

工具描述

服务器提供一个工具:

  • 名称: scrape_docs
  • 描述: 从 URL 抓取文档并保存为 markdown
  • 输入参数:
    • url: 要抓取的文档的 URL
    • output_path: 应该保存 markdown 文件的路径

项目结构

doc_scraper/
├── __init__.py
├── __main__.py
└── server.py

依赖项

  • aiohttp
  • mcp
  • pydantic

开发

要设置开发环境:

  1. 安装开发依赖项:
pip install -r requirements.txt
  1. 该服务器使用模型上下文协议。请务必熟悉 MCP 文档

许可证

MIT 许可证

推荐服务器

Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

官方
精选
本地
TypeScript
Excel MCP Server

Excel MCP Server

一个模型上下文协议服务器,使 AI 助手能够读取和写入 Microsoft Excel 文件,支持诸如 xlsx、xlsm、xltx 和 xltm 等格式。

精选
本地
Go
Playwright MCP Server

Playwright MCP Server

提供一个利用模型上下文协议的服务器,以实现类人浏览器的自动化,该服务器使用 Playwright,允许控制浏览器行为,例如导航、元素交互和滚动。

精选
本地
TypeScript
@kazuph/mcp-fetch

@kazuph/mcp-fetch

用于获取网页内容和处理图像的模型上下文协议服务器。这使得 Claude Desktop(或任何 MCP 客户端)能够适当地获取网页内容和处理图像。

精选
本地
JavaScript
Claude Code MCP

Claude Code MCP

一个实现了 Claude Code 作为模型上下文协议(Model Context Protocol, MCP)服务器的方案,它可以通过标准化的 MCP 接口来使用 Claude 的软件工程能力(代码生成、编辑、审查和文件操作)。

精选
本地
JavaScript
Apple MCP Server

Apple MCP Server

通过 MCP 协议与 Apple 应用(如“信息”、“备忘录”和“通讯录”)进行交互,从而使用自然语言发送消息、搜索和打开应用内容。

精选
本地
TypeScript
DuckDuckGo MCP Server

DuckDuckGo MCP Server

一个模型上下文协议 (MCP) 服务器,通过 DuckDuckGo 提供网页搜索功能,并具有内容获取和解析的附加功能。

精选
Python
YouTube Transcript MCP Server

YouTube Transcript MCP Server

这个服务器用于获取指定 YouTube 视频 URL 的字幕,从而可以与 Goose CLI 或 Goose Desktop 集成,进行字幕提取和处理。

精选
Python
serper-search-scrape-mcp-server

serper-search-scrape-mcp-server

这个 Serper MCP 服务器支持搜索和网页抓取,并且支持 Serper API 引入的所有最新参数,例如位置信息。

精选
TypeScript