MCP URL Fetcher

MCP URL Fetcher

一个模型上下文协议服务器,它使大型语言模型能够获取和处理多种格式(HTML、JSON、Markdown、文本)的网络内容,并具有自动格式检测功能。

Category
访问服务器

README

MCP URL 格式转换器

一个模型上下文协议 (MCP) 服务器,可以从任何 URL 获取内容并将其转换为您所需的输出格式。

概述

MCP URL 格式转换器提供工具,用于从任何 Web URL 检索内容,并将其转换为各种格式(HTML、JSON、Markdown 或纯文本),无论原始内容类型如何。它旨在与任何 MCP 兼容的客户端(包括 Claude for Desktop)一起使用,使 LLM 能够以一致的格式访问、转换和分析 Web 内容。

特性

  • 🔄 格式转换: 将任何 Web 内容转换为 HTML、JSON、Markdown 或纯文本
  • 🌐 通用输入支持: 处理网站、API、原始文件等
  • 🔍 自动内容检测: 智能识别源格式
  • 🧰 强大的库支持: 使用行业标准库:
    • Cheerio 用于 HTML 解析
    • Marked 用于 Markdown 处理
    • Fast-XML-Parser 用于 XML 处理
    • CSVtoJSON 用于 CSV 转换
    • SanitizeHTML 用于安全
    • Turndown 用于 HTML 到 Markdown 的转换
  • 🔧 高级格式处理:
    • 带有元数据提取的 HTML 解析
    • JSON 漂亮打印和结构保留
    • 带有样式的 Markdown 渲染
    • CSV 到表格的转换
    • XML 到 JSON 的转换
  • 📜 历史记录跟踪: 维护最近获取的 URL 的日志
  • 🛡️ 安全重点: 内容清理以防止 XSS 攻击

安装

前提条件

  • Node.js 16.x 或更高版本
  • npm 或 yarn

快速开始

  1. 克隆存储库:

    git clone https://github.com/yourusername/mcp-url-converter.git
    cd mcp-url-converter
    
  2. 安装依赖项:

    npm install
    
  3. 构建项目:

    npm run build
    
  4. 运行服务器:

    npm start
    

与 Claude for Desktop 集成

  1. 打开您的 Claude for Desktop 配置文件:

    • macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
    • Windows: %APPDATA%\Claude\claude_desktop_config.json
  2. 将 URL 转换器服务器添加到您的配置:

    {
      "mcpServers": {
        "url-converter": {
          "command": "node",
          "args": ["/absolute/path/to/mcp-url-converter/build/index.js"]
        }
      }
    }
    
  3. 重启 Claude for Desktop

可用工具

fetch

从任何 URL 获取内容并自动检测最佳输出格式。

参数:

  • url (字符串,必需): 要从中获取内容的 URL
  • format (字符串,可选): 要转换成的格式 (auto, html, json, markdown, text)。默认值:auto

示例:

你能获取 https://example.com 并选择最佳格式来显示它吗?

fetch-json

从任何 URL 获取内容并将其转换为 JSON 格式。

参数:

  • url (字符串,必需): 要从中获取内容的 URL
  • prettyPrint (布尔值,可选): 是否漂亮打印 JSON。默认值:true

示例:

你能获取 https://example.com 并将其转换为 JSON 格式吗?

fetch-html

从任何 URL 获取内容并将其转换为 HTML 格式。

参数:

  • url (字符串,必需): 要从中获取内容的 URL
  • extractText (布尔值,可选): 是否仅提取文本内容。默认值:false

示例:

你能获取 https://api.example.com/users 并将其转换为 HTML 吗?

fetch-markdown

从任何 URL 获取内容并将其转换为 Markdown 格式。

参数:

  • url (字符串,必需): 要从中获取内容的 URL

示例:

你能获取 https://example.com 并将其转换为 Markdown 吗?

fetch-text

从任何 URL 获取内容并将其转换为纯文本格式。

参数:

  • url (字符串,必需): 要从中获取内容的 URL

示例:

你能获取 https://example.com 并将其转换为纯文本吗?

web-searchdeep-research

这些工具提供对 Perplexity 搜索功能的接口(当 MCP 主机支持时)。

可用资源

recent-urls://list

返回最近获取的 URL 列表,其中包含时间戳和输出格式。

示例:

我最近获取了哪些 URL?

安全

此服务器实施了多项安全措施:

  • 使用 sanitize-html 进行 HTML 清理,以防止 XSS 攻击
  • 处理前的内容验证
  • 错误处理和安全默认值
  • 使用 Zod 进行输入参数验证
  • 安全的输出编码

测试

您可以使用 MCP Inspector 测试服务器:

npm run test

故障排除

常见问题

  1. 连接错误: 验证 URL 是否可访问且格式正确
  2. 转换错误: 某些复杂内容可能无法在格式之间干净地转换
  3. 跨域问题: 某些网站可能会阻止来自未知来源的请求

调试模式

要获取其他调试信息,请设置 DEBUG 环境变量:

DEBUG=mcp:* npm start

许可证

此项目根据 MIT 许可证获得许可 - 有关详细信息,请参阅 LICENSE 文件。

致谢

  • 使用 模型上下文协议 构建
  • 使用具有安全重点的现代、积极维护的库
  • 基于 OWASP 建议的清理方法

上次更新:2025 年 3 月 29 日

推荐服务器

Baidu Map

Baidu Map

百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。

官方
精选
JavaScript
Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

官方
精选
本地
TypeScript
VeyraX

VeyraX

一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。

官方
精选
本地
graphlit-mcp-server

graphlit-mcp-server

模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。

官方
精选
TypeScript
Kagi MCP Server

Kagi MCP Server

一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

官方
精选
Python
e2b-mcp-server

e2b-mcp-server

使用 MCP 通过 e2b 运行代码。

官方
精选
Neon MCP Server

Neon MCP Server

用于与 Neon 管理 API 和数据库交互的 MCP 服务器

官方
精选
Exa MCP Server

Exa MCP Server

模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。

官方
精选