
Mozilla Readability Parser MCP Server
一个用 Python 实现的 MCP 服务器,用于提取网页内容,移除广告和非必要元素,并将其转换为干净的、针对 LLM 优化的 Markdown 格式。
README
MCP 服务器可读性解析器 (Python / FastMCP)
致谢/参考
本项目基于 emzimmer 的原始 server-moz-readability 实现。(有关原始 README 文档,请参阅 原始 README.md。)
此 Python 实现将原始概念调整为使用 FastMCP 作为基于 Python 的 MCP 运行。
Mozilla Readability Parser MCP 服务器
一个 模型上下文协议 (MCP) 服务器的 Python 实现,该服务器提取网页内容并将其转换为干净的、针对 LLM 优化的 Markdown。
目录
特性
- 移除广告、导航、页脚和其他非必要内容
- 将干净的 HTML 转换为格式良好的 Markdown
- 优雅地处理错误
- 针对 LLM 处理进行了优化
- 轻量级且快速
为什么不直接抓取?
与简单的抓取请求不同,此服务器:
- 仅使用 Readability 算法提取相关内容
- 消除广告、弹出窗口和导航菜单等噪音
- 通过删除不必要的 HTML/CSS 来减少 token 使用量
- 提供一致的 Markdown 格式,以实现更好的 LLM 处理
- 处理具有动态内容的复杂网页
安装
- 克隆存储库:
git clone https://github.com/jmh108/MCP-server-readability-python.git
cd MCP-server-readability-python
- 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate # 在 Windows 上使用:venv\Scripts\activate
- 安装依赖项:
pip install -r requirements.txt
快速开始
- 启动服务器:
fastmcp run server.py
- 示例请求:
curl -X POST http://localhost:8000/tools/extract_content \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'
工具参考
extract_content
抓取网页内容并将其转换为干净的 Markdown。
参数:
{
"url": {
"type": "string",
"description": "要解析的网站 URL",
"required": true
}
}
返回:
{
"content": "Markdown 内容..."
}
MCP 服务器配置
要配置 MCP 服务器,请将以下内容添加到您的 MCP 设置文件中:
{
"mcpServers": {
"readability": {
"command": "fastmcp",
"args": ["run", "server.py"],
"env": {}
}
}
}
然后可以使用 MCP 协议启动服务器,并通过 parse
工具访问。
依赖项
- readability-lxml - 内容提取
- html2text - HTML 到 Markdown 转换
- beautifulsoup4 - DOM 解析
- requests - HTTP 请求
许可证
MIT 许可证 - 有关详细信息,请参阅 LICENSE。
推荐服务器
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Kagi MCP Server
一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。
Exa MCP Server
模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。
Playwright MCP Server
提供一个利用模型上下文协议的服务器,以实现类人浏览器的自动化,该服务器使用 Playwright,允许控制浏览器行为,例如导航、元素交互和滚动。
@kazuph/mcp-fetch
用于获取网页内容和处理图像的模型上下文协议服务器。这使得 Claude Desktop(或任何 MCP 客户端)能够适当地获取网页内容和处理图像。
DuckDuckGo MCP Server
一个模型上下文协议 (MCP) 服务器,通过 DuckDuckGo 提供网页搜索功能,并具有内容获取和解析的附加功能。
YouTube Transcript MCP Server
这个服务器用于获取指定 YouTube 视频 URL 的字幕,从而可以与 Goose CLI 或 Goose Desktop 集成,进行字幕提取和处理。
serper-search-scrape-mcp-server
这个 Serper MCP 服务器支持搜索和网页抓取,并且支持 Serper API 引入的所有最新参数,例如位置信息。
The Verge News MCP Server
提供从The Verge的RSS feed获取和搜索新闻的工具,允许用户获取今日新闻、检索过去一周的随机文章,以及在最近的Verge内容中搜索特定关键词。
Crypto Price & Market Analysis MCP Server
一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。