MCP Server Readability Parser (Python / FastMCP)
镜子 (jìng zi)
MCP-Mirror
README
MCP 服务器可读性解析器 (Python / FastMCP)
致谢/参考
本项目基于 emzimmer 的原始 server-moz-readability 实现。(有关原始 README 文档,请参阅 原始 README.md。)
此 Python 实现将原始概念调整为使用 FastMCP 作为基于 Python 的 MCP 运行。
Mozilla Readability Parser MCP 服务器
一个 Python 实现的 模型上下文协议 (MCP) 服务器,用于提取网页内容并将其转换为干净的、针对 LLM 优化的 Markdown。
目录
特性
- 移除广告、导航、页脚和其他非必要内容
- 将干净的 HTML 转换为格式良好的 Markdown
- 优雅地处理错误
- 针对 LLM 处理进行了优化
- 轻量级且快速
为什么不直接抓取?
与简单的抓取请求不同,此服务器:
- 仅使用 Readability 算法提取相关内容
- 消除广告、弹出窗口和导航菜单等噪音
- 通过删除不必要的 HTML/CSS 来减少 token 使用量
- 提供一致的 Markdown 格式,以实现更好的 LLM 处理
- 处理具有动态内容的复杂网页
安装
- 克隆存储库:
git clone https://github.com/jmh108/MCP-server-readability-python.git
cd MCP-server-readability-python
- 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate # 在 Windows 上使用:venv\Scripts\activate
- 安装依赖项:
pip install -r requirements.txt
快速开始
- 启动服务器:
fastmcp run server.py
- 示例请求:
curl -X POST http://localhost:8000/tools/extract_content \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'
工具参考
extract_content
抓取网页内容并将其转换为干净的 Markdown。
参数:
{
"url": {
"type": "string",
"description": "要解析的网站 URL",
"required": true
}
}
返回:
{
"content": "Markdown 内容..."
}
MCP 服务器配置
要配置 MCP 服务器,请将以下内容添加到您的 MCP 配置文件中:
{
"mcpServers": {
"readability": {
"command": "fastmcp",
"args": ["run", "server.py"],
"env": {}
}
}
}
然后可以使用 MCP 协议启动服务器,并通过 parse
工具访问。
依赖项
- readability-lxml - 内容提取
- html2text - HTML 到 Markdown 转换
- beautifulsoup4 - DOM 解析
- requests - HTTP 请求
许可证
MIT 许可证 - 有关详细信息,请参阅 LICENSE。
推荐服务器
Crypto Price & Market Analysis MCP Server
一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。
MCP PubMed Search
用于搜索 PubMed 的服务器(PubMed 是一个免费的在线数据库,用户可以在其中搜索生物医学和生命科学文献)。 我是在 MCP 发布当天创建的,但当时正在度假。 我看到有人在您的数据库中发布了类似的服务器,但还是决定发布我的服务器。
mixpanel
连接到您的 Mixpanel 数据。 从 Mixpanel 分析查询事件、留存和漏斗数据。

Sequential Thinking MCP Server
这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

Nefino MCP Server
为大型语言模型提供访问德国可再生能源项目新闻和信息的能力,允许按地点、主题(太阳能、风能、氢能)和日期范围进行筛选。
Vectorize
将 MCP 服务器向量化以实现高级检索、私有深度研究、Anything-to-Markdown 文件提取和文本分块。
Mathematica Documentation MCP server
一个服务器,通过 FastMCP 提供对 Mathematica 文档的访问,使用户能够从 Wolfram Mathematica 检索函数文档和列出软件包符号。
kb-mcp-server
一个 MCP 服务器,旨在实现便携性、本地化、简易性和便利性,以支持对 txtai “all in one” 嵌入数据库进行基于语义/图的检索。任何 tar.gz 格式的 txtai 嵌入数据库都可以被加载。
Research MCP Server
这个服务器用作 MCP 服务器,与 Notion 交互以检索和创建调查数据,并与 Claude Desktop Client 集成以进行和审查调查。

Cryo MCP Server
一个API服务器,实现了模型补全协议(MCP),用于Cryo区块链数据提取,允许用户通过任何兼容MCP的客户端查询以太坊区块链数据。