MCP Server Dataset Builder

MCP Server Dataset Builder

wanghaisheng

开发者工具
访问服务器

README

MCP服务器数据集构建器

一个用于构建和维护模型上下文协议 (MCP) 服务器数据集的综合工具。此工具自动从多个来源收集、分类和更新有关 MCP 服务器的信息。

概述

MCP服务器数据集构建器旨在:

  1. awesome-mcp-servers 仓库中提取 MCP 服务器信息
  2. 在 GitHub 上搜索其他 MCP 服务器仓库
  3. 合并并去重来自两个来源的数据
  4. 生成一个每日 CSV 文件,其中包含每个服务器的全面信息

特性

  • 双重数据源: 结合来自精选列表和 GitHub 搜索的数据
  • 自动分类: 根据仓库内容分配类别
  • 技术栈检测: 识别编程语言和框架
  • 表情符号标记: 添加视觉指示器以便快速识别
  • 每日更新: 自动运行以保持数据集最新
  • 数据持久性: 在添加新条目的同时维护历史数据

数据集结构

生成的 CSV 文件包含以下字段:

字段 描述
name 仓库名称
description 仓库描述
html_url 仓库的 URL
stars GitHub 星星数
forks GitHub Fork 数
keywords 逗号分隔的关键字列表
category 主要类别(例如,框架、实用程序、客户端)
techstack 逗号分隔的使用技术列表
emojis 用于快速识别的视觉指示器

用法

自动每日更新

数据集通过 GitHub Actions 自动每日更新。无需手动干预。

手动触发

您可以从 GitHub Actions 选项卡手动触发工作流程:

  1. 转到仓库中的“Actions”选项卡
  2. 选择“Unified MCP Servers Extraction”
  3. 点击“Run workflow”
  4. 可选的自定义:
    • GitHub 搜索的关键字
    • 最小星星数和 Fork 数阈值
    • 要运行的提取方法

本地开发

要在本地运行脚本:

# 安装依赖
pip install -r requirements.txt

# 运行 README 提取
python extract_mcp_servers.py

# 运行 GitHub 搜索
python daily.py

环境变量

可以使用以下环境变量来自定义行为:

变量 描述 默认值
GITHUB_TOKEN 用于身份验证的 GitHub API 令牌 -
KEYWORDS_ENV 逗号分隔的搜索关键字列表 与 MCP 相关的关键字
MIN_STARS 仓库的最小星星数 10
MIN_FORKS 仓库的最小 Fork 数 5

数据源

1. Awesome MCP Servers 仓库

该工具从 awesome-mcp-servers 仓库中提取数据,该仓库包含按类别组织的 MCP 服务器的精选列表。

2. GitHub 搜索

该工具在 GitHub 上搜索与 MCP 相关的关键字匹配的仓库,以确保全面覆盖生态系统。

分类系统

仓库根据其内容和用途进行分类:

  • Framework: 核心 MCP 服务器实现
  • Utility: 辅助工具和实用程序
  • Client: 客户端库和应用程序
  • Tutorial: 学习资源和示例
  • Database: 数据库集成
  • API: API 实现
  • Storage: 存储解决方案
  • AI: AI 和 LLM 集成
  • Chat: 聊天和消息传递功能
  • Search: 搜索功能

技术栈检测

该工具识别以下技术:

  • Languages: Python, TypeScript, Go, Rust, Java, C#
  • Frameworks: FastAPI, Langchain, Spring
  • Protocols: SSE, WebSocket, HTTP
  • Deployment: Cloud, Local, Docker
  • Platforms: iOS, Windows, Linux

贡献

欢迎贡献!请随时提交 Pull Request。

许可证

该项目根据 MIT 许可证获得许可 - 有关详细信息,请参阅 LICENSE 文件。

推荐服务器

Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
MCP Package Docs Server

MCP Package Docs Server

促进大型语言模型高效访问和获取 Go、Python 和 NPM 包的结构化文档,通过多语言支持和性能优化来增强软件开发。

精选
本地
TypeScript
Claude Code MCP

Claude Code MCP

一个实现了 Claude Code 作为模型上下文协议(Model Context Protocol, MCP)服务器的方案,它可以通过标准化的 MCP 接口来使用 Claude 的软件工程能力(代码生成、编辑、审查和文件操作)。

精选
本地
JavaScript
@kazuph/mcp-taskmanager

@kazuph/mcp-taskmanager

用于任务管理的模型上下文协议服务器。它允许 Claude Desktop(或任何 MCP 客户端)在基于队列的系统中管理和执行任务。

精选
本地
JavaScript
mermaid-mcp-server

mermaid-mcp-server

一个模型上下文协议 (MCP) 服务器,用于将 Mermaid 图表转换为 PNG 图像。

精选
JavaScript
Jira-Context-MCP

Jira-Context-MCP

MCP 服务器向 AI 编码助手(如 Cursor)提供 Jira 工单信息。

精选
TypeScript
Linear MCP Server

Linear MCP Server

一个模型上下文协议(Model Context Protocol)服务器,它与 Linear 的问题跟踪系统集成,允许大型语言模型(LLM)通过自然语言交互来创建、更新、搜索和评论 Linear 问题。

精选
JavaScript
Sequential Thinking MCP Server

Sequential Thinking MCP Server

这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

精选
Python
Curri MCP Server

Curri MCP Server

通过管理文本笔记、提供笔记创建工具以及使用结构化提示生成摘要,从而实现与 Curri API 的交互。

官方
本地
JavaScript