MCP 服务器

MCP Waifu Queue

一个 MCP 服务器，它使用文本生成服务实现了一个对话式 AI “老婆” 角色，并采用 Redis 队列和 GPU 加速。 (Alternatively, a slightly more literal translation:) 一个 MCP 服务器，它实现了一个会话式 AI “老婆” 角色，该角色使用文本生成服务，并结合了 Redis 队列和 GPU 加速。

README

MCP Waifu 队列

本项目实现了一个用于对话式 AI “waifu” 角色的 MCP (模型上下文协议) 服务器，利用带有 Redis 队列和 GPU 加速的文本生成服务。它使用 FastMCP 库来简化服务器设置和管理。

特性

使用 distilgpt2 语言模型进行文本生成。
使用 Redis 进行请求排队，以处理并发请求。
GPU 支持，实现更快的推理。
使用 FastMCP 的 MCP 兼容 API。
作业状态跟踪。

架构

该项目由几个关键组件组成：

main.py: 主入口点，初始化 FastMCP 应用程序。
respond.py: 核心文本生成服务，加载 distilgpt2 模型并生成响应。
queue.py: 处理与 Redis 队列的交互，将请求入队并管理作业 ID。
worker.py: 一个 Redis 工作进程，从队列中处理作业，利用 respond.py 进行文本生成。
config.py: 通过环境变量管理配置。
models.py: 定义用于请求和响应验证的 Pydantic 模型。

请求的流程如下：

客户端向 generate_text MCP 工具（在 main.py 中定义）发送请求。
该工具将请求排队到 Redis 队列（由 queue.py 处理）。
worker.py 进程从队列中获取请求。
工作进程调用 call_predict_response 函数（在 utils.py 中），该函数与 respond.py 交互以生成文本。
生成的文本被存储，并且作业状态被更新。
客户端可以使用 get_job_status 资源（在 main.py 中定义）检索结果。

前提条件

Python 3.7+
pip
Redis 服务器（已安装并运行）
支持 CUDA 的 GPU（可选，但建议使用以获得更好的性能）

您可以在官方 Redis 网站上找到有关在您的系统上安装 Redis 的说明：https://redis.io/docs/getting-started/

安装

克隆存储库：

git clone <YOUR_REPOSITORY_URL>
cd mcp-waifu-queue

创建并激活虚拟环境：

python3 -m venv venv
source venv/bin/activate  # 在 Linux/macOS 上
venv\Scripts\activate  # 在 Windows 上

安装依赖项：

 pip install --user -r requirements.txt #如果 requirements.txt 存在

或者，如果使用 pyproject.toml

pip install --user -e .

配置

将 .env.example 文件复制到 .env：
```
cp .env.example .env
```
修改 .env 文件，为您的环境设置适当的值。以下环境变量可用：
- MODEL_PATH: 预训练语言模型的路径（默认值：distilgpt2）。
- GPU_SERVICE_URL: GPU 服务的 URL（默认值：http://localhost:5001）。这由 worker 内部使用。
- REDIS_URL: Redis 服务器的 URL（默认值：redis://localhost:6379）。
- QUEUE_PORT: 队列服务的端口（默认值：5000）。由于我们正在使用 MCP，因此不再直接用于外部访问。
- RESPOND_PORT: 响应服务的端口（默认值：5001）。这由 worker 内部使用。
- MAX_NEW_TOKENS: 要生成的最大新 token 数（默认值：20）。
注意： 出于安全原因，不应将 .env 文件提交到存储库。