MCP 服务器

Zonos TTS MCP Server

使用 Claude 促进多种语言和情感的直接语音生成，并通过模型上下文协议与 Zonos TTS 设置集成。

语音处理

访问服务器

Tools

speak_response

README

Zonos MCP 集成

一个用于 Zonos TTS 的模型上下文协议集成，允许 Claude 直接生成语音。

设置

通过 Smithery 安装

要通过 Smithery 自动安装用于 Claude Desktop 的 Zonos TTS 集成：

npx -y @smithery/cli install @PhialsBasement/zonos-tts-mcp --client claude

手动安装

确保您已运行带有我们 API 实现的 Zonos (PhialsBasement/zonos-api)
安装依赖项：

npm install @modelcontextprotocol/sdk axios

配置 PulseAudio 访问：

# 您的 pulse audio 应该正确配置以进行音频播放
# MCP 服务器将自动尝试连接到您的 pulse 服务器

构建 MCP 服务器：

npm run build
# 这将创建包含已编译服务器的 dist 文件夹

添加到 Claude 的配置文件：编辑您的 Claude 配置文件（通常位于 ~/.config/claude/config.json 中），并将以下内容添加到 mcpServers 部分：

"zonos-tts": {
  "command": "node",
  "args": [
    "/path/to/your/zonos-mcp/dist/server.js"
  ]
}

将 /path/to/your/zonos-mcp 替换为您安装 MCP 服务器的实际路径。

与 Claude 一起使用

配置完成后，Claude 会自动知道如何使用 speak_response 工具：

speak_response(
    text="您的文本内容",
    language="en-us",  # 可选，默认为 en-us
    emotion="happy"    # 可选："neutral"（中性）, "happy"（高兴）, "sad"（悲伤）, "angry"（生气）
)

功能

通过 Claude 进行文本到语音的转换
支持多种情绪
支持多语言
通过 PulseAudio 进行正确的音频播放

要求

Node.js
PulseAudio 设置
正在运行的 Zonos API 实例 (PhialsBasement/zonos-api)
正常工作的音频输出设备

注意事项

确保 Zonos API 服务器和此 MCP 服务器都在运行
音频播放需要正确的 PulseAudio 配置

推荐服务器

mcp-server-youtube-transcript

一个模型上下文协议服务器，可以从 YouTube 视频中检索文本记录。该服务器通过一个简单的界面直接访问视频的字幕和副标题。

MS-Lucidia-Voice-Gateway-MCP

一个服务器，它使用 Windows 原生的语音服务提供文本转语音和语音转文本的功能，无需任何外部依赖。

Say MCP Server

在 macOS 上使用 `say` 命令启用文本转语音功能，从而可以广泛控制语音参数，例如声音、语速、音量和音调，以获得可定制的听觉体验。

mcp-hfspace

直接从 Claude 使用 HuggingFace Spaces。使用开源图像生成、聊天、视觉任务等。支持图像、音频和文本上传/下载。

Speech MCP

一个 Goose MCP 扩展程序，提供与现代音频可视化的语音交互功能，允许用户通过语音而非文本与 Goose 进行交流。

ClickSend MCP Server

这个服务器使 AI 模型能够通过 ClickSend 的 API 以编程方式发送短信和发起文本转语音呼叫，并内置了速率限制和输入验证。

Spotify MCP

一个 FastMCP 工具，它允许用户通过 Cursor Composer 中的自然语言命令来控制 Spotify，从而管理播放、搜索内容以及与播放列表互动。

ElevenLabs MCP Server

与 ElevenLabs 文本转语音 API 集成。

systemprompt-mcp-interview

一个专门的模型上下文协议（MCP）服务器，它支持人工智能驱动的面试角色扮演场景，以便进行练习并获得真实的对话反馈。

TranscriptionTools MCP Server

为 Claude 提供智能转录处理功能，具有自然格式、上下文修复和由深度思考 LLM 提供支持的智能摘要。