MCP 服务器

MS-Lucidia-Voice-Gateway-MCP

一个服务器，它使用 Windows 原生的语音服务提供文本转语音和语音转文本的功能，无需任何外部依赖。

语音处理

访问服务器

README

MS-Lucidia-Voice-Gateway-MCP

一个模型上下文协议 (MCP) 服务器，它使用 Windows 内置的语音服务提供文本到语音和语音到文本的功能。此服务器通过 PowerShell 命令利用原生 Windows 语音 API (SAPI)，无需外部 API 或服务。

特性

使用 Windows SAPI 声音的文本到语音 (TTS)
使用 Windows 语音识别的语音到文本 (STT)
用于测试的简单 Web 界面
无外部 API 依赖项
使用原生 Windows 功能

前提条件

启用语音识别的 Windows 10/11
Node.js 16+
PowerShell

安装

克隆存储库：

git clone https://github.com/ExpressionsBot/MS-Lucidia-Voice-Gateway-MCP.git
cd MS-Lucidia-Voice-Gateway-MCP

安装依赖项：

npm install

构建项目：

npm run build

用法

测试界面

启动测试服务器：

npm run test

在浏览器中打开 http://localhost:3000
使用 Web 界面测试 TTS 和 STT 功能

可用工具

text_to_speech

使用 Windows SAPI 将文本转换为语音。

参数：

text (必需): 要转换为语音的文本
voice (可选): 要使用的声音 (例如, "Microsoft David Desktop")
speed (可选): 语速，从 0.5 到 2.0 (默认: 1.0)

示例：

fetch('http://localhost:3000/tts', {
  method: 'POST',
  headers: { 'Content-Type': 'application/json' },
  body: JSON.stringify({
    text: "Hello, this is a test",
    voice: "Microsoft David Desktop",
    speed: 1.0
  })
});

speech_to_text

录制音频并使用 Windows 语音识别将其转换为文本。

参数：

duration (可选): 录制时长，以秒为单位 (默认: 5, 最大: 60)

示例：

fetch('http://localhost:3000/stt', {
  method: 'POST',
  headers: { 'Content-Type': 'application/json' },
  body: JSON.stringify({
    duration: 5
  })
}).then(response => response.json())
  .then(data => console.log(data.text));

故障排除

确保已启用 Windows 语音识别：
- 打开 Windows 设置
- 转到时间和语言 > 语音
- 启用语音识别

检查可用的声音：

打开 PowerShell 并运行：

Add-Type -AssemblyName System.Speech
(New-Object System.Speech.Synthesis.SpeechSynthesizer).GetInstalledVoices().VoiceInfo.Name

测试语音识别：
- 在 Windows 设置中打开语音识别
- 如果尚未完成，请运行设置向导
- 测试 Windows 是否可以识别您的声音

贡献

Fork 存储库
创建您的功能分支
提交您的更改
推送到分支
创建一个新的 Pull Request

许可证

MIT

推荐服务器

mcp-server-youtube-transcript

一个模型上下文协议服务器，可以从 YouTube 视频中检索文本记录。该服务器通过一个简单的界面直接访问视频的字幕和副标题。

精选

JavaScript

Zonos TTS MCP Server

使用 Claude 促进多种语言和情感的直接语音生成，并通过模型上下文协议与 Zonos TTS 设置集成。

本地

TypeScript

Say MCP Server

在 macOS 上使用 `say` 命令启用文本转语音功能，从而可以广泛控制语音参数，例如声音、语速、音量和音调，以获得可定制的听觉体验。

本地

JavaScript

mcp-hfspace

直接从 Claude 使用 HuggingFace Spaces。使用开源图像生成、聊天、视觉任务等。支持图像、音频和文本上传/下载。

本地

TypeScript

Speech MCP

一个 Goose MCP 扩展程序，提供与现代音频可视化的语音交互功能，允许用户通过语音而非文本与 Goose 进行交流。

本地

Python

ClickSend MCP Server

这个服务器使 AI 模型能够通过 ClickSend 的 API 以编程方式发送短信和发起文本转语音呼叫，并内置了速率限制和输入验证。

JavaScript

Spotify MCP

一个 FastMCP 工具，它允许用户通过 Cursor Composer 中的自然语言命令来控制 Spotify，从而管理播放、搜索内容以及与播放列表互动。

Python

ElevenLabs MCP Server

与 ElevenLabs 文本转语音 API 集成。

Python

systemprompt-mcp-interview

一个专门的模型上下文协议（MCP）服务器，它支持人工智能驱动的面试角色扮演场景，以便进行练习并获得真实的对话反馈。

TypeScript

TranscriptionTools MCP Server

为 Claude 提供智能转录处理功能，具有自然格式、上下文修复和由深度思考 LLM 提供支持的智能摘要。

TypeScript