
MS-Lucidia-Voice-Gateway-MCP
一个服务器,它使用 Windows 原生的语音服务提供文本转语音和语音转文本的功能,无需任何外部依赖。
README
MS-Lucidia-Voice-Gateway-MCP
一个模型上下文协议 (MCP) 服务器,它使用 Windows 内置的语音服务提供文本到语音和语音到文本的功能。此服务器通过 PowerShell 命令利用原生 Windows 语音 API (SAPI),无需外部 API 或服务。
特性
- 使用 Windows SAPI 声音的文本到语音 (TTS)
- 使用 Windows 语音识别的语音到文本 (STT)
- 用于测试的简单 Web 界面
- 无外部 API 依赖项
- 使用原生 Windows 功能
前提条件
- 启用语音识别的 Windows 10/11
- Node.js 16+
- PowerShell
安装
- 克隆存储库:
git clone https://github.com/ExpressionsBot/MS-Lucidia-Voice-Gateway-MCP.git
cd MS-Lucidia-Voice-Gateway-MCP
- 安装依赖项:
npm install
- 构建项目:
npm run build
用法
测试界面
- 启动测试服务器:
npm run test
- 在浏览器中打开
http://localhost:3000
- 使用 Web 界面测试 TTS 和 STT 功能
可用工具
text_to_speech
使用 Windows SAPI 将文本转换为语音。
参数:
text
(必需): 要转换为语音的文本voice
(可选): 要使用的声音 (例如, "Microsoft David Desktop")speed
(可选): 语速,从 0.5 到 2.0 (默认: 1.0)
示例:
fetch('http://localhost:3000/tts', {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({
text: "Hello, this is a test",
voice: "Microsoft David Desktop",
speed: 1.0
})
});
speech_to_text
录制音频并使用 Windows 语音识别将其转换为文本。
参数:
duration
(可选): 录制时长,以秒为单位 (默认: 5, 最大: 60)
示例:
fetch('http://localhost:3000/stt', {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({
duration: 5
})
}).then(response => response.json())
.then(data => console.log(data.text));
故障排除
-
确保已启用 Windows 语音识别:
- 打开 Windows 设置
- 转到时间和语言 > 语音
- 启用语音识别
-
检查可用的声音:
- 打开 PowerShell 并运行:
Add-Type -AssemblyName System.Speech (New-Object System.Speech.Synthesis.SpeechSynthesizer).GetInstalledVoices().VoiceInfo.Name
-
测试语音识别:
- 在 Windows 设置中打开语音识别
- 如果尚未完成,请运行设置向导
- 测试 Windows 是否可以识别您的声音
贡献
- Fork 存储库
- 创建您的功能分支
- 提交您的更改
- 推送到分支
- 创建一个新的 Pull Request
许可证
MIT
推荐服务器
mcp-server-youtube-transcript
一个模型上下文协议服务器,可以从 YouTube 视频中检索文本记录。该服务器通过一个简单的界面直接访问视频的字幕和副标题。
Zonos TTS MCP Server
使用 Claude 促进多种语言和情感的直接语音生成,并通过模型上下文协议与 Zonos TTS 设置集成。
Say MCP Server
在 macOS 上使用 `say` 命令启用文本转语音功能,从而可以广泛控制语音参数,例如声音、语速、音量和音调,以获得可定制的听觉体验。
mcp-hfspace
直接从 Claude 使用 HuggingFace Spaces。使用开源图像生成、聊天、视觉任务等。支持图像、音频和文本上传/下载。

Speech MCP
一个 Goose MCP 扩展程序,提供与现代音频可视化的语音交互功能,允许用户通过语音而非文本与 Goose 进行交流。
ClickSend MCP Server
这个服务器使 AI 模型能够通过 ClickSend 的 API 以编程方式发送短信和发起文本转语音呼叫,并内置了速率限制和输入验证。

Spotify MCP
一个 FastMCP 工具,它允许用户通过 Cursor Composer 中的自然语言命令来控制 Spotify,从而管理播放、搜索内容以及与播放列表互动。
ElevenLabs MCP Server
与 ElevenLabs 文本转语音 API 集成。
systemprompt-mcp-interview
一个专门的模型上下文协议(MCP)服务器,它支持人工智能驱动的面试角色扮演场景,以便进行练习并获得真实的对话反馈。
TranscriptionTools MCP Server
为 Claude 提供智能转录处理功能,具有自然格式、上下文修复和由深度思考 LLM 提供支持的智能摘要。