MS-Lucidia-Voice-Gateway-MCP

MS-Lucidia-Voice-Gateway-MCP

一个服务器,它使用 Windows 原生的语音服务提供文本转语音和语音转文本的功能,无需任何外部依赖。

语音处理
访问服务器

README

MS-Lucidia-Voice-Gateway-MCP

一个模型上下文协议 (MCP) 服务器,它使用 Windows 内置的语音服务提供文本到语音和语音到文本的功能。此服务器通过 PowerShell 命令利用原生 Windows 语音 API (SAPI),无需外部 API 或服务。

特性

  • 使用 Windows SAPI 声音的文本到语音 (TTS)
  • 使用 Windows 语音识别的语音到文本 (STT)
  • 用于测试的简单 Web 界面
  • 无外部 API 依赖项
  • 使用原生 Windows 功能

前提条件

  • 启用语音识别的 Windows 10/11
  • Node.js 16+
  • PowerShell

安装

  1. 克隆存储库:
git clone https://github.com/ExpressionsBot/MS-Lucidia-Voice-Gateway-MCP.git
cd MS-Lucidia-Voice-Gateway-MCP
  1. 安装依赖项:
npm install
  1. 构建项目:
npm run build

用法

测试界面

  1. 启动测试服务器:
npm run test
  1. 在浏览器中打开 http://localhost:3000
  2. 使用 Web 界面测试 TTS 和 STT 功能

可用工具

text_to_speech

使用 Windows SAPI 将文本转换为语音。

参数:

  • text (必需): 要转换为语音的文本
  • voice (可选): 要使用的声音 (例如, "Microsoft David Desktop")
  • speed (可选): 语速,从 0.5 到 2.0 (默认: 1.0)

示例:

fetch('http://localhost:3000/tts', {
  method: 'POST',
  headers: { 'Content-Type': 'application/json' },
  body: JSON.stringify({
    text: "Hello, this is a test",
    voice: "Microsoft David Desktop",
    speed: 1.0
  })
});

speech_to_text

录制音频并使用 Windows 语音识别将其转换为文本。

参数:

  • duration (可选): 录制时长,以秒为单位 (默认: 5, 最大: 60)

示例:

fetch('http://localhost:3000/stt', {
  method: 'POST',
  headers: { 'Content-Type': 'application/json' },
  body: JSON.stringify({
    duration: 5
  })
}).then(response => response.json())
  .then(data => console.log(data.text));

故障排除

  1. 确保已启用 Windows 语音识别:

    • 打开 Windows 设置
    • 转到时间和语言 > 语音
    • 启用语音识别
  2. 检查可用的声音:

    • 打开 PowerShell 并运行:
    Add-Type -AssemblyName System.Speech
    (New-Object System.Speech.Synthesis.SpeechSynthesizer).GetInstalledVoices().VoiceInfo.Name
    
  3. 测试语音识别:

    • 在 Windows 设置中打开语音识别
    • 如果尚未完成,请运行设置向导
    • 测试 Windows 是否可以识别您的声音

贡献

  1. Fork 存储库
  2. 创建您的功能分支
  3. 提交您的更改
  4. 推送到分支
  5. 创建一个新的 Pull Request

许可证

MIT

推荐服务器

mcp-server-youtube-transcript

mcp-server-youtube-transcript

一个模型上下文协议服务器,可以从 YouTube 视频中检索文本记录。该服务器通过一个简单的界面直接访问视频的字幕和副标题。

精选
JavaScript
Zonos TTS MCP Server

Zonos TTS MCP Server

使用 Claude 促进多种语言和情感的直接语音生成,并通过模型上下文协议与 Zonos TTS 设置集成。

本地
TypeScript
Say MCP Server

Say MCP Server

在 macOS 上使用 `say` 命令启用文本转语音功能,从而可以广泛控制语音参数,例如声音、语速、音量和音调,以获得可定制的听觉体验。

本地
JavaScript
mcp-hfspace

mcp-hfspace

直接从 Claude 使用 HuggingFace Spaces。使用开源图像生成、聊天、视觉任务等。支持图像、音频和文本上传/下载。

本地
TypeScript
Speech MCP

Speech MCP

一个 Goose MCP 扩展程序,提供与现代音频可视化的语音交互功能,允许用户通过语音而非文本与 Goose 进行交流。

本地
Python
ClickSend MCP Server

ClickSend MCP Server

这个服务器使 AI 模型能够通过 ClickSend 的 API 以编程方式发送短信和发起文本转语音呼叫,并内置了速率限制和输入验证。

JavaScript
Spotify MCP

Spotify MCP

一个 FastMCP 工具,它允许用户通过 Cursor Composer 中的自然语言命令来控制 Spotify,从而管理播放、搜索内容以及与播放列表互动。

Python
ElevenLabs MCP Server

ElevenLabs MCP Server

与 ElevenLabs 文本转语音 API 集成。

Python
systemprompt-mcp-interview

systemprompt-mcp-interview

一个专门的模型上下文协议(MCP)服务器,它支持人工智能驱动的面试角色扮演场景,以便进行练习并获得真实的对话反馈。

TypeScript
TranscriptionTools MCP Server

TranscriptionTools MCP Server

为 Claude 提供智能转录处理功能,具有自然格式、上下文修复和由深度思考 LLM 提供支持的智能摘要。

TypeScript