MCP 服务器

Whisper Speech Recognition MCP Server

一个基于 Faster Whisper 的高性能语音识别 MCP 服务器，提供高效的音频转录能力。

BigUncle

研究与数据

访问服务器

README

Whisper 语音识别 MCP 服务器

English Document

一个基于 Faster Whisper 的高性能语音识别 MCP 服务器，提供高效的音频转录能力。

特性

集成了 Faster Whisper 以实现高效的语音识别
批量处理加速，提高转录速度
自动 CUDA 加速（如果可用）
支持多种模型大小（tiny 到 large-v3）
输出格式包括 VTT 字幕、SRT 和 JSON
支持批量转录文件夹中的音频文件
模型实例缓存，避免重复加载
基于 GPU 内存的动态批量大小调整

安装

依赖

Python 3.10+
faster-whisper>=0.9.0
torch==2.6.0+cu126
torchaudio==2.6.0+cu126
mcp[cli]>=1.2.0

安装步骤

克隆或下载此存储库
创建并激活虚拟环境（推荐）
安装依赖：

pip install -r requirements.txt

PyTorch 安装指南

根据您的 CUDA 版本安装适当版本的 PyTorch：

CUDA 12.6:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126

CUDA 12.1:

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121

CPU 版本:

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cpu

您可以使用 nvcc --version 或 nvidia-smi 检查您的 CUDA 版本。

使用

启动服务器

在 Windows 上，只需运行 start_server.bat。

在其他平台上，运行：

python whisper_server.py

配置 Claude Desktop

打开 Claude Desktop 配置文件：
- Windows: %APPDATA%\Claude\claude_desktop_config.json
- macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
添加 Whisper 服务器配置：

{
  "mcpServers": {
    "whisper": {
      "command": "python",
      "args": ["D:/path/to/whisper_server.py"],
      "env": {}
    }
  }
}

重启 Claude Desktop

可用工具

服务器提供以下工具：

get_model_info - 获取有关可用 Whisper 模型的信息
transcribe - 转录单个音频文件
batch_transcribe - 批量转录文件夹中的音频文件

性能优化技巧

使用 CUDA 加速可显著提高转录速度
批量处理模式对于大量短音频文件更有效
批量大小会根据 GPU 内存大小自动调整
使用 VAD（语音活动检测）过滤可提高长音频的准确性
指定正确的语言可以提高转录质量

本地测试方法

使用 MCP Inspector 进行快速测试：

mcp dev whisper_server.py

使用 Claude Desktop 进行集成测试
使用命令行直接调用（需要 mcp[cli]）：

mcp run whisper_server.py

错误处理

服务器实现了以下错误处理机制：

音频文件存在性检查
模型加载失败处理
转录过程异常捕获
GPU 内存管理
批量处理参数自适应调整

项目结构

whisper_server.py: 主要服务器代码
model_manager.py: Whisper 模型加载和缓存
audio_processor.py: 音频文件验证和预处理
formatters.py: 输出格式化（VTT、SRT、JSON）
transcriber.py: 核心转录逻辑
start_server.bat: Windows 启动脚本

许可证

MIT

致谢

本项目是在以下优秀的 AI 工具和模型的帮助下开发的：

GitHub Copilot - AI 结对程序员
Trae - Agentic AI 编码助手
Cline - AI 驱动的终端
DeepSeek - 高级 AI 模型
Claude-3.7-Sonnet - Anthropic 的强大 AI 助手
Gemini-2.0-Flash - Google 的多模态 AI 模型
VS Code - 强大的代码编辑器
Whisper - OpenAI 的语音识别模型
Faster Whisper - 优化的 Whisper 实现

特别感谢这些令人难以置信的工具以及它们背后的团队。

推荐服务器

Crypto Price & Market Analysis MCP Server

一个模型上下文协议 (MCP) 服务器，它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器，利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面，提供实时价格数据、市场分析以及历史趋势数据。

精选

TypeScript