Whisper Speech Recognition MCP Server
一个基于 Faster Whisper 的高性能语音识别 MCP 服务器,提供高效的音频转录能力。
BigUncle
README
Whisper 语音识别 MCP 服务器
English Document
一个基于 Faster Whisper 的高性能语音识别 MCP 服务器,提供高效的音频转录能力。
特性
- 集成了 Faster Whisper 以实现高效的语音识别
- 批量处理加速,提高转录速度
- 自动 CUDA 加速(如果可用)
- 支持多种模型大小(tiny 到 large-v3)
- 输出格式包括 VTT 字幕、SRT 和 JSON
- 支持批量转录文件夹中的音频文件
- 模型实例缓存,避免重复加载
- 基于 GPU 内存的动态批量大小调整
安装
依赖
- Python 3.10+
- faster-whisper>=0.9.0
- torch==2.6.0+cu126
- torchaudio==2.6.0+cu126
- mcp[cli]>=1.2.0
安装步骤
- 克隆或下载此存储库
- 创建并激活虚拟环境(推荐)
- 安装依赖:
pip install -r requirements.txt
PyTorch 安装指南
根据您的 CUDA 版本安装适当版本的 PyTorch:
-
CUDA 12.6:
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126
-
CUDA 12.1:
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121
-
CPU 版本:
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cpu
您可以使用 nvcc --version
或 nvidia-smi
检查您的 CUDA 版本。
使用
启动服务器
在 Windows 上,只需运行 start_server.bat
。
在其他平台上,运行:
python whisper_server.py
配置 Claude Desktop
-
打开 Claude Desktop 配置文件:
- Windows:
%APPDATA%\Claude\claude_desktop_config.json
- macOS:
~/Library/Application Support/Claude/claude_desktop_config.json
- Windows:
-
添加 Whisper 服务器配置:
{
"mcpServers": {
"whisper": {
"command": "python",
"args": ["D:/path/to/whisper_server.py"],
"env": {}
}
}
}
- 重启 Claude Desktop
可用工具
服务器提供以下工具:
- get_model_info - 获取有关可用 Whisper 模型的信息
- transcribe - 转录单个音频文件
- batch_transcribe - 批量转录文件夹中的音频文件
性能优化技巧
- 使用 CUDA 加速可显著提高转录速度
- 批量处理模式对于大量短音频文件更有效
- 批量大小会根据 GPU 内存大小自动调整
- 使用 VAD(语音活动检测)过滤可提高长音频的准确性
- 指定正确的语言可以提高转录质量
本地测试方法
- 使用 MCP Inspector 进行快速测试:
mcp dev whisper_server.py
-
使用 Claude Desktop 进行集成测试
-
使用命令行直接调用(需要 mcp[cli]):
mcp run whisper_server.py
错误处理
服务器实现了以下错误处理机制:
- 音频文件存在性检查
- 模型加载失败处理
- 转录过程异常捕获
- GPU 内存管理
- 批量处理参数自适应调整
项目结构
whisper_server.py
: 主要服务器代码model_manager.py
: Whisper 模型加载和缓存audio_processor.py
: 音频文件验证和预处理formatters.py
: 输出格式化(VTT、SRT、JSON)transcriber.py
: 核心转录逻辑start_server.bat
: Windows 启动脚本
许可证
MIT
致谢
本项目是在以下优秀的 AI 工具和模型的帮助下开发的:
- GitHub Copilot - AI 结对程序员
- Trae - Agentic AI 编码助手
- Cline - AI 驱动的终端
- DeepSeek - 高级 AI 模型
- Claude-3.7-Sonnet - Anthropic 的强大 AI 助手
- Gemini-2.0-Flash - Google 的多模态 AI 模型
- VS Code - 强大的代码编辑器
- Whisper - OpenAI 的语音识别模型
- Faster Whisper - 优化的 Whisper 实现
特别感谢这些令人难以置信的工具以及它们背后的团队。
推荐服务器
Crypto Price & Market Analysis MCP Server
一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。
MCP PubMed Search
用于搜索 PubMed 的服务器(PubMed 是一个免费的在线数据库,用户可以在其中搜索生物医学和生命科学文献)。 我是在 MCP 发布当天创建的,但当时正在度假。 我看到有人在您的数据库中发布了类似的服务器,但还是决定发布我的服务器。
mixpanel
连接到您的 Mixpanel 数据。 从 Mixpanel 分析查询事件、留存和漏斗数据。

Sequential Thinking MCP Server
这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

Nefino MCP Server
为大型语言模型提供访问德国可再生能源项目新闻和信息的能力,允许按地点、主题(太阳能、风能、氢能)和日期范围进行筛选。
Vectorize
将 MCP 服务器向量化以实现高级检索、私有深度研究、Anything-to-Markdown 文件提取和文本分块。
Mathematica Documentation MCP server
一个服务器,通过 FastMCP 提供对 Mathematica 文档的访问,使用户能够从 Wolfram Mathematica 检索函数文档和列出软件包符号。
kb-mcp-server
一个 MCP 服务器,旨在实现便携性、本地化、简易性和便利性,以支持对 txtai “all in one” 嵌入数据库进行基于语义/图的检索。任何 tar.gz 格式的 txtai 嵌入数据库都可以被加载。
Research MCP Server
这个服务器用作 MCP 服务器,与 Notion 交互以检索和创建调查数据,并与 Claude Desktop Client 集成以进行和审查调查。

Cryo MCP Server
一个API服务器,实现了模型补全协议(MCP),用于Cryo区块链数据提取,允许用户通过任何兼容MCP的客户端查询以太坊区块链数据。