Whisper Speech Recognition MCP Server

Whisper Speech Recognition MCP Server

一个基于 Faster Whisper 的高性能语音识别 MCP 服务器,提供高效的音频转录能力。

BigUncle

研究与数据
访问服务器

README

Whisper 语音识别 MCP 服务器


English Document

一个基于 Faster Whisper 的高性能语音识别 MCP 服务器,提供高效的音频转录能力。

特性

  • 集成了 Faster Whisper 以实现高效的语音识别
  • 批量处理加速,提高转录速度
  • 自动 CUDA 加速(如果可用)
  • 支持多种模型大小(tiny 到 large-v3)
  • 输出格式包括 VTT 字幕、SRT 和 JSON
  • 支持批量转录文件夹中的音频文件
  • 模型实例缓存,避免重复加载
  • 基于 GPU 内存的动态批量大小调整

安装

依赖

  • Python 3.10+
  • faster-whisper>=0.9.0
  • torch==2.6.0+cu126
  • torchaudio==2.6.0+cu126
  • mcp[cli]>=1.2.0

安装步骤

  1. 克隆或下载此存储库
  2. 创建并激活虚拟环境(推荐)
  3. 安装依赖:
pip install -r requirements.txt

PyTorch 安装指南

根据您的 CUDA 版本安装适当版本的 PyTorch:

  • CUDA 12.6:

    pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu126
    
  • CUDA 12.1:

    pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121
    
  • CPU 版本:

    pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cpu
    

您可以使用 nvcc --versionnvidia-smi 检查您的 CUDA 版本。

使用

启动服务器

在 Windows 上,只需运行 start_server.bat

在其他平台上,运行:

python whisper_server.py

配置 Claude Desktop

  1. 打开 Claude Desktop 配置文件:

    • Windows: %APPDATA%\Claude\claude_desktop_config.json
    • macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
  2. 添加 Whisper 服务器配置:

{
  "mcpServers": {
    "whisper": {
      "command": "python",
      "args": ["D:/path/to/whisper_server.py"],
      "env": {}
    }
  }
}
  1. 重启 Claude Desktop

可用工具

服务器提供以下工具:

  1. get_model_info - 获取有关可用 Whisper 模型的信息
  2. transcribe - 转录单个音频文件
  3. batch_transcribe - 批量转录文件夹中的音频文件

性能优化技巧

  • 使用 CUDA 加速可显著提高转录速度
  • 批量处理模式对于大量短音频文件更有效
  • 批量大小会根据 GPU 内存大小自动调整
  • 使用 VAD(语音活动检测)过滤可提高长音频的准确性
  • 指定正确的语言可以提高转录质量

本地测试方法

  1. 使用 MCP Inspector 进行快速测试:
mcp dev whisper_server.py
  1. 使用 Claude Desktop 进行集成测试

  2. 使用命令行直接调用(需要 mcp[cli]):

mcp run whisper_server.py

错误处理

服务器实现了以下错误处理机制:

  • 音频文件存在性检查
  • 模型加载失败处理
  • 转录过程异常捕获
  • GPU 内存管理
  • 批量处理参数自适应调整

项目结构

  • whisper_server.py: 主要服务器代码
  • model_manager.py: Whisper 模型加载和缓存
  • audio_processor.py: 音频文件验证和预处理
  • formatters.py: 输出格式化(VTT、SRT、JSON)
  • transcriber.py: 核心转录逻辑
  • start_server.bat: Windows 启动脚本

许可证

MIT

致谢

本项目是在以下优秀的 AI 工具和模型的帮助下开发的:

特别感谢这些令人难以置信的工具以及它们背后的团队。

推荐服务器

Crypto Price & Market Analysis MCP Server

Crypto Price & Market Analysis MCP Server

一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。

精选
TypeScript
MCP PubMed Search

MCP PubMed Search

用于搜索 PubMed 的服务器(PubMed 是一个免费的在线数据库,用户可以在其中搜索生物医学和生命科学文献)。 我是在 MCP 发布当天创建的,但当时正在度假。 我看到有人在您的数据库中发布了类似的服务器,但还是决定发布我的服务器。

精选
Python
mixpanel

mixpanel

连接到您的 Mixpanel 数据。 从 Mixpanel 分析查询事件、留存和漏斗数据。

精选
TypeScript
Sequential Thinking MCP Server

Sequential Thinking MCP Server

这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

精选
Python
Nefino MCP Server

Nefino MCP Server

为大型语言模型提供访问德国可再生能源项目新闻和信息的能力,允许按地点、主题(太阳能、风能、氢能)和日期范围进行筛选。

官方
Python
Vectorize

Vectorize

将 MCP 服务器向量化以实现高级检索、私有深度研究、Anything-to-Markdown 文件提取和文本分块。

官方
JavaScript
Mathematica Documentation MCP server

Mathematica Documentation MCP server

一个服务器,通过 FastMCP 提供对 Mathematica 文档的访问,使用户能够从 Wolfram Mathematica 检索函数文档和列出软件包符号。

本地
Python
kb-mcp-server

kb-mcp-server

一个 MCP 服务器,旨在实现便携性、本地化、简易性和便利性,以支持对 txtai “all in one” 嵌入数据库进行基于语义/图的检索。任何 tar.gz 格式的 txtai 嵌入数据库都可以被加载。

本地
Python
Research MCP Server

Research MCP Server

这个服务器用作 MCP 服务器,与 Notion 交互以检索和创建调查数据,并与 Claude Desktop Client 集成以进行和审查调查。

本地
Python
Cryo MCP Server

Cryo MCP Server

一个API服务器,实现了模型补全协议(MCP),用于Cryo区块链数据提取,允许用户通过任何兼容MCP的客户端查询以太坊区块链数据。

本地
Python