local-mmcp

local-mmcp

Local multimodal MCP server for vision, document, audio, video, and GUI automation, all processed locally on Apple Silicon for privacy and security.

Category
访问服务器

README

Local-MMCP

本地多模态 MCP Server — 为 Claude Code / Codex / Cline 等 AI 客户端提供视觉、文档、音频、视频、GUI 自动化能力

版本 Python 架构 测试

项目简介

Local-MMCP 是一个基于 MCP (Model Context Protocol) 的本地多模态服务器,通过 stdio transport 向 AI 客户端暴露 9 个多模态工具

核心设计理念:本地优先、隐私安全、优雅降级。所有数据处理在本地完成,无需将图片/文档/音频上传到第三方服务。

架构总览

MCP Client (Claude Code / Codex / Cline / Roo / OpenCode 等)
        │
        ▼
Local-MMCP MCP Server (stdio transport)
        │
        ├── oMLX 视觉/文本模型 (本地 Apple Silicon)
        │   ├── gemma-4-31B-it-Uncensored-MAX-MLX (视觉)
        │   └── Huihui-Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-mlx-8bit (文本)
        │
        ├── MinerU / PaddleOCR (文档解析)
        ├── Qwen3-ASR / mlx-audio (语音转写)
        ├── ffmpeg (视频处理)
        └── Playwright / ADB / macOS Accessibility (GUI 自动化)

分层架构

Server (MCP Protocol Handler)
    └── Tools (9 个工具模块)
        ├── Clients (oMLX API 客户端 + 模型生命周期管理)
        ├── Adapters (外部工具适配器)
        └── Utils (图片处理 / 安全 / JSON 工具)

工具清单

工具 用途 依赖 需确认
health_check 检查所有组件可用性(支持 deep 模式验证 VLM)
vision_inspect 分析图片:截图理解、UI 分析、图表、错误诊断 oMLX VLM
vision_crop_verify 裁剪图片局部放大复核 oMLX VLM
vision_diff 比较两张图片差异(像素 + 语义) oMLX VLM
doc_parse 文档转 Markdown/JSON(PDF/DOCX/PPTX/XLSX/图片) MinerU 或 PaddleOCR
audio_transcribe 音频转写(WAV/MP3/M4A/FLAC) mlx-audio (Qwen3-ASR)
video_index 视频时间线索引(抽帧 + ASR + VLM 理解) ffmpeg + oMLX + mlx-audio
gui_observe 观察 GUI 状态(浏览器/Android/macOS) Playwright / ADB / AppKit
gui_act 执行 GUI 动作(点击/输入/滑动等) Playwright / ADB / AppKit

快速开始

1. 环境要求

  • 硬件: Mac with Apple Silicon (M1+), 推荐 128GB+ 统一内存
  • 系统: macOS 14+
  • Python: 3.11+
  • oMLX: omlx.ai 本地模型推理服务
  • 包管理: uv

2. 安装

git clone https://github.com/rorojiao/local-mmcp.git
cd local-mmcp
uv sync

# 可选依赖(按需安装)
uv pip install mlx-audio          # 语音转写
uv pip install pyautogui           # macOS 桌面自动化

3. 配置

cp config.example.yaml config.yaml
# 编辑 config.yaml,调整 omlx 端口、模型名、安全路径等

⚠️ config.yaml 含本地路径和 API 密钥,已在 .gitignore 中排除,不会被提交。

4. 配置 MCP Client

Claude Code

~/.claude/settings.json 中添加:

{
  "mcpServers": {
    "local-mmcp": {
      "command": "uv",
      "args": [
        "run",
        "--project",
        "/ABSOLUTE/PATH/local-mmcp",
        "python",
        "-m",
        "local_mmcp.server"
      ],
      "env": {
        "MMCP_CONFIG": "/ABSOLUTE/PATH/local-mmcp/config.yaml"
      }
    }
  }
}

其他 MCP Client

修改对应配置文件,使用相同 command/args/env 结构即可。

5. 运行检查

# 直接运行 MCP Server(测试用)
MMCP_CONFIG=config.yaml uv run python -m local_mmcp.server

# 运行诊断脚本
bash scripts/doctor.sh

安全设计

路径白名单

只允许访问 config.yamlsecurity.allowed_roots 列出的目录:

security:
  allowed_roots:
    - "~/Projects"
    - "~/Desktop"
    - "~/Downloads"
    - "~/working"
    - "~/Pictures"
    - "/tmp"
    - "~/.claude"

路径黑名单

自动拒绝包含以下模式的路径:.ssh.gnupgLibrary/Keychains.envid_rsaid_ed25519

确认令牌机制

高风险 GUI 操作(gui_actadb_install 等)需要一次性确认令牌,TTL 300 秒。

macOS 文件图标检测

当用户从 Finder 复制文件并粘贴到 AI 客户端时,系统可能传递文件图标而非真实图片内容。Local-MMCP 会:

  1. 检测:通过灰度 + alpha 多样性 + 尺寸综合评分识别文件图标
  2. 自动替换:三层策略找到原始文件(剪贴板路径 → 剪贴板图片数据 → 文件系统搜索)
  3. 不阻塞:检测失败时仅警告,不阻断分析流程

设计说明

详细的架构文档和设计说明请参考:

文档 内容
ARCHITECTURE.md 完整架构文档:数据流、模块详解、性能数据
local-mmcp-dev-doc.md 原始设计文档:功能定义、接口设计、实现计划
CHANGELOG.md 版本变更记录

核心设计模式

  1. 单一 image_source 参数:对齐 ZhiPu MCP 设计,自动识别 URL / base64 / 本地路径
  2. 模型生命周期管理ModelManager 单模型互斥 + 空闲超时自动卸载(300 秒)
  3. 优雅降级:VLM 不可用时降级为 OCR 模式,不会因单一组件崩溃
  4. 最小图像处理:不做 normalize/resize,直接传原始文件给 VLM API

测试

# 运行所有单元测试(57 个测试用例)
uv run pytest tests/ -v

# 运行特定测试
uv run pytest tests/test_all.py -v         # 全量集成测试
uv run pytest tests/test_model_manager.py  # 模型管理器测试

测试覆盖

测试类别 用例数 覆盖内容
health_check 9 所有组件状态检查
vision_inspect 3 本地路径/URL/base64
安全路径校验 12 合法路径/非法路径/deny 列表
确认令牌 6 创建/验证/重用/过期
文件图标检测 5 真实照片/海报/模拟图标
OmlxClient 10 初始化/JSON/data URL
vision_crop_verify 1 裁剪数学验证
vision_diff 1 像素+语义差异
错误路径 12 空参数/非法路径/不存在

已知限制

  1. Apple Silicon only — 依赖 omlx + MLX 框架,不支持 Intel Mac 或 Linux
  2. 内存需求高 — 视觉模型 (gemma-4-31B) 约 58GB,推荐 128GB+ 统一内存
  3. 模型加载延迟 — 冷启动加载模型约 20 秒,后续请求复用已加载模型
  4. MinerU/PaddleOCR — 需单独安装,未安装时 doc_parse 返回安装建议
  5. macOS 权限 — GUI 自动化需要辅助功能权限(System Preferences → Privacy → Accessibility)
  6. 剪贴板时效性 — macOS 文件图标替换依赖剪贴板内容,复制后需立即使用

项目结构

local-mmcp/
├── local_mmcp/
│   ├── server.py           # MCP 服务器入口
│   ├── config.py           # Pydantic 配置模型
│   ├── security.py         # 路径安全校验
│   ├── schemas.py          # 数据模型
│   ├── errors.py           # 错误处理
│   ├── tools/              # 9 个工具实现
│   │   ├── vision.py       # vision_inspect / crop_verify / diff
│   │   ├── document.py     # doc_parse
│   │   ├── audio.py        # audio_transcribe
│   │   ├── video.py        # video_index
│   │   ├── gui.py          # gui_observe / gui_act
│   │   └── health.py       # health_check
│   ├── clients/
│   │   └── omlx_client.py  # oMLX API 客户端 + ModelManager
│   ├── adapters/           # 外部工具适配器
│   │   ├── paddleocr_adapter.py
│   │   ├── mineru_adapter.py
│   │   ├── qwen_asr_adapter.py
│   │   ├── ffmpeg_adapter.py
│   │   ├── playwright_adapter.py
│   │   ├── adb_adapter.py
│   │   ├── macos_adapter.py
│   │   └── ui_tars_adapter.py
│   ├── utils/
│   │   ├── images.py       # 图片处理 + 图标检测/替换
│   │   ├── files.py        # 文件工具
│   │   ├── json_tools.py   # JSON 提取
│   │   └── subprocesses.py # 子进程管理
│   └── prompts/            # 工具 prompt 模板
├── tests/                  # 57 个测试用例
├── scripts/
│   ├── doctor.sh           # 诊断脚本
│   └── run_mcp.sh          # 运行脚本
├── config.example.yaml     # 配置模板
├── ARCHITECTURE.md         # 架构文档
├── local-mmcp-dev-doc.md   # 原始设计文档
└── pyproject.toml          # 项目配置

License

MIT

推荐服务器

Baidu Map

Baidu Map

百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。

官方
精选
JavaScript
Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

官方
精选
本地
TypeScript
VeyraX

VeyraX

一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。

官方
精选
本地
graphlit-mcp-server

graphlit-mcp-server

模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。

官方
精选
TypeScript
Kagi MCP Server

Kagi MCP Server

一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

官方
精选
Python
e2b-mcp-server

e2b-mcp-server

使用 MCP 通过 e2b 运行代码。

官方
精选
Neon MCP Server

Neon MCP Server

用于与 Neon 管理 API 和数据库交互的 MCP 服务器

官方
精选
Exa MCP Server

Exa MCP Server

模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。

官方
精选