MCP Vision Server
Provides advanced image analysis capabilities including object recognition, OCR text extraction, and multi-turn visual dialogues using OpenAI-compatible APIs. It supports both local files and Base64 inputs with additional features for session persistence and web-based configuration management.
README
MCP Vision Server - 图像识别 MCP 服务器
提供图像分析能力的 MCP 服务器,支持图像识别、文字提取、多轮对话等功能。
特性
- 图像分析 - 支持各种图像内容识别与描述
- 多轮对话 - 基于图像的连续问答
- 灵活输入 - 支持本地文件路径和 Base64 编码
- OpenAI 兼容 - 使用 OpenAI 兼容 API,支持多种视觉模型
- 会话持久化 - 对话历史可持久化存储
安装
# 克隆仓库
git clone https://github.com/YOUR_USERNAME/mcp-vision-server.git
cd mcp-vision-server
# 创建虚拟环境
python -m venv venv
source venv/Scripts/activate # Windows Git Bash
# 安装依赖
pip install -e .
配置
- 复制环境变量模板:
cp .env.example .env
- 编辑
.env文件,填入您的 API 配置:
# 必填配置
VISION_API_KEY=your-api-key-here
VISION_BASE_URL=https://open.bigmodel.cn/api/paas/v4/
VISION_MODEL=glm-4v
使用方法
启动服务器
mcp-vision-server
或直接运行:
python -m mcp_vision.server
Web 配置工具
启动 Web 配置界面,支持热加载配置:
mcp-vision-config
或指定端口:
mcp-vision-config --host 127.0.0.1 --port 8080
访问 http://127.0.0.1:7860 即可打开配置界面。
功能特性:
- 📝 可视化编辑所有配置项
- 🔄 保存后自动热加载,无需重启服务
- 🔒 API Key 密码隐藏显示
- 📋 实时查看当前运行配置
MCP 工具
1. analyze_image - 图像分析
分析图像内容并返回详细描述。
# 基础用法
analyze_image(
image="C:/path/to/image.png",
prompt="详细描述这张图片"
)
# OCR 文字提取
analyze_image(
image="C:/docs/scan.png",
prompt="提取图片中的所有文字"
)
# 代码识别
analyze_image(
image="C:/code/snippet.png",
prompt="识别并转录图片中的代码,保持格式"
)
2. chat_vision - 两轮对话
基于图像进行两轮问答。
# 第一轮对话
result1 = chat_vision(
image="C:/chart.png",
question="这个图表显示什么数据?"
)
session_id = result1["session_id"]
# remaining_turns = 1, can_continue = True
# 第二轮对话(追问细节,对话结束后无法继续)
if result1["remaining_turns"] > 0:
result2 = chat_vision(
image="C:/chart.png",
question="数据有什么趋势?",
session_id=session_id
)
# remaining_turns = 0, can_continue = False
# 开始新对话
result3 = chat_vision(
image="C:/another.png",
question="描述这张图",
is_new_conversation=True
)
3. get_status - 状态查询
获取服务器运行状态。
status = get_status()
# 返回: 服务器名称、模型信息、会话状态等
输入格式
支持两种图像输入格式:
1. 本地文件路径
image="C:/Users/name/Pictures/screenshot.png"
image="/home/user/images/photo.jpg"
2. Base64 编码
# 纯 Base64
image="iVBORw0KGgoAAAANSUhEUgAA..."
# Data URL 格式
image="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAA..."
环境变量
| 变量名 | 说明 | 默认值 |
|---|---|---|
VISION_API_KEY |
API 密钥 | - |
VISION_BASE_URL |
API 基础 URL | - |
VISION_MODEL |
模型名称 | glm-4v |
VISION_MAX_IMAGE_SIZE |
最大图像大小(字节) | 20971520 (20MB) |
VISION_TIMEOUT |
请求超时(秒) | 120 |
VISION_TEMPERATURE |
温度参数 | 0.7 |
VISION_MAX_TOKENS |
最大输出 tokens | 4096 |
VISION_LOG_LEVEL |
日志级别 | INFO |
VISION_MAX_HISTORY |
对话历史最大保存数 | 50 |
VISION_ENABLE_PERSISTENCE |
启用持久化 | true |
VISION_HISTORY_PATH |
历史文件路径 | ~/.mcp-vision/history.json |
支持的图像格式
- PNG
- JPEG / JPG
- GIF
- WebP
- BMP
- TIFF
项目结构
mcp-vision-server/
├── src/mcp_vision/
│ ├── __init__.py # 包初始化
│ ├── server.py # MCP 服务器主文件
│ ├── config.py # 配置管理
│ ├── vision_client.py # 视觉 API 客户端
│ ├── image_processor.py # 图像处理
│ ├── chat_manager.py # 对话管理器
│ ├── web_config.py # Web 配置工具
│ └── utils.py # 工具函数
├── tests/
├── .env.example
├── pyproject.toml
└── README.md
在 Claude Code 中配置
编辑 Claude Code 配置文件,添加 MCP 服务器:
{
"mcpServers": {
"vision": {
"command": "mcp-vision-server",
"env": {
"VISION_API_KEY": "your-api-key",
"VISION_BASE_URL": "https://open.bigmodel.cn/api/paas/v4/",
"VISION_MODEL": "glm-4v"
}
}
}
}
许可证
MIT License
推荐服务器
Baidu Map
百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Magic Component Platform (MCP)
一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。
VeyraX
一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。
graphlit-mcp-server
模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。
Kagi MCP Server
一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。
e2b-mcp-server
使用 MCP 通过 e2b 运行代码。
Neon MCP Server
用于与 Neon 管理 API 和数据库交互的 MCP 服务器
Exa MCP Server
模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。