
MCP Image Recognition Server
提供图像识别功能,使用 Anthropic Claude Vision 和 OpenAI GPT-4 Vision API,支持多种图像格式,并提供通过 Tesseract OCR 进行可选的文本提取。
README
MCP 图像识别服务器
一个使用 Anthropic 和 OpenAI 视觉 API 提供图像识别功能的 MCP 服务器。版本 0.1.2。
功能
- 使用 Anthropic Claude Vision 或 OpenAI GPT-4 Vision 进行图像描述
- 支持多种图像格式(JPEG、PNG、GIF、WebP)
- 可配置的主提供商和备用提供商
- 支持 Base64 和基于文件的图像输入
- 可选的 Tesseract OCR 文本提取
要求
- Python 3.8 或更高版本
- Tesseract OCR(可选)- 文本提取功能需要
- Windows:从 UB-Mannheim/tesseract 下载并安装
- Linux:
sudo apt-get install tesseract-ocr
- macOS:
brew install tesseract
安装
- 克隆存储库:
git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
- 创建并配置您的环境文件:
cp .env.example .env
# 使用您的 API 密钥和首选项编辑 .env
- 构建项目:
build.bat
用法
运行服务器
使用 python 启动服务器:
python -m image_recognition_server.server
使用 batch 启动服务器:
run.bat server
在开发模式下使用 MCP Inspector 启动服务器:
run.bat debug
可用工具
-
describe_image
- 输入:Base64 编码的图像数据和 MIME 类型
- 输出:图像的详细描述
-
describe_image_from_file
- 输入:图像文件的路径
- 输出:图像的详细描述
环境配置
ANTHROPIC_API_KEY
: 您的 Anthropic API 密钥。OPENAI_API_KEY
: 您的 OpenAI API 密钥。VISION_PROVIDER
: 主要视觉提供商(anthropic
或openai
)。FALLBACK_PROVIDER
: 可选的备用提供商。LOG_LEVEL
: 日志记录级别(DEBUG、INFO、WARNING、ERROR)。ENABLE_OCR
: 启用 Tesseract OCR 文本提取(true
或false
)。TESSERACT_CMD
: Tesseract 可执行文件的可选自定义路径。OPENAI_MODEL
: OpenAI 模型 (默认:gpt-4o-mini
)。可以使用 OpenRouter 格式用于其他模型 (例如,anthropic/claude-3.5-sonnet:beta
)。OPENAI_BASE_URL
: OpenAI API 的可选自定义基本 URL。设置为https://openrouter.ai/api/v1
以使用 OpenRouter。OPENAI_TIMEOUT
: OpenAI API 的可选自定义超时时间(以秒为单位)。
使用 OpenRouter
OpenRouter 允许您使用 OpenAI API 格式访问各种模型。要使用 OpenRouter,请按照以下步骤操作:
- 从 OpenRouter 获取 OpenAI API 密钥。
- 在您的
.env
文件中将OPENAI_API_KEY
设置为您的 OpenRouter API 密钥。 - 将
OPENAI_BASE_URL
设置为https://openrouter.ai/api/v1
。 - 使用 OpenRouter 格式将
OPENAI_MODEL
设置为所需的模型(例如,anthropic/claude-3.5-sonnet:beta
)。 - 将
VISION_PROVIDER
设置为openai
。
默认模型
- Anthropic:
claude-3.5-sonnet-beta
- OpenAI:
gpt-4o-mini
- OpenRouter: 在
OPENAI_MODEL
中使用anthropic/claude-3.5-sonnet:beta
格式。
开发
运行测试
运行所有测试:
run.bat test
运行特定的测试套件:
run.bat test server
run.bat test anthropic
run.bat test openai
Docker 支持
构建 Docker 镜像:
docker build -t mcp-image-recognition .
运行容器:
docker run -it --env-file .env mcp-image-recognition
许可证
MIT 许可证 - 有关详细信息,请参阅 LICENSE 文件。
发布历史
- 0.1.2 (2025-02-20): 改进了 OCR 错误处理,并为 OCR 功能添加了全面的测试覆盖
- 0.1.1 (2025-02-19): 添加了 Tesseract OCR 支持,用于从图像中提取文本(可选功能)
- 0.1.0 (2025-02-19): 初始版本,支持 Anthropic 和 OpenAI 视觉
推荐服务器

Baidu Map
百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Magic Component Platform (MCP)
一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

VeyraX
一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。
graphlit-mcp-server
模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。
Kagi MCP Server
一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

e2b-mcp-server
使用 MCP 通过 e2b 运行代码。
Neon MCP Server
用于与 Neon 管理 API 和数据库交互的 MCP 服务器
Exa MCP Server
模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。