MCP Image Recognition Server

MCP Image Recognition Server

提供图像识别功能,使用 Anthropic Claude Vision 和 OpenAI GPT-4 Vision API,支持多种图像格式,并提供通过 Tesseract OCR 进行可选的文本提取。

Category
访问服务器

README

MCP 图像识别服务器

一个使用 Anthropic 和 OpenAI 视觉 API 提供图像识别功能的 MCP 服务器。版本 0.1.2。

功能

  • 使用 Anthropic Claude Vision 或 OpenAI GPT-4 Vision 进行图像描述
  • 支持多种图像格式(JPEG、PNG、GIF、WebP)
  • 可配置的主提供商和备用提供商
  • 支持 Base64 和基于文件的图像输入
  • 可选的 Tesseract OCR 文本提取

要求

  • Python 3.8 或更高版本
  • Tesseract OCR(可选)- 文本提取功能需要
    • Windows:从 UB-Mannheim/tesseract 下载并安装
    • Linux:sudo apt-get install tesseract-ocr
    • macOS:brew install tesseract

安装

  1. 克隆存储库:
git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
  1. 创建并配置您的环境文件:
cp .env.example .env
# 使用您的 API 密钥和首选项编辑 .env
  1. 构建项目:
build.bat

用法

运行服务器

使用 python 启动服务器:

python -m image_recognition_server.server

使用 batch 启动服务器:

run.bat server

在开发模式下使用 MCP Inspector 启动服务器:

run.bat debug

可用工具

  1. describe_image

    • 输入:Base64 编码的图像数据和 MIME 类型
    • 输出:图像的详细描述
  2. describe_image_from_file

    • 输入:图像文件的路径
    • 输出:图像的详细描述

环境配置

  • ANTHROPIC_API_KEY: 您的 Anthropic API 密钥。
  • OPENAI_API_KEY: 您的 OpenAI API 密钥。
  • VISION_PROVIDER: 主要视觉提供商(anthropicopenai)。
  • FALLBACK_PROVIDER: 可选的备用提供商。
  • LOG_LEVEL: 日志记录级别(DEBUG、INFO、WARNING、ERROR)。
  • ENABLE_OCR: 启用 Tesseract OCR 文本提取(truefalse)。
  • TESSERACT_CMD: Tesseract 可执行文件的可选自定义路径。
  • OPENAI_MODEL: OpenAI 模型 (默认: gpt-4o-mini)。可以使用 OpenRouter 格式用于其他模型 (例如, anthropic/claude-3.5-sonnet:beta)。
  • OPENAI_BASE_URL: OpenAI API 的可选自定义基本 URL。设置为 https://openrouter.ai/api/v1 以使用 OpenRouter。
  • OPENAI_TIMEOUT: OpenAI API 的可选自定义超时时间(以秒为单位)。

使用 OpenRouter

OpenRouter 允许您使用 OpenAI API 格式访问各种模型。要使用 OpenRouter,请按照以下步骤操作:

  1. 从 OpenRouter 获取 OpenAI API 密钥。
  2. 在您的 .env 文件中将 OPENAI_API_KEY 设置为您的 OpenRouter API 密钥。
  3. OPENAI_BASE_URL 设置为 https://openrouter.ai/api/v1
  4. 使用 OpenRouter 格式将 OPENAI_MODEL 设置为所需的模型(例如,anthropic/claude-3.5-sonnet:beta)。
  5. VISION_PROVIDER 设置为 openai

默认模型

  • Anthropic: claude-3.5-sonnet-beta
  • OpenAI: gpt-4o-mini
  • OpenRouter: 在 OPENAI_MODEL 中使用 anthropic/claude-3.5-sonnet:beta 格式。

开发

运行测试

运行所有测试:

run.bat test

运行特定的测试套件:

run.bat test server
run.bat test anthropic
run.bat test openai

Docker 支持

构建 Docker 镜像:

docker build -t mcp-image-recognition .

运行容器:

docker run -it --env-file .env mcp-image-recognition

许可证

MIT 许可证 - 有关详细信息,请参阅 LICENSE 文件。

发布历史

  • 0.1.2 (2025-02-20): 改进了 OCR 错误处理,并为 OCR 功能添加了全面的测试覆盖
  • 0.1.1 (2025-02-19): 添加了 Tesseract OCR 支持,用于从图像中提取文本(可选功能)
  • 0.1.0 (2025-02-19): 初始版本,支持 Anthropic 和 OpenAI 视觉

推荐服务器

Baidu Map

Baidu Map

百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。

官方
精选
JavaScript
Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

官方
精选
本地
TypeScript
VeyraX

VeyraX

一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。

官方
精选
本地
graphlit-mcp-server

graphlit-mcp-server

模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。

官方
精选
TypeScript
Kagi MCP Server

Kagi MCP Server

一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

官方
精选
Python
e2b-mcp-server

e2b-mcp-server

使用 MCP 通过 e2b 运行代码。

官方
精选
Neon MCP Server

Neon MCP Server

用于与 Neon 管理 API 和数据库交互的 MCP 服务器

官方
精选
Exa MCP Server

Exa MCP Server

模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。

官方
精选