Venice AI Image Generator MCP Server

Venice AI Image Generator MCP Server

测试 MCP 服务器功能,威尼斯和双子座(图像)。

jhacksman

研究与数据
访问服务器

README

Venice AI 图像生成器 MCP 服务器

本项目实现了一个模型上下文协议 (MCP) 服务器,该服务器与 Venice AI 集成,用于图像生成,并具有审批/重新生成工作流程。

什么是 MCP?

模型上下文协议 (MCP) 是一个开放协议,它标准化了应用程序如何向大型语言模型 (LLM) 提供上下文。它就像一个“AI 应用程序的 USB-C 端口”,允许 LLM 以标准化的方式连接到各种数据源和工具。

有关更多信息,请访问 官方 MCP 介绍页面

项目概述

此 MCP 服务器提供了 LLM(如 Claude)和 Venice AI 图像生成功能之间的桥梁。它使 LLM 能够根据文本提示生成图像,并实现具有点赞/踩反馈的交互式审批工作流程。

主要特性

具有审批工作流程的图像生成

此服务器的核心功能是:

  1. 使用 Venice AI 根据文本提示生成图像
  2. 向用户显示生成的图像,并在图像上直接叠加可点击的点赞/踩图标
  3. 允许用户批准图像(点击点赞)或请求重新生成(点击踩)
  4. 如果请求,使用相同的参数重新生成图像

技术实现

该服务器实现了几个 MCP 工具:

  • generate_venice_image: 从文本提示创建图像,并返回带有审批选项的图像
  • approve_image: 当用户点赞时,将图像标记为已批准
  • regenerate_image: 当用户踩时,使用相同的参数创建一个新图像
  • list_available_models: 提供有关可用 Venice AI 模型的信息

用户体验

从用户的角度来看,交互流程是:

  1. 用户提供文本提示以生成图像
  2. LLM 调用 MCP 服务器以生成图像
  3. LLM 显示图像,并在图像上直接叠加可点击的点赞/踩图标
  4. 用户点击图像上的点赞图标以批准,或点击踩图标以重新生成
  5. 如果踩,则重复该过程,直到用户批准图像

架构

该服务器遵循 MCP 客户端-服务器架构:

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│             │     │             │     │             │
│  LLM Host   │◄────┤  MCP Server │◄────┤  Venice AI  │
│ (e.g. Claude)│     │             │     │    API     │
│             │     │             │     │             │
└─────────────┘     └─────────────┘     └─────────────┘
  1. LLM Host: 运行 LLM 的应用程序(例如,Claude)
  2. MCP Server: 我们的服务器,它实现了 MCP 协议并连接到 Venice AI
  3. Venice AI API: 生成图像的外部服务

实现细节

MCP 服务器组件

该服务器由以下部分组成:

  1. FastMCP Server: 处理 MCP 协议通信的核心服务器
  2. Venice AI Integration: 与 Venice AI API 交互的代码
  3. Image Cache: 用于跟踪生成的图像及其审批状态的内存存储
  4. Tool Definitions: LLM 可以调用以与服务器交互的函数

数据流

  1. LLM 接收来自用户的提示
  2. LLM 使用提示调用 generate_venice_image 工具
  3. 服务器向 Venice AI API 发送请求
  4. Venice AI 生成图像并返回 URL
  5. 服务器缓存图像详细信息并返回带有审批选项的 URL
  6. LLM 向用户显示图像和审批选项
  7. 用户选择点赞或踩
  8. LLM 根据用户选择调用 approve_imageregenerate_image
  9. 如果重新生成,则从步骤 3 重复该过程

使用示例

当连接到像 Claude 这样的 LLM 时,交互看起来像:

User: Generate an image of a futuristic city skyline
Claude: I'll generate that image for you using Venice AI.

[Image of futuristic city skyline with clickable 👍 and 👎 icons overlaid on the image]

User: 👎 (Thumbs down)
Claude: Let me generate a new version for you.

[New image of futuristic city skyline with clickable 👍 and 👎 icons overlaid on the image]

User: 👍 (Thumbs up)
Claude: Great! I've saved this approved image for you.

Gemini 集成用于多视角生成

在用户批准图像(通过点击点赞图标)后,系统会自动通过 Google 的 Gemini API 处理批准的图像,以生成 3D 对象的多个一致视图:

  1. 批准的 Venice AI 图像用作 Gemini 视图生成脚本的输入
  2. 依次生成四个不同的视图:
    • 前视图 (0°) - 首先生成
    • 右视图 (90°) - 在前视图完成后生成
    • 左视图 (270°) - 在右视图完成后生成
    • 后视图 (180°) - 在左视图完成后生成
  3. 每个视图在可用时以 4-up 布局显示
  4. 每个脚本在执行之前等待上一个脚本成功完成

4-Up 视图审批流程

四个生成的视图中的每一个都有自己的点赞/踩审批系统:

  1. 4-up 显示中的每个视图都在图像上叠加了点赞/踩图标
  2. 如果用户为任何特定视图选择踩:
    • 再次运行该视图的相应 Python 脚本
    • 新生成的图像替换 4-up 显示中的被拒绝图像
    • 此过程重复,直到用户使用点赞批准图像
  3. 每个视图都可以单独批准或重新生成

3D 模型生成

一旦所有四个视图都被批准:

  1. 原始 Venice AI 图像和四个批准的 Gemini 生成的视图使用 CUDA Multi-View Stereo 进行处理
  2. 此处理发生在网络上专用的 Linux 服务器上
  3. CUDA Multi-View Stereo 系统将 2D 图像转换为 3D 模型

这种多视角生成利用 Gemini 的对象一致性功能,从不同的角度创建 3D 对象的连贯表示,同时保持与原始 Venice AI 图像相同的风格、颜色和比例。

未来增强

潜在的未来改进包括:

  1. 持久存储: 将批准的图像保存到数据库
  2. 图像编辑: 允许用户请求对生成的图像进行特定修改
  3. 多图像生成: 一次生成多个变体供用户选择
  4. 其他视图: 生成超出四个基本方向的更多角度

Venice AI 集成

该服务器与 Venice AI 的图像生成 API 集成,该 API 提供高质量的图像生成功能。该 API 允许:

  • 从文本提示生成图像
  • 自定义图像尺寸
  • 调整生成参数
  • 使用不同的模型来获得不同的风格

开始使用

要实现此服务器,您需要:

  1. 安装 FastMCP 库
  2. 设置 Venice AI API 凭据
  3. 按照描述实现 MCP 工具
  4. 运行服务器并将其连接到 LLM 主机

MCP 资源

有关模型上下文协议以及如何构建 MCP 服务器的更多信息,请查看以下资源:

推荐服务器

Crypto Price & Market Analysis MCP Server

Crypto Price & Market Analysis MCP Server

一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。

精选
TypeScript
MCP PubMed Search

MCP PubMed Search

用于搜索 PubMed 的服务器(PubMed 是一个免费的在线数据库,用户可以在其中搜索生物医学和生命科学文献)。 我是在 MCP 发布当天创建的,但当时正在度假。 我看到有人在您的数据库中发布了类似的服务器,但还是决定发布我的服务器。

精选
Python
mixpanel

mixpanel

连接到您的 Mixpanel 数据。 从 Mixpanel 分析查询事件、留存和漏斗数据。

精选
TypeScript
Sequential Thinking MCP Server

Sequential Thinking MCP Server

这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

精选
Python
Nefino MCP Server

Nefino MCP Server

为大型语言模型提供访问德国可再生能源项目新闻和信息的能力,允许按地点、主题(太阳能、风能、氢能)和日期范围进行筛选。

官方
Python
Vectorize

Vectorize

将 MCP 服务器向量化以实现高级检索、私有深度研究、Anything-to-Markdown 文件提取和文本分块。

官方
JavaScript
Mathematica Documentation MCP server

Mathematica Documentation MCP server

一个服务器,通过 FastMCP 提供对 Mathematica 文档的访问,使用户能够从 Wolfram Mathematica 检索函数文档和列出软件包符号。

本地
Python
kb-mcp-server

kb-mcp-server

一个 MCP 服务器,旨在实现便携性、本地化、简易性和便利性,以支持对 txtai “all in one” 嵌入数据库进行基于语义/图的检索。任何 tar.gz 格式的 txtai 嵌入数据库都可以被加载。

本地
Python
Research MCP Server

Research MCP Server

这个服务器用作 MCP 服务器,与 Notion 交互以检索和创建调查数据,并与 Claude Desktop Client 集成以进行和审查调查。

本地
Python
Cryo MCP Server

Cryo MCP Server

一个API服务器,实现了模型补全协议(MCP),用于Cryo区块链数据提取,允许用户通过任何兼容MCP的客户端查询以太坊区块链数据。

本地
Python