Documentación del TFG: Interconexión entre Espacios de Datos e Inteligencia Artificial Generativa

Documentación del TFG: Interconexión entre Espacios de Datos e Inteligencia Artificial Generativa

使用模型上下文协议 (MCP) 设计和实现 LLM 与数据空间之间的互连

jaimealruiz

研究与数据
访问服务器

README

TFG文档:数据空间与生成式人工智能的互联

日期: 2025/04/11 作者: Jaime Alonso Ruiz 导师: Joaquín Salvachúa TFG标题: 数据空间与生成式人工智能互联的设计与实现


🎯 项目目的

本毕业设计的主要目标是设计并实现一个功能性且可扩展的架构,该架构允许语言模型 (LLM) 使用 模型上下文协议 (MCP) 与数据空间进行交互。 客户端(语言模型)不应直接访问数据库,所有操作都应仅通过 MCP 服务器执行,该服务器充当安全、模块化和可扩展的中间层。


🧱 当前架构

主要组件:

  • 🧠 LLM 客户端 (cliente_llm.py)

    • 执行自然语言问题。
    • 使用 TinyLlama-1.1B-Chat-v1.0 模型。
    • 从问题生成 SQL 查询。
    • 仅通过 MCP 服务器查询数据。
    • 解释返回的结果并构建解释性答案。
    • 将整个过程记录在日志中:logs/cliente_llm.log
  • 🔗 MCP 服务器 (main.py)

    • 使用 FastAPI 开发。
    • 连接到基于 DuckDB 的本地数据空间。
    • 通过 REST 端点暴露 MCP 工具:
      • /tool/consulta: 执行 SQL 查询。
      • /tool/info/productos: 返回不同的产品列表。
      • /tool/info/fechas: 返回记录的最小和最大日期范围。
  • 📂 数据空间

    • 在本地使用 DuckDB (lake.duckdb) 实现。
    • 包含一个 iceberg_space.ventas 表,其中包含以下列:
      • fecha (DATE)
      • producto (TEXT)
      • cantidad (INTEGER)
      • precio (DOUBLE)
    • 数据从 load_data.py 加载。

🔒 关键原则和决策

  • ✅ 严格分离语义处理 (LLM) 和数据访问 (MCP)。
  • ✅ 遵守 MCP 提出的设计:LLM 仅通过工具访问数据。
  • ✅ 使用从 MCP 获得的上下文信息丰富提示。
  • ✅ 模块化、可扩展和可追溯的架构,通过日志记录。

📈 未来可扩展性

从一开始,当前的设计就以清晰的增长愿景为基础:

  • 🔁 未来将 DuckDB 替换为真正的 Apache Iceberg 甚至 Trino/Presto。
  • 🤖 将 TinyLlama 模型替换为更高级或托管在 GPU 上的 LLM。
  • 🔎 演变为 RAG(检索增强生成)架构,其中:
    • LLM 首先查询基于从 MCP 生成的嵌入的向量存储。
    • 检索到的内容作为上下文传递给模型,以获得更准确的答案。

此外,还可以集成新的 MCP 工具,例如:

  • /tool/info/esquema
  • /tool/info/documentacion
  • /tool/descargar
  • /tool/upload-pdf

📜 结论

已经建立了一个坚实、功能齐全且符合 TFG 要求的基石。 该系统已经允许语言模型和数据空间之间的完整交互,符合 MCP 的原则,并为未来发展成为更高级的 RAG 系统铺平了道路。

推荐服务器

Crypto Price & Market Analysis MCP Server

Crypto Price & Market Analysis MCP Server

一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。

精选
TypeScript
MCP PubMed Search

MCP PubMed Search

用于搜索 PubMed 的服务器(PubMed 是一个免费的在线数据库,用户可以在其中搜索生物医学和生命科学文献)。 我是在 MCP 发布当天创建的,但当时正在度假。 我看到有人在您的数据库中发布了类似的服务器,但还是决定发布我的服务器。

精选
Python
mixpanel

mixpanel

连接到您的 Mixpanel 数据。 从 Mixpanel 分析查询事件、留存和漏斗数据。

精选
TypeScript
Sequential Thinking MCP Server

Sequential Thinking MCP Server

这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

精选
Python
Nefino MCP Server

Nefino MCP Server

为大型语言模型提供访问德国可再生能源项目新闻和信息的能力,允许按地点、主题(太阳能、风能、氢能)和日期范围进行筛选。

官方
Python
Vectorize

Vectorize

将 MCP 服务器向量化以实现高级检索、私有深度研究、Anything-to-Markdown 文件提取和文本分块。

官方
JavaScript
Mathematica Documentation MCP server

Mathematica Documentation MCP server

一个服务器,通过 FastMCP 提供对 Mathematica 文档的访问,使用户能够从 Wolfram Mathematica 检索函数文档和列出软件包符号。

本地
Python
kb-mcp-server

kb-mcp-server

一个 MCP 服务器,旨在实现便携性、本地化、简易性和便利性,以支持对 txtai “all in one” 嵌入数据库进行基于语义/图的检索。任何 tar.gz 格式的 txtai 嵌入数据库都可以被加载。

本地
Python
Research MCP Server

Research MCP Server

这个服务器用作 MCP 服务器,与 Notion 交互以检索和创建调查数据,并与 Claude Desktop Client 集成以进行和审查调查。

本地
Python
Cryo MCP Server

Cryo MCP Server

一个API服务器,实现了模型补全协议(MCP),用于Cryo区块链数据提取,允许用户通过任何兼容MCP的客户端查询以太坊区块链数据。

本地
Python