RAG-MCP Pipeline Research
一个学习仓库,探索使用免费和开源模型实现的检索增强生成 (RAG) 和多云处理 (MCP) 服务器集成。
dzikrisyairozi
README
RAG-MCP 流水线研究
一个综合性的研究项目,探索使用免费和开源模型的检索增强生成 (RAG) 和多云处理 (MCP) 服务器集成。
项目概述
本仓库作为一个结构化的学习和研究路径,用于理解如何通过 MCP 服务器将大型语言模型 (LLM) 与外部服务集成,重点关注会计软件集成(例如 QuickBooks)等实际业务应用。
🌟 主要特性
- 无需付费 API 密钥 - 使用免费的 Hugging Face 模型
- 所有内容都在本地运行,无需外部依赖
- 面向初学者的全面分步文档
- 带有工作代码的实用示例
研究模块
模块 0: 先决条件
在深入研究特定领域之前,建立坚实的基础:
- 编程和工具:Python、Git/GitHub、Docker
- 基本概念:机器学习、RESTful API、云服务
- AI 和 LLM 基础:理解 transformers、RAG 和提示工程
- 使用免费模型设置开发环境
模块 1: AI 建模和 LLM 集成
- 理解不同的 LLM 架构和能力
- 与各种 LLM 提供商(Hugging Face、开源模型)的集成方法
- 针对特定领域的微调策略
- 评估指标和性能优化
模块 2: AI 的托管和部署策略
- AI 应用的可扩展基础设施
- 成本优化技术
- 模型服务选项(无服务器、基于容器、专用实例)
- LLM 应用的监控和可观察性
模块 3: 深入了解 MCP 服务器
- MCP 服务器的架构和组件
- 为外部服务集成构建安全 API 网关
- 身份验证和授权模式
- 命令执行协议和标准化
模块 4: API 集成和命令执行
- 与业务软件 API(QuickBooks 等)集成
- 数据转换和规范化
- 错误处理和弹性策略
- 测试和验证方法
模块 5: RAG(检索增强生成)和替代策略
- 向量数据库选择和优化
- 文档处理流水线
- 混合检索方法
- LLM 的替代增强策略
项目目标
- 全面理解 RAG 和 MCP 服务器概念
- 构建与流行的商业软件的集成原型
- 开发一个用于 AI 驱动的数据录入和处理的框架
- 为未来的实施创建文档和最佳实践
开始使用
-
将此仓库克隆到您的本地机器
git clone https://github.com/your-username/rag-mcp-pipeline-research.git cd rag-mcp-pipeline-research
-
运行设置脚本以准备您的环境
# 导航到项目目录 python src/setup_environment.py
-
激活虚拟环境
# 在 Windows 上 venv\Scripts\activate # 在 macOS/Linux 上 source venv/bin/activate
-
从 模块 0: 先决条件 开始
-
依次完成每个模块
-
完成每个部分的实践练习
为什么选择免费模型?
本项目有意使用 Hugging Face 的免费开源模型,而不是像 OpenAI 这样的商业 API,原因如下:
- 可访问性 - 任何人都可以参与,没有经济障碍
- 教育价值 - 更好地理解模型内部的工作原理
- 隐私 - 所有处理都在您的本地机器上进行
- 灵活性 - 更容易定制和微调模型以满足特定需求
- 面向未来 - 技能可以转移到任何模型,不依赖于特定的提供商
对于生产应用,您可以选择使用商业 API 以获得更好的性能,但这里学到的概念普遍适用。
许可证
MIT
推荐服务器
Crypto Price & Market Analysis MCP Server
一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。
MCP PubMed Search
用于搜索 PubMed 的服务器(PubMed 是一个免费的在线数据库,用户可以在其中搜索生物医学和生命科学文献)。 我是在 MCP 发布当天创建的,但当时正在度假。 我看到有人在您的数据库中发布了类似的服务器,但还是决定发布我的服务器。
mixpanel
连接到您的 Mixpanel 数据。 从 Mixpanel 分析查询事件、留存和漏斗数据。

Sequential Thinking MCP Server
这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

Nefino MCP Server
为大型语言模型提供访问德国可再生能源项目新闻和信息的能力,允许按地点、主题(太阳能、风能、氢能)和日期范围进行筛选。
Vectorize
将 MCP 服务器向量化以实现高级检索、私有深度研究、Anything-to-Markdown 文件提取和文本分块。
Mathematica Documentation MCP server
一个服务器,通过 FastMCP 提供对 Mathematica 文档的访问,使用户能够从 Wolfram Mathematica 检索函数文档和列出软件包符号。
kb-mcp-server
一个 MCP 服务器,旨在实现便携性、本地化、简易性和便利性,以支持对 txtai “all in one” 嵌入数据库进行基于语义/图的检索。任何 tar.gz 格式的 txtai 嵌入数据库都可以被加载。
Research MCP Server
这个服务器用作 MCP 服务器,与 Notion 交互以检索和创建调查数据,并与 Claude Desktop Client 集成以进行和审查调查。

Cryo MCP Server
一个API服务器,实现了模型补全协议(MCP),用于Cryo区块链数据提取,允许用户通过任何兼容MCP的客户端查询以太坊区块链数据。