MCP Server: Elasticsearch semantic search tool

MCP Server: Elasticsearch semantic search tool

镜子 (jìng zi)

MCP-Mirror

研究与数据
访问服务器

README

MCP Server: Elasticsearch 语义搜索工具

Demo repo for: https://j.blaszyk.me/tech-blog/mcp-server-elasticsearch-semantic-search/

目录


概述

此存储库提供了一个 MCP 服务器的 Python 实现,用于通过索引在 Elasticsearch 中的 Search Labs 博客文章进行语义搜索

它假设您已经抓取了博客文章,并使用 Elastic Open Crawler 将它们存储在 search-labs-posts 索引中。


运行 MCP Server

ES_URLES_AP_KEY 添加到 .env 文件中(有关使用最小权限生成 API 密钥的信息,请参见此处)。

MCP Inspector 中启动服务器:

make dev

运行后,通过以下地址访问 MCP Inspector:http://localhost:5173


与 Claude Desktop 集成

要将 MCP 服务器添加到 Claude Desktop

make install-claude-config

这会更新您主目录中的 claude_desktop_config.json。下次重新启动时,Claude 应用程序将检测到服务器并加载声明的工具。


抓取 Search Labs 博客文章

1. 验证爬虫设置

要检查 Elastic Open Crawler 是否正常工作,请运行:

docker run --rm \
  --entrypoint /bin/bash \
  -v "$(pwd)/crawler-config:/app/config" \
  --network host \
  docker.elastic.co/integrations/crawler:latest \
  -c "bin/crawler crawl config/test-crawler.yml"

这应该打印来自单个页面的抓取内容。


2. 配置 Elasticsearch

设置 Elasticsearch URL 和 API 密钥

生成具有最小爬虫权限的 API 密钥:

POST /_security/api_key
{
  "name": "crawler-search-labs",
  "role_descriptors": {
    "crawler-search-labs-role": {
      "cluster": ["monitor"],
      "indices": [
        {
          "names": ["search-labs-posts"],
          "privileges": ["all"]
        }
      ]
    }
  },
  "metadata": {
    "application": "crawler"
  }
}

从响应中复制 encoded 值,并将其设置为 API_KEY


3. 更新索引映射以进行语义搜索

确保 search-labs-posts 索引存在。如果不存在,请创建它:

PUT search-labs-posts

更新映射以启用语义搜索

PUT search-labs-posts/_mappings
{
  "properties": {
    "body": {
      "type": "text",
      "copy_to": "semantic_body"
    },
    "semantic_body": {
      "type": "semantic_text",
      "inference_id": ".elser-2-elasticsearch"
    }
  }
}

body 字段使用 Elasticsearch 的 ELSER 模型索引为语义文本


4. 开始抓取

运行爬虫以填充索引:

docker run --rm \
  --entrypoint /bin/bash \
  -v "$(pwd)/crawler-config:/app/config" \
  --network host \
  docker.elastic.co/integrations/crawler:latest \
  -c "bin/crawler crawl config/elastic-search-labs-crawler.yml"

[!TIP] 如果使用全新的 Elasticsearch 集群,请等待 ELSER 模型启动后再进行索引。


5. 验证索引文档

检查文档是否已索引:

GET search-labs-posts/_count

这将返回索引中的文档总数。您也可以在 Kibana 中进行验证。


完成! 您现在可以对 Search Labs 博客文章执行语义搜索了。

推荐服务器

Crypto Price & Market Analysis MCP Server

Crypto Price & Market Analysis MCP Server

一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。

精选
TypeScript
MCP PubMed Search

MCP PubMed Search

用于搜索 PubMed 的服务器(PubMed 是一个免费的在线数据库,用户可以在其中搜索生物医学和生命科学文献)。 我是在 MCP 发布当天创建的,但当时正在度假。 我看到有人在您的数据库中发布了类似的服务器,但还是决定发布我的服务器。

精选
Python
mixpanel

mixpanel

连接到您的 Mixpanel 数据。 从 Mixpanel 分析查询事件、留存和漏斗数据。

精选
TypeScript
Sequential Thinking MCP Server

Sequential Thinking MCP Server

这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

精选
Python
Nefino MCP Server

Nefino MCP Server

为大型语言模型提供访问德国可再生能源项目新闻和信息的能力,允许按地点、主题(太阳能、风能、氢能)和日期范围进行筛选。

官方
Python
Vectorize

Vectorize

将 MCP 服务器向量化以实现高级检索、私有深度研究、Anything-to-Markdown 文件提取和文本分块。

官方
JavaScript
Mathematica Documentation MCP server

Mathematica Documentation MCP server

一个服务器,通过 FastMCP 提供对 Mathematica 文档的访问,使用户能够从 Wolfram Mathematica 检索函数文档和列出软件包符号。

本地
Python
kb-mcp-server

kb-mcp-server

一个 MCP 服务器,旨在实现便携性、本地化、简易性和便利性,以支持对 txtai “all in one” 嵌入数据库进行基于语义/图的检索。任何 tar.gz 格式的 txtai 嵌入数据库都可以被加载。

本地
Python
Research MCP Server

Research MCP Server

这个服务器用作 MCP 服务器,与 Notion 交互以检索和创建调查数据,并与 Claude Desktop Client 集成以进行和审查调查。

本地
Python
Cryo MCP Server

Cryo MCP Server

一个API服务器,实现了模型补全协议(MCP),用于Cryo区块链数据提取,允许用户通过任何兼容MCP的客户端查询以太坊区块链数据。

本地
Python