
Entity Identificationn
识别两组数据是否来自同一实体。
u3588064
README
EntityIdentification
识别两组数据是否来自同一主体
这是一个支持MCP协议的服务器。
数据比较工具
该工具提供了一种全面的方法来比较两组数据,评估其值的精确相等性和语义相等性。它利用文本规范化和语言模型来确定数据是否来自同一主体。
特性
- 文本规范化: 将文本转换为小写,删除标点符号,并规范化空格。
- 值比较: 直接和语义地比较值(对于列表,忽略顺序)。
- JSON 遍历: 迭代 JSON 对象中的每个键,并比较相应的值。
- 语言模型集成: 使用生成式语言模型来评估语义相似性,并提供关于数据是否来自同一主体的最终判断。
安装
要使用此工具,请确保已安装必要的依赖项。您可以使用 pip 安装它们:
pip install genai
用法
函数
-
normalize_text(text):
- 通过将输入文本转换为小写,删除标点符号,并规范化空格来规范化文本。
-
compare_values(val1, val2):
- 精确地和语义地比较两个值。
- 如果这些值是列表,它会忽略元素顺序以进行语义比较。
-
compare_json(json1, json2):
- 逐个键地比较两个 JSON 对象。
- 使用
compare_values
来评估每个键的值。 - 集成语言模型以评估语义相似性并提供最终判断。
示例
import json
import genai
import re
# 定义您的 JSON 对象
json1 = {
"name": "John Doe",
"address": "123 Main St, Anytown, USA",
"hobbies": ["reading", "hiking", "coding"]
}
json2 = {
"name": "john doe",
"address": "123 Main Street, Anytown, USA",
"hobbies": ["coding", "hiking", "reading"]
}
# 比较 JSON 对象
comparison_results = compare_json(json1, json2)
# 生成最终匹配结果
model1 = genai.GenerativeModel("gemini-2.0-flash-thinking-exp")
result_matching = model1.generate_content("综合这些信息,你认为可以判断两个数据来自同一主体吗?"+json.dumps(comparison_results, ensure_ascii=False, indent=4))
print(result_matching.text)
贡献
欢迎贡献!请打开一个 issue 或提交一个 pull request。
许可
该项目根据 MIT 许可证获得许可。有关详细信息,请参见 LICENSE 文件。
联系方式
如果您有任何问题或建议,请联系我:
- 电子邮件:u3588064@connect.hku.hk
- GitHub: u3588064@connect.hku.hk。
微信
推荐服务器
Crypto Price & Market Analysis MCP Server
一个模型上下文协议 (MCP) 服务器,它使用 CoinCap API 提供全面的加密货币分析。该服务器通过一个易于使用的界面提供实时价格数据、市场分析和历史趋势。 (Alternative, slightly more formal and technical translation): 一个模型上下文协议 (MCP) 服务器,利用 CoinCap API 提供全面的加密货币分析服务。该服务器通过用户友好的界面,提供实时价格数据、市场分析以及历史趋势数据。
MCP PubMed Search
用于搜索 PubMed 的服务器(PubMed 是一个免费的在线数据库,用户可以在其中搜索生物医学和生命科学文献)。 我是在 MCP 发布当天创建的,但当时正在度假。 我看到有人在您的数据库中发布了类似的服务器,但还是决定发布我的服务器。
mixpanel
连接到您的 Mixpanel 数据。 从 Mixpanel 分析查询事件、留存和漏斗数据。

Sequential Thinking MCP Server
这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

Nefino MCP Server
为大型语言模型提供访问德国可再生能源项目新闻和信息的能力,允许按地点、主题(太阳能、风能、氢能)和日期范围进行筛选。
Vectorize
将 MCP 服务器向量化以实现高级检索、私有深度研究、Anything-to-Markdown 文件提取和文本分块。
Mathematica Documentation MCP server
一个服务器,通过 FastMCP 提供对 Mathematica 文档的访问,使用户能够从 Wolfram Mathematica 检索函数文档和列出软件包符号。
kb-mcp-server
一个 MCP 服务器,旨在实现便携性、本地化、简易性和便利性,以支持对 txtai “all in one” 嵌入数据库进行基于语义/图的检索。任何 tar.gz 格式的 txtai 嵌入数据库都可以被加载。
Research MCP Server
这个服务器用作 MCP 服务器,与 Notion 交互以检索和创建调查数据,并与 Claude Desktop Client 集成以进行和审查调查。

Cryo MCP Server
一个API服务器,实现了模型补全协议(MCP),用于Cryo区块链数据提取,允许用户通过任何兼容MCP的客户端查询以太坊区块链数据。