MCP 服务器

MCP Docling Server

一个服务器，它使用模型上下文协议提供文档处理能力，允许将文档转换为 Markdown 格式、提取表格以及处理文档图像。

README

MCP Docling 服务器

一个使用 Docling 库提供文档处理能力的 MCP 服务器。

安装

您可以使用 pip 安装此包：

pip install -e .

用法

使用 stdio（默认）或 SSE 传输方式启动服务器：

# 使用 stdio 传输方式（默认）
mcp-server-lls

# 使用 SSE 传输方式，自定义端口
mcp-server-lls --transport sse --port 8000

如果您使用 uv，您可以直接运行服务器，无需安装：

# 使用 stdio 传输方式（默认）
uv run mcp-server-lls

# 使用 SSE 传输方式，自定义端口
uv run mcp-server-lls --transport sse --port 8000

可用工具

服务器公开以下工具：

convert_document: 将文档从 URL 或本地路径转换为 markdown 格式
- source: 文档的 URL 或本地文件路径（必需）
- enable_ocr: 是否为扫描文档启用 OCR（可选，默认值：false）
- ocr_language: OCR 的语言代码列表，例如 ["en", "fr"]（可选）
convert_document_with_images: 转换文档并提取嵌入的图像
- source: 文档的 URL 或本地文件路径（必需）
- enable_ocr: 是否为扫描文档启用 OCR（可选，默认值：false）
- ocr_language: OCR 的语言代码列表（可选）
extract_tables: 从文档中提取表格作为结构化数据
- source: 文档的 URL 或本地文件路径（必需）
convert_batch: 以批量模式处理多个文档
- sources: 文档的 URL 或文件路径列表（必需）
- enable_ocr: 是否为扫描文档启用 OCR（可选，默认值：false）
- ocr_language: OCR 的语言代码列表（可选）
qna_from_document: 从 URL 或本地路径创建 Q&A 文档为 YAML 格式
- source: 文档的 URL 或本地文件路径（必需）
- no_of_qnas: 期望的 Q&A 数量（可选，默认值：5）
- 注意: 此工具需要将 IBM Watson X 凭据设置为环境变量：
  - WATSONX_PROJECT_ID: 您的 Watson X 项目 ID
  - WATSONX_APIKEY: 您的 IBM Cloud API 密钥
  - WATSONX_URL: Watson X API URL（默认值：https://us-south.ml.cloud.ibm.com）
get_system_info: 获取有关系统配置和加速状态的信息

与 Llama Stack 的示例

https://github.com/user-attachments/assets/8ad34e50-cbf7-4ec8-aedd-71c42a5de0a1

您可以将此服务器与 Llama Stack 结合使用，为您的 LLM 应用程序提供文档处理能力。确保您有一个正在运行的 Llama Stack 服务器，然后配置您的 INFERENCE_MODEL

from llama_stack_client.lib.agents.agent import Agent
from llama_stack_client.lib.agents.event_logger import EventLogger
from llama_stack_client.types.agent_create_params import AgentConfig
from llama_stack_client.types.shared_params.url import URL
from llama_stack_client import LlamaStackClient
import os

# 设置您的模型 ID
model_id = os.environ["INFERENCE_MODEL"]
client = LlamaStackClient(
    base_url=f"http://localhost:{os.environ.get('LLAMA_STACK_PORT', '8080')}"
)

# 注册 MCP 工具
client.toolgroups.register(
    toolgroup_id="mcp::docling",
    provider_id="model-context-protocol",
    mcp_endpoint=URL(uri="http://0.0.0.0:8000/sse"))

# 定义一个带有 MCP 工具组的代理
agent_config = AgentConfig(
    model=model_id,
    instructions="""您是一个有用的助手，可以访问操作文档的工具。
当被要求处理文档时，请始终使用适当的工具。""",
    toolgroups=["mcp::docling"],
    tool_choice="auto",
    max_tool_calls=3,
)

# 创建代理
agent = Agent(client, agent_config)

# 创建一个会话
session_id = agent.create_session("test-session")

def _summary_and_qna(source: str):
    # 定义提示
    run_turn(f"请将 {source} 的文档转换为 markdown 并总结其内容。")
    run_turn(f"请为 {source} 的源生成一个包含 3 个项目的 Q&A 文档，并以 YAML 格式显示。")

def _run_turn(prompt):
    # 创建一个 turn
    response = agent.create_turn(
        messages=[
            {
                "role": "user",
                "content": prompt,
            }
        ],
        session_id=session_id,
    )

    # 记录响应
    for log in EventLogger().log(response):
        log.print()

_summary_and_qna('https://arxiv.org/pdf/2004.07606')