MCP 服务器

Unsloth MCP Server

提供使用 Unsloth 优化、微调和部署大型语言模型的工具，通过模型加载、微调、文本生成和模型导出功能，实现 2 倍速的训练速度和 80% 的内存占用减少。

README

Unsloth MCP 服务器

一个用于 Unsloth 的 MCP 服务器 - 一个使 LLM 微调速度提高 2 倍，内存减少 80% 的库。

什么是 Unsloth？

Unsloth 是一个显著提高大型语言模型微调效率的库：

速度：与标准方法相比，微调速度提高 2 倍
内存：VRAM 使用量减少 80%，允许在消费级 GPU 上微调更大的模型
上下文长度：上下文长度最多可延长 13 倍（例如，在 80GB GPU 上，Llama 3.3 的 token 数为 89K）
准确性：模型质量或性能无损失

Unsloth 通过使用 OpenAI 的 Triton 语言编写的自定义 CUDA 内核、优化的反向传播和动态 4 位量化来实现这些改进。

特性

优化 Llama、Mistral、Phi、Gemma 和其他模型的微调
4 位量化，实现高效训练
扩展的上下文长度支持
简单的 API，用于模型加载、微调和推理
导出为各种格式（GGUF、Hugging Face 等）

快速开始

安装 Unsloth：pip install unsloth

安装并构建服务器：

cd unsloth-server
npm install
npm run build

添加到 MCP 设置：

{
  "mcpServers": {
    "unsloth-server": {
      "command": "node",
      "args": ["/path/to/unsloth-server/build/index.js"],
      "env": {
        "HUGGINGFACE_TOKEN": "your_token_here" // 可选
      },
      "disabled": false,
      "autoApprove": []
    }
  }
}

可用工具

check_installation

验证 Unsloth 是否已正确安装在您的系统上。

参数：无

示例：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "check_installation",
  arguments: {}
});

list_supported_models

获取 Unsloth 支持的所有模型的列表，包括 Llama、Mistral、Phi 和 Gemma 变体。

参数：无

示例：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "list_supported_models",
  arguments: {}
});

load_model

加载具有 Unsloth 优化的预训练模型，以实现更快的推理和微调。

参数：

model_name（必需）：要加载的模型的名称（例如，“unsloth/Llama-3.2-1B”）
max_seq_length（可选）：模型允许的最大序列长度（默认值：2048）
load_in_4bit（可选）：是否以 4 位量化加载模型（默认值：true）
use_gradient_checkpointing（可选）：是否使用梯度检查点来节省内存（默认值：true）

示例：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "load_model",
  arguments: {
    model_name: "unsloth/Llama-3.2-1B",
    max_seq_length: 4096,
    load_in_4bit: true
  }
});

finetune_model

使用 LoRA/QLoRA 技术，通过 Unsloth 优化来微调模型。

参数：

model_name（必需）：要微调的模型的名称
dataset_name（必需）：用于微调的数据集的名称
output_dir（必需）：保存微调模型的目录
max_seq_length（可选）：训练的最大序列长度（默认值：2048）
lora_rank（可选）：LoRA 微调的秩（默认值：16）
lora_alpha（可选）：LoRA 微调的 alpha 值（默认值：16）
batch_size（可选）：训练的批处理大小（默认值：2）
gradient_accumulation_steps（可选）：梯度累积步数（默认值：4）
learning_rate（可选）：训练的学习率（默认值：2e-4）
max_steps（可选）：最大训练步数（默认值：100）
dataset_text_field（可选）：数据集中包含文本的字段（默认值：“text”）
load_in_4bit（可选）：是否使用 4 位量化（默认值：true）

示例：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "finetune_model",
  arguments: {
    model_name: "unsloth/Llama-3.2-1B",
    dataset_name: "tatsu-lab/alpaca",
    output_dir: "./fine-tuned-model",
    max_steps: 100,
    batch_size: 2,
    learning_rate: 2e-4
  }
});

generate_text

使用微调的 Unsloth 模型生成文本。

参数：

model_path（必需）：微调模型的路径
prompt（必需）：文本生成的提示
max_new_tokens（可选）：要生成的最大 token 数（默认值：256）
temperature（可选）：文本生成的温度（默认值：0.7）
top_p（可选）：文本生成的 top-p 值（默认值：0.9）

示例：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "generate_text",
  arguments: {
    model_path: "./fine-tuned-model",
    prompt: "写一个关于机器人学习绘画的短篇故事：",
    max_new_tokens: 512,
    temperature: 0.8
  }
});

export_model

将微调的 Unsloth 模型导出为各种格式以进行部署。

参数：

model_path（必需）：微调模型的路径
export_format（必需）：要导出的格式（gguf、ollama、vllm、huggingface）
output_path（必需）：保存导出模型的路径
quantization_bits（可选）：量化的位数（用于 GGUF 导出）（默认值：4）

示例：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "export_model",
  arguments: {
    model_path: "./fine-tuned-model",
    export_format: "gguf",
    output_path: "./exported-model.gguf",
    quantization_bits: 4
  }
});

高级用法

自定义数据集

您可以通过正确格式化自定义数据集并将其托管在 Hugging Face 上或提供本地路径来使用它们：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "finetune_model",
  arguments: {
    model_name: "unsloth/Llama-3.2-1B",
    dataset_name: "json",
    data_files: {"train": "path/to/your/data.json"},
    output_dir: "./fine-tuned-model"
  }
});

内存优化

对于硬件受限的大型模型：

减少批处理大小并增加梯度累积步数
使用 4 位量化
启用梯度检查点
尽可能减少序列长度

故障排除

常见问题

CUDA 内存不足：减少批处理大小，使用 4 位量化，或尝试较小的模型
导入错误：确保您安装了正确版本的 torch、transformers 和 unsloth
找不到模型：检查您是否使用了受支持的模型名称或是否有权访问私有模型

版本兼容性

Python：3.10、3.11 或 3.12（不是 3.13）
CUDA：建议使用 11.8 或 12.1+
PyTorch：建议使用 2.0+

性能基准

模型	VRAM	Unsloth 速度	VRAM 减少	上下文长度
Llama 3.3 (70B)	80GB	速度提高 2 倍	>75%	延长 13 倍
Llama 3.1 (8B)	80GB	速度提高 2 倍	>70%	延长 12 倍
Mistral v0.3 (7B)	80GB	速度提高 2.2 倍	减少 75%	-