
MCP Desktop Automation
一个模型上下文协议服务器,它使用 RobotJS 提供桌面自动化功能,并提供屏幕截图功能,使大型语言模型 (LLM) 能够控制鼠标移动、键盘输入以及捕获桌面环境的屏幕截图。
README
MCP 桌面自动化
一个模型上下文协议服务器,提供使用 RobotJS 的桌面自动化功能和截图功能。该服务器使 LLM 能够控制鼠标移动、键盘输入以及捕获桌面环境的屏幕截图。
配置以使用桌面自动化服务器
以下是如何配置 Claude Desktop 以使用 MCP 桌面自动化服务器:
NPX
{
"mcpServers": {
"desktop-automation": {
"command": "npx",
"args": ["-y", "mcp-desktop-automation"]
}
}
}
权限
此服务器需要系统级权限才能:
- 捕获屏幕截图
- 控制鼠标移动和点击
- 模拟键盘输入
首次使用 Claude Desktop 运行此服务器时,您可能需要在操作系统的安全设置中授予这些权限。
局限性
虽然此服务器适用于各种 MCP 客户端,但它主要经过 Claude Desktop 的测试。
重要提示:当前实现具有 1MB 的响应大小限制。对于屏幕截图,这意味着:
- 高分辨率屏幕截图可能会超过此限制并失败
- 测试表明 800x600 分辨率可以可靠地工作
- 如果遇到问题,请考虑降低屏幕分辨率或捕获特定屏幕区域
要求
- Node.js (>=14.x)
组件
工具
-
get_screen_size
- 获取屏幕尺寸
- 无需输入参数
-
screen_capture
- 捕获当前屏幕内容
- 无需输入参数
-
keyboard_press
- 按下一个键盘键或组合键
- 输入:
key
(string, 必需): 要按下的键 (例如, 'enter', 'a', 'control')modifiers
(array of strings, 可选): 按键时按住的修饰键。可能的值: "control", "shift", "alt", "command"
-
keyboard_type
- 在当前光标位置键入文本
- 输入:
text
(string, 必需): 要键入的文本
-
mouse_click
- 执行鼠标点击
- 输入:
button
(string, 可选, 默认: "left"): 要点击的鼠标按钮。可能的值: "left", "right", "middle"double
(boolean, 可选, 默认: false): 是否执行双击
-
mouse_move
- 将鼠标移动到指定的坐标
- 输入:
x
(number, 必需): X 坐标y
(number, 必需): Y 坐标
资源
该服务器提供对屏幕截图的访问:
-
屏幕截图列表 (
screenshot://list
)- 按名称列出所有可用的屏幕截图
-
屏幕截图内容 (
screenshot://{id}
)- 捕获的屏幕截图的 PNG 图像
- 可通过屏幕截图 ID 访问(基于时间戳的命名)
主要特点
- 桌面鼠标控制
- 键盘输入模拟
- 屏幕尺寸检测
- 屏幕截图功能
- 简单的 JSON 响应格式
许可证
此 MCP 服务器在 MIT 许可证下获得许可。 这意味着您可以自由使用、修改和分发该软件,但须遵守 MIT 许可证的条款和条件。 有关更多详细信息,请参阅项目存储库中的 LICENSE 文件。
推荐服务器

Baidu Map
百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。
Playwright MCP Server
一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。
Magic Component Platform (MCP)
一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。
Audiense Insights MCP Server
通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

VeyraX
一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。
graphlit-mcp-server
模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。
Kagi MCP Server
一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

e2b-mcp-server
使用 MCP 通过 e2b 运行代码。
Neon MCP Server
用于与 Neon 管理 API 和数据库交互的 MCP 服务器
Exa MCP Server
模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。