Computer Control MCP

Computer Control MCP

提供计算机控制功能的 MCP 服务器,例如鼠标、键盘、OCR 等,使用 PyAutoGUI、RapidOCR、ONNXRuntime。类似于 Anthropic 的 'computer-use'。零外部依赖。

AB498

开发者工具
访问服务器

README

Computer Control MCP

MCP服务器,提供计算机控制功能,例如鼠标、键盘、OCR等,使用PyAutoGUI、RapidOCR、ONNXRuntime。类似于Anthropic的'computer-use'。零外部依赖。

  • 仅在Windows上测试过。应该可以在其他平台上工作。

<div style="text-align:center;font-family: monospace; display: flex; align-items: center; justify-content: center; width: 100%; gap: 10px"> <a href="https://discord.gg/dquNGYwfnW"><img src="https://img.shields.io/discord/1095854826786668545" alt="Discord"></a> <a href="https://img.shields.io/badge/License-MIT-yellow.svg"><img src="https://img.shields.io/badge/License-MIT-yellow.svg" alt="License: MIT"></a> </div>


MCP 计算机控制演示

快速使用 (使用 uvx 设置 MCP)

{
  "mcpServers": {
    "computer-control-mcp": {
      "command": "uvx",
      "args": ["computer-control-mcp@latest"]
    }
  }
}

或者使用 pip 全局安装:

pip install computer-control-mcp

然后运行服务器:

computer-control-mcp # 代替 uvx computer-control-mcp,这样您可以使用最新版本,您也可以使用 `uv cache clean` 清除缓存,然后再次 `uvx` 以使用最新版本。

功能

  • 控制鼠标移动和点击
  • 在当前光标位置输入文本
  • 截取整个屏幕或特定窗口的屏幕截图,并可选择保存到下载目录
  • 使用 OCR(光学字符识别)从屏幕截图中提取文本
  • 列出和激活窗口
  • 按下键盘按键
  • 拖放操作

可用工具

鼠标控制

  • click_screen(x: int, y: int): 点击指定屏幕坐标
  • move_mouse(x: int, y: int): 将鼠标光标移动到指定坐标
  • drag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5): 将鼠标从一个位置拖动到另一个位置

键盘控制

  • type_text(text: str): 在当前光标位置输入指定的文本
  • press_key(key: str): 按下指定的键盘按键

屏幕和窗口管理

  • take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False): 捕获屏幕或窗口,可选择进行 OCR
  • get_screen_size(): 获取当前屏幕分辨率
  • list_windows(): 列出所有打开的窗口
  • activate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60): 将指定的窗口置于前台

开发

设置开发环境

# 克隆仓库
git clone https://github.com/AB498/computer-control-mcp.git
cd computer-control-mcp

# 以开发模式安装
pip install -e .

运行测试

python -m pytest

API 参考

有关可用函数和类的详细信息,请参阅 API 参考

许可证

MIT

更多信息或帮助

推荐服务器

Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
MCP Package Docs Server

MCP Package Docs Server

促进大型语言模型高效访问和获取 Go、Python 和 NPM 包的结构化文档,通过多语言支持和性能优化来增强软件开发。

精选
本地
TypeScript
Claude Code MCP

Claude Code MCP

一个实现了 Claude Code 作为模型上下文协议(Model Context Protocol, MCP)服务器的方案,它可以通过标准化的 MCP 接口来使用 Claude 的软件工程能力(代码生成、编辑、审查和文件操作)。

精选
本地
JavaScript
@kazuph/mcp-taskmanager

@kazuph/mcp-taskmanager

用于任务管理的模型上下文协议服务器。它允许 Claude Desktop(或任何 MCP 客户端)在基于队列的系统中管理和执行任务。

精选
本地
JavaScript
mermaid-mcp-server

mermaid-mcp-server

一个模型上下文协议 (MCP) 服务器,用于将 Mermaid 图表转换为 PNG 图像。

精选
JavaScript
Jira-Context-MCP

Jira-Context-MCP

MCP 服务器向 AI 编码助手(如 Cursor)提供 Jira 工单信息。

精选
TypeScript
Linear MCP Server

Linear MCP Server

一个模型上下文协议(Model Context Protocol)服务器,它与 Linear 的问题跟踪系统集成,允许大型语言模型(LLM)通过自然语言交互来创建、更新、搜索和评论 Linear 问题。

精选
JavaScript
Sequential Thinking MCP Server

Sequential Thinking MCP Server

这个服务器通过将复杂问题分解为顺序步骤来促进结构化的问题解决,支持修订,并通过完整的 MCP 集成来实现多条解决方案路径。

精选
Python
Curri MCP Server

Curri MCP Server

通过管理文本笔记、提供笔记创建工具以及使用结构化提示生成摘要,从而实现与 Curri API 的交互。

官方
本地
JavaScript