Smooth Operator Agent Tools

Smooth Operator Agent Tools

Windows自动化MCP产品 * AI视觉(例如,通过描述点击) * Windows UI自动化树工具 * 通过Playwright进行Chrome自动化 * 鼠标控制 * 键盘控制 * 还有更多(超过40个工具) 同时提供Python/TypeScript/C#客户端库和一个Windows桌面工具来尝试所有工具。

Category
访问服务器

README

Smooth Operator Agent Tools - Python 库

这是 Smooth Operator Agent Tools 的官方 Python 库实现,Smooth Operator Agent Tools 是一套最先进的工具包,供程序员在 Windows 系统上开发计算机使用代理(Computer Use Agents)。

概述

Smooth Operator Agent Tools 是一套强大的工具包,可以处理与 Windows 自动化树和 Playwright 浏览器控件交互的复杂任务,同时提供高级 AI 功能,例如通过屏幕截图和文本描述识别 UI 元素。

这个 Python 库为 Smooth Operator Tools Server API 提供了一个方便的封装器,使您可以轻松地将这些功能集成到您的 Python 应用程序中。

所有功能都可以在代码实现之前通过方便的 Windows 用户界面进行测试和探索。 在 Smooth Operator Tools UI 试用它们。

安装

pip install smooth-operator-agent-tools

前提条件

Google Chrome

Smooth Operator Agent Tools 库需要系统上安装 Google Chrome(或兼容的 Chromium 内核浏览器),以便浏览器自动化功能正常工作。

服务器安装

Smooth Operator 客户端库包含一个服务器组件,需要在您的应用程序数据目录中安装。 服务器文件与库一起打包,并在首次使用时自动解压缩。

首次执行

首次使用该库时,它将自动执行以下操作:

  1. 创建目录 %APPDATA%\SmoothOperator\AgentToolsServer(或您的操作系统上的等效目录)
  2. 从包中提取服务器文件
  3. 启动服务器进程

请注意,要使 Chrome 自动化功能正常工作,您需要确保已按照“前提条件”部分中的说明安装了 Node.js 和 Playwright。

对于应用程序安装程序

如果您正在构建包含此库的应用程序安装程序,则应包含在应用程序安装过程中安装 Node.js 和 Playwright 的步骤,以获得更好的用户体验。 有关所需的安装步骤,请参见“前提条件”部分。

用法

from smooth_operator_agent_tools import SmoothOperatorClient

# 使用您的 API 密钥初始化客户端,在 https://screengrasp.com/api.html 免费获取
client = SmoothOperatorClient(api_key="YOUR_API_KEY")

# 启动服务器 - 这需要一些时间
client.start_server()

# 截取屏幕截图
screenshot = client.screenshot.take()

# 获取系统概览
overview = client.system.get_overview()

# 执行鼠标点击
client.mouse.click(500, 300)

# 通过描述查找并单击 UI 元素
client.mouse.click_by_description("Submit button")

# 输入文本
client.keyboard.type("Hello, world!")

# 控制 Chrome 浏览器
client.chrome.open_chrome("https://www.example.com")
client.chrome.get_dom()

# 您还可以在许多对象上使用 to_json_string() 方法
# 获取一个 JSON 字符串,该字符串可以轻松地用于 LLM 的提示中
# 以便更多地利用 AI 进行自动化决策

功能

  • 屏幕截图和分析:捕获屏幕截图并分析 UI 元素
  • 鼠标控制:使用坐标或 AI 驱动的元素检测进行精确的鼠标操作
  • 键盘输入:键入文本并发送组合键
  • Chrome 浏览器控制:导航、与元素交互并执行 JavaScript
  • Windows 自动化:与 Windows 应用程序和 UI 元素交互
  • 系统操作:打开应用程序并管理系统状态

文档

有关详细的 API 文档,请访问:

  • 使用指南: 常见用例的详细示例和说明。
  • 示例项目: 下载,按照逐步说明进行操作,并在几分钟内运行您的第一个自动化。
  • 文档: 详细记录了服务器所有 API 端点,这些端点在内部执行工作。

许可证

该项目已获得 MIT 许可证的许可 - 有关详细信息,请参见 LICENSE 文件。

推荐服务器

Baidu Map

Baidu Map

百度地图核心API现已全面兼容MCP协议,是国内首家兼容MCP协议的地图服务商。

官方
精选
JavaScript
Playwright MCP Server

Playwright MCP Server

一个模型上下文协议服务器,它使大型语言模型能够通过结构化的可访问性快照与网页进行交互,而无需视觉模型或屏幕截图。

官方
精选
TypeScript
Magic Component Platform (MCP)

Magic Component Platform (MCP)

一个由人工智能驱动的工具,可以从自然语言描述生成现代化的用户界面组件,并与流行的集成开发环境(IDE)集成,从而简化用户界面开发流程。

官方
精选
本地
TypeScript
Audiense Insights MCP Server

Audiense Insights MCP Server

通过模型上下文协议启用与 Audiense Insights 账户的交互,从而促进营销洞察和受众数据的提取和分析,包括人口统计信息、行为和影响者互动。

官方
精选
本地
TypeScript
VeyraX

VeyraX

一个单一的 MCP 工具,连接你所有喜爱的工具:Gmail、日历以及其他 40 多个工具。

官方
精选
本地
graphlit-mcp-server

graphlit-mcp-server

模型上下文协议 (MCP) 服务器实现了 MCP 客户端与 Graphlit 服务之间的集成。 除了网络爬取之外,还可以将任何内容(从 Slack 到 Gmail 再到播客订阅源)导入到 Graphlit 项目中,然后从 MCP 客户端检索相关内容。

官方
精选
TypeScript
Kagi MCP Server

Kagi MCP Server

一个 MCP 服务器,集成了 Kagi 搜索功能和 Claude AI,使 Claude 能够在回答需要最新信息的问题时执行实时网络搜索。

官方
精选
Python
e2b-mcp-server

e2b-mcp-server

使用 MCP 通过 e2b 运行代码。

官方
精选
Neon MCP Server

Neon MCP Server

用于与 Neon 管理 API 和数据库交互的 MCP 服务器

官方
精选
Exa MCP Server

Exa MCP Server

模型上下文协议(MCP)服务器允许像 Claude 这样的 AI 助手使用 Exa AI 搜索 API 进行网络搜索。这种设置允许 AI 模型以安全和受控的方式获取实时的网络信息。

官方
精选