Computer Use 是 AIuse 云电脑面向 Agent 和自动化系统提供的图形用户界面操作能力。调用方可以通过 SDK 或 MCP 对云电脑执行鼠标、键盘、截图等操作,使 Agent 能够像用户一样观察和操作桌面环境。
能力概述
Computer Use 当前重点覆盖以下能力:
| 能力 | 说明 |
|---|---|
| 鼠标控制 | 支持移动、点击、双击、右键、按下、释放、拖拽和滚动 |
| 键盘控制 | 支持按键、组合键和文本输入 |
| 屏幕观察 | 支持截取当前桌面屏幕,用于 Agent 观察界面状态 |
| 坐标获取 | 支持获取当前鼠标位置 |
| 等待控制 | 支持在自动化流程中等待页面或应用响应 |
工作方式
Computer Use 的典型工作流程如下:
调用方创建连接或会话。
调用截图能力获取当前桌面画面。
Agent 或业务逻辑根据界面状态生成下一步操作。
调用鼠标或键盘工具执行操作。
重复观察、决策和执行,直到任务结束。
关闭会话并释放资源。
适用场景
Computer Use 适用于以下场景:
需要操作传统桌面软件,但软件本身不提供开放 API。
需要让 Agent 通过图形界面完成表单填写、信息录入、批量查询等任务。
需要在云端隔离环境中执行桌面自动化。
需要对浏览器、办公软件、业务系统客户端等 GUI 程序进行自动化操作。
需要结合截图能力进行视觉观察和步骤决策。
浏览器场景说明
当前版本可通过 Computer Use 操作云电脑中的浏览器,例如点击页面、输入文本、滚动页面和截屏观察。
需要注意的是,当前文档不将其描述为独立的 Browser Use 能力。若后续提供浏览器专用 API、标签页管理、网络请求观测、DOM 级操作等能力,可再独立建设 Browser Use 文档。
调用方式
Computer Use 能力可通过以下方式接入:
SDK:适合业务系统主动编排任务流程。
MCP:适合 MCP Client、Agent 宿主或 IDE 插件以工具方式调用。
操作坐标说明
鼠标相关接口通常使用桌面屏幕坐标。坐标原点一般位于屏幕左上角,X 轴向右递增,Y 轴向下递增。
在实际自动化流程中,建议先截图确认窗口位置和分辨率,再执行坐标点击或拖拽操作。对于分辨率、窗口布局可能变化的任务,应尽量通过截图识别、固定窗口布局或前置校验降低误操作风险。
使用建议
在执行点击前,建议先通过截图确认目标界面处于预期状态。
对页面加载、软件启动、弹窗出现等耗时操作,应加入等待和状态检查。
对重要操作,如提交、删除、付款等,应增加二次确认逻辑。
对需要批量执行的任务,应记录每一步操作结果,便于后续审计和问题排查。
能力边界
Computer Use 主要面向 GUI 自动化,不等同于业务系统 API。对于可通过接口直接完成的任务,优先使用业务接口通常更稳定、更可审计。对于界面变化频繁、坐标不稳定或存在复杂验证码的场景,需要结合业务策略评估可行性。