图形界面 本文介绍如何通过 SDK 调用 Computer Use 能力完成图形用户界面自动化操作。 基本流程 图形用户界面自动化通常遵循以下流程: 1. 创建会话。 2. 截图观察当前界面。 3. 根据界面状态决定下一步动作。 4. 执行鼠标或键盘操作。 5. 等待应用响应。 6. 再次截图确认结果。 7. 关闭会话。 鼠标移动 plaintext await session.computer.movemouse({ x: 500, y: 300 }); 鼠标点击 plaintext await session.computer.clickmouse({ x: 500, y: 300, clickMode: 'left' }); 常用点击模式: clickMode 说明 left 左键单击 right 右键单击 middle 中键单击 doubleleft 左键双击 如需只按下或只释放鼠标,可使用: plaintext await session.computer.pressmouse({ x: 500, y: 300, clickMode: 'left' }); await session.computer.releasemouse({ x: 500, y: 300, clickMode: 'left' }); 拖拽 plaintext await session.computer.dragmouse({ startX: 500, startY: 300, endX: 800, endY: 500 }); 滚动 plaintext await session.computer.scroll({ startX: 500, startY: 300, direction: 'down', amount: 3 }); direction 支持 up、down、left、right。具体滚动效果会受目标系统和应用影响。 键盘按键 plaintext await session.computer.presskey({ key: 'Enter' }); 组合键可使用空格分隔: plaintext await session.computer.presskey({ key: 'ctrl c' });