图形界面
更新时间 2026-05-09 17:04:43
最近更新时间: 2026-05-09 17:04:43
本文介绍如何通过 SDK 调用 Computer Use 能力完成图形用户界面自动化操作。
基本流程
图形用户界面自动化通常遵循以下流程:
创建会话。
截图观察当前界面。
根据界面状态决定下一步动作。
执行鼠标或键盘操作。
等待应用响应。
再次截图确认结果。
关闭会话。
鼠标移动
await session.computer.move_mouse({ x: 500, y: 300 });鼠标点击
await session.computer.click_mouse({
x: 500,
y: 300,
clickMode: 'left'
});常用点击模式:
| clickMode | 说明 |
|---|---|
| left | 左键单击 |
| right | 右键单击 |
| middle | 中键单击 |
| double_left | 左键双击 |
如需只按下或只释放鼠标,可使用:
await session.computer.press_mouse({ x: 500, y: 300, clickMode: 'left' });
await session.computer.release_mouse({ x: 500, y: 300, clickMode: 'left' });拖拽
await session.computer.drag_mouse({
startX: 500,
startY: 300,
endX: 800,
endY: 500
});滚动
await session.computer.scroll({
startX: 500,
startY: 300,
direction: 'down',
amount: 3
});direction 支持 up、down、left、right。具体滚动效果会受目标系统和应用影响。
键盘按键
await session.computer.press_key({ key: 'Enter' });组合键可使用空格分隔:
await session.computer.press_key({ key: 'ctrl c' });文本输入
await session.computer.type_text({
text: 'Hello from AIuse'
});截图
const result = await session.computer.screen_shot();截图可用于:
确认应用是否启动成功。
判断页面是否加载完成。
记录任务执行过程。
作为自动化任务下一步决策的观察输入。
获取鼠标位置
const position = await session.computer.get_cursor_position();稳定性建议
不建议在没有截图确认的情况下连续执行大量固定坐标点击。
对窗口位置敏感的任务,建议先最大化窗口或恢复固定布局。
对加载时间不稳定的页面,建议加入等待和状态检查。
对关键操作进行截图留痕,便于排查。
任务结束后应关闭会话,避免资源长期占用。