AI 自动化模式
🤖 AI 自动化模式
- 连接设备 - 使用上述任一方式连接设备(推荐 Android 11+ 的二维码配对)
- 选择设备 - 在左侧边栏选择要控制的设备
- 初始化 - 点击"初始化设备"按钮配置 Agent
- 对话 - 描述你想要做什么(例如:"去美团点一杯霸王茶姬的伯牙绝弦")
- 观察 - Agent 会逐步执行操作,每一步的思考过程和动作都会实时显示
选择 Agent 类型
在初始化设备时,可以选择不同的 Agent 类型(默认:GLM Agent):
- GLM Agent:基于 GLM 模型优化,成熟稳定,适合大多数任务
- MAI Agent:阿里通义团队开发的 Mobile Agent,支持多张历史截图上下文,适合复杂任务
MAI Agent 可配置参数:
history_n:历史截图数量(1-10,默认:3)
🌿 普通模式(单模型 / Open AutoGLM)
这是开源 AutoGLM-Phone 的“原生形态”:由一个视觉模型直接完成「理解任务 → 规划步骤 → 观察屏幕 → 执行动作」的完整闭环。
- 优点:配置最简单,上手最快
- 适用场景:目标明确、步骤较少的任务(例如打开应用、简单导航)
🧠 双模型协作模式(增强)
双模型模式通过决策大模型(负责规划/纠错) + **视觉小模型(负责观察/操作)**协作,提升复杂任务的稳定性与可控性。
工作模式(Thinking Mode)
- 🚀 TURBO(推荐):大模型先生成“操作序列”,视觉模型批量执行;仅在异常时触发重规划(通常 1-2 次大模型调用)
- 🎯 DEEP:每一步都调用大模型做决策与分析,最稳但成本/耗时更高
- ⚡ FAST:同样逐步决策,但提示词更短、响应更快,适合轻量任务
配置要点
- 决策大模型:建议使用推理/规划能力较强的模型(如 GLM-4.7、GPT-4、Claude 等)
- 视觉小模型:建议使用具备 GUI 观察与操作能力的模型(如 AutoGLM-Phone-9B /
autoglm-phone)
🧩 分层代理模式(Layered Agent,增强 / 实验性)
分层代理模式是更“严格”的两层结构:规划层专注拆解与推理,执行层专注观察与操作,二者通过工具调用协作完成任务。
- 工作方式:规划层(决策模型)会调用工具(如
list_devices()/chat(device_id, message))去驱动执行层;你能在界面里看到每次工具调用与返回结果 - 执行粒度:执行层每次只做一个“原子子任务”,并有步数上限(例如每次最多 5 步),便于规划层按反馈动态调整策略
- 适用场景:需要多轮推理、需要“边看边问边改计划”的复杂任务(例如浏览/筛选/对比、多轮表单填写等)
- 重要限制:执行层不负责“记笔记/保存中间信息/直接提取文本变量”;规划层需要信息时必须通过提问让执行层把屏幕内容“念出来”
🎭 三种工作模式对比
AutoGLM-GUI 提供了三种不同的代理工作模式,适用于不同的使用场景:
1️⃣ 经典模式(Classic Mode)
- 架构:单一
autoglm-phone视觉模型直接处理(即普通 Open AutoGLM 的体验) - 适用场景:简单、明确的任务
- 特点:配置简单,适合快速上手
2️⃣ 双模型协作(Dual Model)
- 架构:决策大模型(GLM-4.7/GPT-4)+ 视觉小模型(autoglm-phone)
- 适用场景:需要智能规划的中高复杂度任务
- 特点:支持 TURBO/DEEP/FAST 三种思考模式,在成本、速度与稳定性之间做权衡
3️⃣ 分层代理(Layered Agent)🆕 实验性功能
- 架构:基于 Agent SDK 的分层任务执行系统
- 规划层:决策模型作为高级智能中枢,负责任务拆解和多轮推理
- 执行层:autoglm-phone 作为执行者,只负责观察和操作
- 适用场景:需要多轮交互和复杂推理的高级任务
- 特点:规划层通过工具调用驱动执行层,过程更透明、更便于调试与迭代策略
选择建议:
- 🚀 常规任务(订外卖、打车):双模型 TURBO 模式
- 🎯 复杂任务(浏览并评论帖子):双模型 DEEP 模式
- 🏗️ 需要多轮推理的任务:分层代理模式
💬 我们需要你的反馈! 不同的任务场景适合不同的模式,我们正在持续优化这些模式的性能和易用性。如果你在使用过程中有任何建议、遇到问题或发现某个模式特别好用/不好用,欢迎通过 GitHub Issues 或 QQ 交流群 告诉我们。你的反馈将帮助我们改进产品!