AI 自动化模式

🤖 AI 自动化模式

连接设备 - 使用上述任一方式连接设备（推荐 Android 11+ 的二维码配对）
选择设备 - 在左侧边栏选择要控制的设备
初始化 - 点击"初始化设备"按钮配置 Agent
对话 - 描述你想要做什么（例如："去美团点一杯霸王茶姬的伯牙绝弦"）
观察 - Agent 会逐步执行操作，每一步的思考过程和动作都会实时显示

选择 Agent 类型

在初始化设备时，可以选择不同的 Agent 类型（默认：GLM Agent）：

GLM Agent：基于 GLM 模型优化，成熟稳定，适合大多数任务
MAI Agent：阿里通义团队开发的 Mobile Agent，支持多张历史截图上下文，适合复杂任务

MAI Agent 可配置参数：

history_n：历史截图数量（1-10，默认：3）

🌿 普通模式（单模型 / Open AutoGLM）

这是开源 AutoGLM-Phone 的“原生形态”：由一个视觉模型直接完成「理解任务 → 规划步骤 → 观察屏幕 → 执行动作」的完整闭环。

优点：配置最简单，上手最快
适用场景：目标明确、步骤较少的任务（例如打开应用、简单导航）

🧠 双模型协作模式（增强）

双模型模式通过决策大模型（负责规划/纠错） + **视觉小模型（负责观察/操作）**协作，提升复杂任务的稳定性与可控性。

工作模式（Thinking Mode）

🚀 TURBO（推荐）：大模型先生成“操作序列”，视觉模型批量执行；仅在异常时触发重规划（通常 1-2 次大模型调用）
🎯 DEEP：每一步都调用大模型做决策与分析，最稳但成本/耗时更高
⚡ FAST：同样逐步决策，但提示词更短、响应更快，适合轻量任务

配置要点

决策大模型：建议使用推理/规划能力较强的模型（如 GLM-4.7、GPT-4、Claude 等）
视觉小模型：建议使用具备 GUI 观察与操作能力的模型（如 AutoGLM-Phone-9B / autoglm-phone）

🧩 分层代理模式（Layered Agent，增强 / 实验性）

分层代理模式是更“严格”的两层结构：规划层专注拆解与推理，执行层专注观察与操作，二者通过工具调用协作完成任务。

工作方式：规划层（决策模型）会调用工具（如 list_devices() / chat(device_id, message)）去驱动执行层；你能在界面里看到每次工具调用与返回结果
执行粒度：执行层每次只做一个“原子子任务”，并有步数上限（例如每次最多 5 步），便于规划层按反馈动态调整策略
适用场景：需要多轮推理、需要“边看边问边改计划”的复杂任务（例如浏览/筛选/对比、多轮表单填写等）
重要限制：执行层不负责“记笔记/保存中间信息/直接提取文本变量”；规划层需要信息时必须通过提问让执行层把屏幕内容“念出来”

🎭 三种工作模式对比

AutoGLM-GUI 提供了三种不同的代理工作模式，适用于不同的使用场景：

1️⃣ 经典模式（Classic Mode）

架构：单一 autoglm-phone 视觉模型直接处理（即普通 Open AutoGLM 的体验）
适用场景：简单、明确的任务
特点：配置简单，适合快速上手

2️⃣ 双模型协作（Dual Model）

架构：决策大模型（GLM-4.7/GPT-4）+ 视觉小模型（autoglm-phone）
适用场景：需要智能规划的中高复杂度任务
特点：支持 TURBO/DEEP/FAST 三种思考模式，在成本、速度与稳定性之间做权衡

3️⃣ 分层代理（Layered Agent）🆕 实验性功能

架构：基于 Agent SDK 的分层任务执行系统
- 规划层：决策模型作为高级智能中枢，负责任务拆解和多轮推理
- 执行层：autoglm-phone 作为执行者，只负责观察和操作
适用场景：需要多轮交互和复杂推理的高级任务
特点：规划层通过工具调用驱动执行层，过程更透明、更便于调试与迭代策略

选择建议：

🚀 常规任务（订外卖、打车）：双模型 TURBO 模式
🎯 复杂任务（浏览并评论帖子）：双模型 DEEP 模式
🏗️ 需要多轮推理的任务：分层代理模式

💬 我们需要你的反馈！ 不同的任务场景适合不同的模式，我们正在持续优化这些模式的性能和易用性。如果你在使用过程中有任何建议、遇到问题或发现某个模式特别好用/不好用，欢迎通过 GitHub Issues 或 QQ 交流群告诉我们。你的反馈将帮助我们改进产品！

🤖 AI 自动化模式​

选择 Agent 类型​

🌿 普通模式（单模型 / Open AutoGLM）​

🧠 双模型协作模式（增强）​

工作模式（Thinking Mode）​

配置要点​

🧩 分层代理模式（Layered Agent，增强 / 实验性）​

🎭 三种工作模式对比​

1️⃣ 经典模式（Classic Mode）​

2️⃣ 双模型协作（Dual Model）​

3️⃣ 分层代理（Layered Agent）🆕 实验性功能​