Open-AutoGLM:将手机转化为 AI 智能助理
Open-AutoGLM 是一个基于 AutoGLM 构建的移动端智能助理框架。它赋予了 AI 视觉理解能力,使其能够实时分析手机屏幕内容,并将用户的自然语言指令转化为具体的自动化操作序列。
用户无需手动操作,只需下达如“在小红书搜索美食”或“查找微信联系人”等指令,系统即可自动规划路径并模拟点击、滑动与输入。为了保障安全性,系统在涉及敏感操作时会触发人工确认或接管机制。
核心技术实现
该框架通过以下技术链路实现全流程自动化:
- 界面感知: 利用视觉语言模型(VLM)实时解析屏幕元素。
- 任务规划: 将复杂指令拆解为可执行的操作步骤。
- 设备控制: 通过 Android Debug Bridge (ADB) 执行指令,支持 WiFi 远程调试。
- 灵活接入: 开发者可通过 API 将其集成到自定义的智能操作场景中。
模型版本与资源
针对不同语言环境,项目提供了两款优化模型:
- AutoGLM-Phone-9B: 深度优化中文应用场景。
- AutoGLM-Phone-9B-Multilingual: 适配英文及多种语言环境。
模型下载: Hugging Face | ModelScope
应用覆盖范围
Phone Agent 已适配 50 多个主流 App,涵盖以下核心领域:
- 社交与资讯: 微信、QQ、微博、知乎、小红书
- 电商与生活: 淘宝、京东、拼多多、美团、饿了么、大众点评
- 出行与工具: 滴滴出行、携程、12306、高德地图
- 影音娱乐: 抖音、B 站、爱奇艺、网易云音乐
可通过运行 python main.py --list-apps 查看完整的支持列表。
操作能力清单
| 操作指令 | 功能定义 |
|---|---|
| Launch | 启动指定 App |
| Tap / Double Tap | 点击 / 双击指定坐标 |
| Type | 自动输入文本 |
| Swipe | 四向滑动屏幕 |
| Back / Home | 返回上页 / 回到桌面 |
| Long Press | 模拟长按 |
| Wait | 等待页面加载 |
| Take_over | 人工接管(用于处理验证码等) |
快速开始
项目仓库: GitHub – Open-AutoGLM
无论你是希望构建自动化方案的开发者,还是 AI 技术爱好者,Open-AutoGLM 都能为你提供一个可控且高效的手机自动化助手原型。
Fin du texte