Open-AutoGLM 开源:实现 50 多个主流 App 的手机自动化操控

58次阅读
没有评论

Open-AutoGLM:将手机转化为 AI 智能助理

Open-AutoGLM 是一个基于 AutoGLM 构建的移动端智能助理框架。它赋予了 AI 视觉理解能力,使其能够实时分析手机屏幕内容,并将用户的自然语言指令转化为具体的自动化操作序列。

用户无需手动操作,只需下达如“在小红书搜索美食”或“查找微信联系人”等指令,系统即可自动规划路径并模拟点击、滑动与输入。为了保障安全性,系统在涉及敏感操作时会触发人工确认或接管机制。

核心技术实现

该框架通过以下技术链路实现全流程自动化:

  • 界面感知: 利用视觉语言模型(VLM)实时解析屏幕元素。
  • 任务规划: 将复杂指令拆解为可执行的操作步骤。
  • 设备控制: 通过 Android Debug Bridge (ADB) 执行指令,支持 WiFi 远程调试。
  • 灵活接入: 开发者可通过 API 将其集成到自定义的智能操作场景中。

模型版本与资源

针对不同语言环境,项目提供了两款优化模型:

  • AutoGLM-Phone-9B: 深度优化中文应用场景。
  • AutoGLM-Phone-9B-Multilingual: 适配英文及多种语言环境。

模型下载: Hugging Face | ModelScope

应用覆盖范围

Phone Agent 已适配 50 多个主流 App,涵盖以下核心领域:

  • 社交与资讯: 微信、QQ、微博、知乎、小红书
  • 电商与生活: 淘宝、京东、拼多多、美团、饿了么、大众点评
  • 出行与工具: 滴滴出行、携程、12306、高德地图
  • 影音娱乐: 抖音、B 站、爱奇艺、网易云音乐

可通过运行 python main.py --list-apps 查看完整的支持列表。

操作能力清单

操作指令 功能定义
Launch 启动指定 App
Tap / Double Tap 点击 / 双击指定坐标
Type 自动输入文本
Swipe 四向滑动屏幕
Back / Home 返回上页 / 回到桌面
Long Press 模拟长按
Wait 等待页面加载
Take_over 人工接管(用于处理验证码等)

快速开始

项目仓库: GitHub – Open-AutoGLM

无论你是希望构建自动化方案的开发者,还是 AI 技术爱好者,Open-AutoGLM 都能为你提供一个可控且高效的手机自动化助手原型。

正文完
 0
Administrator
版权声明:本站原创文章,由 Administrator 于2025-12-11发表,共计884字。
转载说明:除特别说明外,本站原创内容采用 Creative Commons Attribution 4.0 (CC BY 4.0) 许可协议发布,转载请注明来源并保留原文链接。 本站部分内容基于公开资料整理,并可能经 AI 技术辅助生成或优化,仅供参考,不构成任何专业建议,请读者自行判断与核实。 本站不对第三方资源的可用性、安全性或合法性承担任何责任。
评论(没有评论)
验证码