Open-AutoGLM 開源:實現50 多個主流App 的手機自動化操控

60次阅读
沒有評論

Open-AutoGLM:将手机转化为 AI 智能助理

Open-AutoGLM 是一个基于 AutoGLM 构建的移动端智能助理框架。它赋予了 AI 视觉理解能力,使其能够实时分析手机屏幕内容,并将用户的自然语言指令转化为具体的自动化操作序列。

用户无需手动操作,只需下达如“在小红书搜索美食”或“查找微信联系人”等指令,系统即可自动规划路径并模拟点击、滑动与输入。为了保障安全性,系统在涉及敏感操作时会触发人工确认或接管机制。

核心技术实现

该框架通过以下技术链路实现全流程自动化:

  • 界面感知: 利用视觉语言模型(VLM)实时解析屏幕元素。
  • 任务规划: 将复杂指令拆解为可执行的操作步骤。
  • 设备控制: 通过 Android Debug Bridge (ADB) 执行指令,支持 WiFi 远程调试。
  • 灵活接入: 开发者可通过 API 将其集成到自定义的智能操作场景中。

模型版本与资源

针对不同语言环境,项目提供了两款优化模型:

  • AutoGLM-Phone-9B: 深度优化中文应用场景。
  • AutoGLM-Phone-9B-Multilingual: 适配英文及多种语言环境。

模型下载: Hugging Face | ModelScope

应用覆盖范围

Phone Agent 已适配 50 多个主流 App,涵盖以下核心领域:

  • 社交与资讯: 微信、QQ、微博、知乎、小红书
  • 电商与生活: 淘宝、京东、拼多多、美团、饿了么、大众点评
  • 出行与工具: 滴滴出行、携程、12306、高德地图
  • 影音娱乐: 抖音、B 站、爱奇艺、网易云音乐

可通过运行 python main.py --list-apps 查看完整的支持列表。

操作能力清单

操作指令 功能定义
Launch 启动指定 App
Tap / Double Tap 点击 / 双击指定坐标
Type 自动输入文本
Swipe 四向滑动屏幕
Back / Home 返回上页 / 回到桌面
Long Press 模拟长按
Wait 等待页面加载
Take_over 人工接管(用于处理验证码等)

快速开始

项目仓库: GitHub – Open-AutoGLM

无论你是希望构建自动化方案的开发者,还是 AI 技术爱好者,Open-AutoGLM 都能为你提供一个可控且高效的手机自动化助手原型。

正文完
0
Administrator
版權聲明:本站原創文章,由 Administrator 于2025-12-11发表,共计884字。
轉載說明:除特別說明外,本站原創內容採用Creative Commons Attribution 4.0 (CC BY 4.0) 授權協議發布,轉載請註明來源並保留原文連結。 本站部分內容基於公開資料整理,並可能經AI 技術輔助生成或優化,僅供參考,不構成任何專業建議,請讀者自行判斷與核實。 本站不對第三方資源的可用性、安全性或合法性承擔任何責任。
評論(沒有評論)
验证码