Open-AutoGLM 开源:实现 50 多个主流 App 的手机自动化操控

55Deuxième lecture
Sans commentaires

Open-AutoGLM:将手机转化为 AI 智能助理

Open-AutoGLM 是一个基于 AutoGLM 构建的移动端智能助理框架。它赋予了 AI 视觉理解能力,使其能够实时分析手机屏幕内容,并将用户的自然语言指令转化为具体的自动化操作序列。

用户无需手动操作,只需下达如“在小红书搜索美食”或“查找微信联系人”等指令,系统即可自动规划路径并模拟点击、滑动与输入。为了保障安全性,系统在涉及敏感操作时会触发人工确认或接管机制。

核心技术实现

该框架通过以下技术链路实现全流程自动化:

  • 界面感知: 利用视觉语言模型(VLM)实时解析屏幕元素。
  • 任务规划: 将复杂指令拆解为可执行的操作步骤。
  • 设备控制: 通过 Android Debug Bridge (ADB) 执行指令,支持 WiFi 远程调试。
  • 灵活接入: 开发者可通过 API 将其集成到自定义的智能操作场景中。

模型版本与资源

针对不同语言环境,项目提供了两款优化模型:

  • AutoGLM-Phone-9B: 深度优化中文应用场景。
  • AutoGLM-Phone-9B-Multilingual: 适配英文及多种语言环境。

模型下载: Hugging Face | ModelScope

应用覆盖范围

Phone Agent 已适配 50 多个主流 App,涵盖以下核心领域:

  • 社交与资讯: 微信、QQ、微博、知乎、小红书
  • 电商与生活: 淘宝、京东、拼多多、美团、饿了么、大众点评
  • 出行与工具: 滴滴出行、携程、12306、高德地图
  • 影音娱乐: 抖音、B 站、爱奇艺、网易云音乐

可通过运行 python main.py --list-apps 查看完整的支持列表。

操作能力清单

操作指令 功能定义
Launch 启动指定 App
Tap / Double Tap 点击 / 双击指定坐标
Type 自动输入文本
Swipe 四向滑动屏幕
Back / Home 返回上页 / 回到桌面
Long Press 模拟长按
Wait 等待页面加载
Take_over 人工接管(用于处理验证码等)

快速开始

项目仓库: GitHub – Open-AutoGLM

无论你是希望构建自动化方案的开发者,还是 AI 技术爱好者,Open-AutoGLM 都能为你提供一个可控且高效的手机自动化助手原型。

Fin du texte
0
Administrator
Avis de droit d'auteur :Cet article est un contenu original provenant de ce site web. Administrateur 于2025-12-11发表,共计884字。
Avis de réimpression :Sauf indication contraire, tout le contenu original de ce site est publié sous licence Creative Commons Attribution 4.0 (CC BY 4.0). Veuillez mentionner la source et conserver le lien d'origine lors de toute reproduction. Certains contenus de ce site sont compilés à partir d'informations publiques et peuvent avoir été générés ou optimisés à l'aide de l'intelligence artificielle. Ils sont fournis à titre indicatif uniquement et ne constituent en aucun cas un avis professionnel. Il appartient aux lecteurs d'effectuer leurs propres vérifications. Ce site décline toute responsabilité quant à la disponibilité, la sécurité ou la légalité des ressources tierces.
Commentaires (Aucun commentaire)
验证码