Open-AutoGLM 开源:实现 50 多个主流 App 的手机自动化操控

55Zweite Lesung
Keine Kommentare

Open-AutoGLM:将手机转化为 AI 智能助理

Open-AutoGLM 是一个基于 AutoGLM 构建的移动端智能助理框架。它赋予了 AI 视觉理解能力,使其能够实时分析手机屏幕内容,并将用户的自然语言指令转化为具体的自动化操作序列。

用户无需手动操作,只需下达如“在小红书搜索美食”或“查找微信联系人”等指令,系统即可自动规划路径并模拟点击、滑动与输入。为了保障安全性,系统在涉及敏感操作时会触发人工确认或接管机制。

核心技术实现

该框架通过以下技术链路实现全流程自动化:

  • 界面感知: 利用视觉语言模型(VLM)实时解析屏幕元素。
  • 任务规划: 将复杂指令拆解为可执行的操作步骤。
  • 设备控制: 通过 Android Debug Bridge (ADB) 执行指令,支持 WiFi 远程调试。
  • 灵活接入: 开发者可通过 API 将其集成到自定义的智能操作场景中。

模型版本与资源

针对不同语言环境,项目提供了两款优化模型:

  • AutoGLM-Phone-9B: 深度优化中文应用场景。
  • AutoGLM-Phone-9B-Multilingual: 适配英文及多种语言环境。

模型下载: Hugging Face | ModelScope

应用覆盖范围

Phone Agent 已适配 50 多个主流 App,涵盖以下核心领域:

  • 社交与资讯: 微信、QQ、微博、知乎、小红书
  • 电商与生活: 淘宝、京东、拼多多、美团、饿了么、大众点评
  • 出行与工具: 滴滴出行、携程、12306、高德地图
  • 影音娱乐: 抖音、B 站、爱奇艺、网易云音乐

可通过运行 python main.py --list-apps 查看完整的支持列表。

操作能力清单

操作指令 功能定义
Launch 启动指定 App
Tap / Double Tap 点击 / 双击指定坐标
Type 自动输入文本
Swipe 四向滑动屏幕
Back / Home 返回上页 / 回到桌面
Long Press 模拟长按
Wait 等待页面加载
Take_over 人工接管(用于处理验证码等)

快速开始

项目仓库: GitHub – Open-AutoGLM

无论你是希望构建自动化方案的开发者,还是 AI 技术爱好者,Open-AutoGLM 都能为你提供一个可控且高效的手机自动化助手原型。

Ende des Textes
0
Administrator
Urheberrechtshinweis:Dieser Artikel ist ein Originalinhalt dieser Webseite. Administrator 于2025-12-11发表,共计884字。
Hinweis zum Nachdruck:Sofern nicht anders angegeben, werden alle Originalinhalte dieser Website unter der Creative Commons Attribution 4.0 (CC BY 4.0) Lizenz veröffentlicht. Bitte geben Sie beim Weiterveröffentlichen die Quelle an und behalten Sie den Originallink bei. Einige Inhalte dieser Website basieren auf öffentlich zugänglichen Informationen und wurden möglicherweise mithilfe von KI-Technologie erstellt oder optimiert. Sie dienen lediglich Informationszwecken und stellen keine professionelle Beratung dar. Leser sollten eigene Urteile fällen und Informationen überprüfen. Diese Website übernimmt keine Verantwortung für die Verfügbarkeit, Sicherheit oder Rechtmäßigkeit von Ressourcen Dritter.
Kommentare (Keine Kommentare)
验证码