Open-AutoGLM 开源：实现 50 多个主流 App 的手机自动化操控

55Deuxième lecture

Sans commentaires

Open-AutoGLM 是一个基于 AutoGLM 构建的移动端智能助理框架。它赋予了 AI 视觉理解能力，使其能够实时分析手机屏幕内容，并将用户的自然语言指令转化为具体的自动化操作序列。

用户无需手动操作，只需下达如“在小红书搜索美食”或“查找微信联系人”等指令，系统即可自动规划路径并模拟点击、滑动与输入。为了保障安全性，系统在涉及敏感操作时会触发人工确认或接管机制。

该框架通过以下技术链路实现全流程自动化：

界面感知： 利用视觉语言模型（VLM）实时解析屏幕元素。
任务规划： 将复杂指令拆解为可执行的操作步骤。
设备控制： 通过 Android Debug Bridge (ADB) 执行指令，支持 WiFi 远程调试。
灵活接入： 开发者可通过 API 将其集成到自定义的智能操作场景中。

视频演示地址

针对不同语言环境，项目提供了两款优化模型：

AutoGLM-Phone-9B： 深度优化中文应用场景。
AutoGLM-Phone-9B-Multilingual： 适配英文及多种语言环境。

模型下载： Hugging Face | ModelScope

Phone Agent 已适配 50 多个主流 App，涵盖以下核心领域：

社交与资讯： 微信、QQ、微博、知乎、小红书
电商与生活： 淘宝、京东、拼多多、美团、饿了么、大众点评
出行与工具： 滴滴出行、携程、12306、高德地图
影音娱乐： 抖音、B 站、爱奇艺、网易云音乐

可通过运行 python main.py --list-apps 查看完整的支持列表。

操作指令	功能定义
Launch	启动指定 App
Tap / Double Tap	点击 / 双击指定坐标
Type	自动输入文本
Swipe	四向滑动屏幕
Back / Home	返回上页 / 回到桌面
Long Press	模拟长按
Wait	等待页面加载
Take_over	人工接管（用于处理验证码等）

项目仓库： GitHub – Open-AutoGLM

无论你是希望构建自动化方案的开发者，还是 AI 技术爱好者，Open-AutoGLM 都能为你提供一个可控且高效的手机自动化助手原型。

Fin du texte

Publié sur : outils d'IA Projet GitHub Outils créatifs

2025年12月11日

0

Avis de droit d'auteur :Cet article est un contenu original provenant de ce site web. Administrateur 于2025-12-11发表，共计884字。

Avis de réimpression :Sauf indication contraire, tout le contenu original de ce site est publié sous licence Creative Commons Attribution 4.0 (CC BY 4.0). Veuillez mentionner la source et conserver le lien d'origine lors de toute reproduction. Certains contenus de ce site sont compilés à partir d'informations publiques et peuvent avoir été générés ou optimisés à l'aide de l'intelligence artificielle. Ils sont fournis à titre indicatif uniquement et ne constituent en aucun cas un avis professionnel. Il appartient aux lecteurs d'effectuer leurs propres vérifications. Ce site décline toute responsabilité quant à la disponibilité, la sécurité ou la légalité des ressources tierces.

2026届软件工程校招与实习岗位实时追踪：获取最新职位的操作指南

量化人生起伏：通过AI八字命理将运势转化为K线图，实现生命走势的可视化分析

如何使用 isPDF 将 PDF 快速转换为 Word：无水印操作指南

Claude-Ally-Health：通过文件系统构建的个人健康AI管理方案，实现健康数据的本地化存储与智能分析

想快速去水印或扩图却找不到好工具？这12款免费AI图像编辑器能帮你一键搞定

Voice-Pro 部署指南：实现本地化语音克隆与视频翻译的开源方案

基于 Next.js 构建的轻量化基金实时估值开源方案：Real-time Fund 深度解析

如何使用 Wallpaper.fm 获取每小时更新的 AI 高质量手机壁纸：操作全指南

LinkedIn 获客全指南：从账号权重到精准开发的高效实操路径

Article précédent

从核心竞争力到商业溢价：品牌管理线上实战指南

Article suivant