Open-AutoGLM: Transformando seu telefone em um assistente inteligente de IA
Open-AutoGLM Trata-se de uma estrutura de assistente inteligente para dispositivos móveis construída sobre o AutoGLM. Ela confere à IA capacidades de compreensão visual, permitindo que ela analise o conteúdo da tela do celular em tempo real e traduza os comandos em linguagem natural do usuário em sequências de operações automatizadas específicas.
Os usuários não precisam operar manualmente; basta que deem comandos como "buscar comida no Xiaohongshu" ou "encontrar contatos do WeChat", e o sistema planejará automaticamente a rota e simulará cliques, gestos de deslizar e entrada de dados. Para garantir a segurança, o sistema acionará um mecanismo de confirmação manual ou de intervenção do usuário quando operações sensíveis estiverem envolvidas.
Implementação de tecnologia central
Essa estrutura permite a automação completa do processo por meio dos seguintes vínculos técnicos:
- Consciência da interface: Utilize o Modelo de Linguagem Visual (VLM) para analisar elementos da tela em tempo real.
- Planejamento de tarefas: Divida instruções complexas em etapas executáveis.
- Controle de equipamentos: Os comandos são executados através do Android Debug Bridge (ADB), que suporta depuração remota via Wi-Fi.
- Acesso flexível: Os desenvolvedores podem integrá-lo em cenários de operação inteligentes personalizados por meio da API.
Versões e recursos do modelo
O projeto fornece dois modelos de otimização para diferentes ambientes de linguagem:
- AutoGLM-Phone-9B: Profundamente otimizado para cenários de aplicação na China.
- AutoGLM-Phone-9B-Multilingual: É compatível com o inglês e outros idiomas.
Download do modelo: Rosto de abraço | Escopo do modelo
Cobertura do aplicativo
O Phone Agent é compatível com mais de 50 aplicativos populares, abrangendo as seguintes áreas principais:
- Social e informativo: WeChat, QQ, Weibo, Zhihu, Xiaohongshu
- 电商与生活: Taobao, JD.com, Pinduoduo, Meituan, Ele.me, Dianping
- Viagens e ferramentas: Didi Chuxing, Ctrip, 12306, Gaode mapa
- Entretenimento audiovisual: Douyin, Bilibili, iQiyi, NetEase Cloud Music
Ao executar python main.py --list-apps Veja a lista completa de serviços suportados.
操作能力清单
| Instruções de operação | Definição de função |
|---|---|
| Lançar | Inicie o aplicativo especificado. |
| Toque / Toque duplo | Clique/clique duas vezes para especificar as coordenadas. |
| Tipo | Entrada automática de texto |
| Deslize | Tela deslizante de quatro vias |
| Voltar / Página Inicial | Voltar à página anterior / Voltar à área de trabalho |
| Pressione e segure | Simule um toque longo. |
| Espere | Aguardando o carregamento da página. |
| Assumir | Intervenção manual (usada para processar CAPTCHAs, etc.) |
Início rápido
Repositório do projeto: GitHub – Open-AutoGLM
Seja você um desenvolvedor buscando criar soluções de automação ou um entusiasta de IA, o Open-AutoGLM pode fornecer um protótipo controlado e eficiente de um assistente de automação móvel.