Open-AutoGLM (Código Aberto): Permite o controle automatizado de mais de 50 aplicativos populares por meio de telefones celulares.

62Segunda leitura
sem comentários

Open-AutoGLM: Transformando seu telefone em um assistente inteligente de IA

Open-AutoGLM Trata-se de uma estrutura de assistente inteligente para dispositivos móveis construída sobre o AutoGLM. Ela confere à IA capacidades de compreensão visual, permitindo que ela analise o conteúdo da tela do celular em tempo real e traduza os comandos em linguagem natural do usuário em sequências de operações automatizadas específicas.

Os usuários não precisam operar manualmente; basta que deem comandos como "buscar comida no Xiaohongshu" ou "encontrar contatos do WeChat", e o sistema planejará automaticamente a rota e simulará cliques, gestos de deslizar e entrada de dados. Para garantir a segurança, o sistema acionará um mecanismo de confirmação manual ou de intervenção do usuário quando operações sensíveis estiverem envolvidas.

Implementação de tecnologia central

Essa estrutura permite a automação completa do processo por meio dos seguintes vínculos técnicos:

  • Consciência da interface: Utilize o Modelo de Linguagem Visual (VLM) para analisar elementos da tela em tempo real.
  • Planejamento de tarefas: Divida instruções complexas em etapas executáveis.
  • Controle de equipamentos: Os comandos são executados através do Android Debug Bridge (ADB), que suporta depuração remota via Wi-Fi.
  • Acesso flexível: Os desenvolvedores podem integrá-lo em cenários de operação inteligentes personalizados por meio da API.

Versões e recursos do modelo

O projeto fornece dois modelos de otimização para diferentes ambientes de linguagem:

  • AutoGLM-Phone-9B: Profundamente otimizado para cenários de aplicação na China.
  • AutoGLM-Phone-9B-Multilingual: É compatível com o inglês e outros idiomas.

Download do modelo: Rosto de abraço | Escopo do modelo

Cobertura do aplicativo

O Phone Agent é compatível com mais de 50 aplicativos populares, abrangendo as seguintes áreas principais:

  • Social e informativo: WeChat, QQ, Weibo, Zhihu, Xiaohongshu
  • 电商与生活: Taobao, JD.com, Pinduoduo, Meituan, Ele.me, Dianping
  • Viagens e ferramentas: Didi Chuxing, Ctrip, 12306, Gaode mapa
  • Entretenimento audiovisual: Douyin, Bilibili, iQiyi, NetEase Cloud Music

Ao executar python main.py --list-apps Veja a lista completa de serviços suportados.

操作能力清单

Instruções de operação Definição de função
Lançar Inicie o aplicativo especificado.
Toque / Toque duplo Clique/clique duas vezes para especificar as coordenadas.
Tipo Entrada automática de texto
Deslize Tela deslizante de quatro vias
Voltar / Página Inicial Voltar à página anterior / Voltar à área de trabalho
Pressione e segure Simule um toque longo.
Espere Aguardando o carregamento da página.
Assumir Intervenção manual (usada para processar CAPTCHAs, etc.)

Início rápido

Repositório do projeto: GitHub – Open-AutoGLM

Seja você um desenvolvedor buscando criar soluções de automação ou um entusiasta de IA, o Open-AutoGLM pode fornecer um protótipo controlado e eficiente de um assistente de automação móvel.

Fim do texto
0
Administrator
Aviso de direitos autorais:Este artigo é conteúdo original deste site. Administrador Publicado em 11/12/2025, totalizando 884 palavras.
Aviso de reimpressão:Salvo indicação em contrário, todo o conteúdo original deste site está publicado sob a licença Creative Commons Atribuição 4.0 (CC BY 4.0). Ao republicar este conteúdo, indique a fonte e mantenha o link original. Parte do conteúdo deste site foi compilada a partir de informações publicamente disponíveis e pode ter sido gerada ou otimizada com o auxílio de tecnologia de IA. Serve apenas como referência e não constitui aconselhamento profissional. Os leitores devem fazer seus próprios julgamentos e verificações. Este site não assume qualquer responsabilidade pela disponibilidade, segurança ou legalidade de recursos de terceiros.
Comentários (Sem comentários)
验证码