Open-AutoGLM 오픈 소스: 50개 이상의 주요 앱에 대한 자동화된 휴대폰 제어를 지원합니다.

61두 번째 읽기
댓글 없음

Open-AutoGLM: 스마트폰을 AI 스마트 비서로 바꿔보세요

오픈-오토글로불 AutoGLM을 기반으로 구축된 모바일 지능형 비서 프레임워크입니다. 인공지능에 시각적 이해 기능을 부여하여 모바일 화면의 콘텐츠를 실시간으로 분석하고 사용자의 자연어 명령을 특정 자동화 작업 시퀀스로 변환할 수 있도록 합니다.

사용자는 수동으로 조작할 필요 없이 "샤오홍슈에서 음식 검색" 또는 "위챗 연락처 찾기"와 같은 명령만 내리면 시스템이 자동으로 경로를 계획하고 클릭, 스와이프, 입력 등의 동작을 시뮬레이션합니다. 보안을 위해 민감한 작업이 포함될 경우 수동 확인 또는 권한 인계 메커니즘이 작동합니다.

핵심 기술 구현

이 프레임워크는 다음과 같은 기술적 연결을 통해 전체 프로세스 자동화를 구현합니다.

  • 인터페이스 인식: 시각적 언어 모델(VLM)을 사용하여 화면 요소를 실시간으로 분석합니다.
  • 업무 계획: 복잡한 지시사항을 실행 가능한 단계로 나누세요.
  • 장비 제어: 명령은 Android Debug Bridge(ADB)를 통해 실행되며, Wi-Fi를 통한 원격 디버깅을 지원합니다.
  • 유연한 접근 방식: 개발자는 API를 통해 이를 맞춤형 스마트 운영 시나리오에 통합할 수 있습니다.

모델 버전 및 리소스

본 프로젝트는 서로 다른 언어 환경에 대한 두 가지 최적화 모델을 제공합니다.

  • AutoGLM-Phone-9B: 중국 애플리케이션 시나리오에 최적화되어 있습니다.
  • AutoGLM-Phone-9B-다국어: 영어 및 기타 언어 환경과 호환됩니다.

모델 다운로드: 껴안는 얼굴 | 모델스코프

적용 범위

Phone Agent는 다음과 같은 핵심 영역을 포함하여 50개 이상의 주요 앱과 호환됩니다.

  • 사회적 및 정보적: 위챗, QQ, 웨이보, 지후, 샤오홍슈
  • 전자상거래와 라이프스타일: Taobao, JD.com, Pinduoduo, Meituan, Ele.me, Dianping
  • 여행 및 도구: Didi Chuxing, Ctrip, 12306, Gaode 지도
  • 시청각적 엔터테인먼트: Douyin, Bilibili, iQiyi, NetEase 클라우드 음악

실행함으로써 파이썬 main.py --list-apps 지원되는 서비스 전체 목록을 확인하세요.

작전능력 목록

작동 지침 함수 정의
시작하다 지정된 앱을 실행하세요
탭 / 더블 탭 좌표를 지정하려면 클릭/더블클릭하세요.
유형 자동 텍스트 입력
강타 4방향 슬라이딩 스크린
뒤로 / 홈 이전 페이지로 돌아가기 / 바탕화면으로 돌아가기
길게 누르기 장시간 누르기를 시뮬레이션합니다
기다리다 페이지 로딩 중
인수 수동 개입(CAPTCHA 처리 등에 사용됨)

빠른 시작

프로젝트 저장소: GitHub – 오픈-오토글로불

자동화 솔루션 구축을 원하는 개발자이든 AI 애호가이든, Open-AutoGLM은 제어 가능하고 효율적인 모바일 자동화 도우미 프로토타입을 제공합니다.

텍스트 끝
0
Administrator
저작권 고지:이 글은 본 웹사이트의 오리지널 콘텐츠입니다. 관리자 2025년 12월 11일에 게시되었으며, 총 884단어입니다.
재인쇄 안내:별도로 명시되지 않는 한, 이 사이트의 모든 원본 콘텐츠는 크리에이티브 커먼즈 저작자표시 4.0(CC BY 4.0) 라이선스에 따라 게시됩니다. 재인쇄 시 출처를 명시하고 원본 링크를 유지해 주십시오. 이 사이트의 일부 콘텐츠는 공개적으로 이용 가능한 정보를 기반으로 작성되었으며, 인공지능(AI) 기술의 도움을 받아 생성 또는 최적화되었을 수 있습니다. 이는 참고용으로만 제공되며 전문적인 조언을 구성하지 않습니다. 독자는 스스로 판단하고 검증해야 합니다. 이 사이트는 제3자 자료의 가용성, 보안 또는 합법성에 대해 어떠한 책임도 지지 않습니다.
댓글 (댓글 없음)
验证码