Open-AutoGLM: 스마트폰을 AI 스마트 비서로 바꿔보세요
오픈-오토글로불 AutoGLM을 기반으로 구축된 모바일 지능형 비서 프레임워크입니다. 인공지능에 시각적 이해 기능을 부여하여 모바일 화면의 콘텐츠를 실시간으로 분석하고 사용자의 자연어 명령을 특정 자동화 작업 시퀀스로 변환할 수 있도록 합니다.
사용자는 수동으로 조작할 필요 없이 "샤오홍슈에서 음식 검색" 또는 "위챗 연락처 찾기"와 같은 명령만 내리면 시스템이 자동으로 경로를 계획하고 클릭, 스와이프, 입력 등의 동작을 시뮬레이션합니다. 보안을 위해 민감한 작업이 포함될 경우 수동 확인 또는 권한 인계 메커니즘이 작동합니다.
핵심 기술 구현
이 프레임워크는 다음과 같은 기술적 연결을 통해 전체 프로세스 자동화를 구현합니다.
- 인터페이스 인식: 시각적 언어 모델(VLM)을 사용하여 화면 요소를 실시간으로 분석합니다.
- 업무 계획: 복잡한 지시사항을 실행 가능한 단계로 나누세요.
- 장비 제어: 명령은 Android Debug Bridge(ADB)를 통해 실행되며, Wi-Fi를 통한 원격 디버깅을 지원합니다.
- 유연한 접근 방식: 개발자는 API를 통해 이를 맞춤형 스마트 운영 시나리오에 통합할 수 있습니다.
모델 버전 및 리소스
본 프로젝트는 서로 다른 언어 환경에 대한 두 가지 최적화 모델을 제공합니다.
- AutoGLM-Phone-9B: 중국 애플리케이션 시나리오에 최적화되어 있습니다.
- AutoGLM-Phone-9B-다국어: 영어 및 기타 언어 환경과 호환됩니다.
적용 범위
Phone Agent는 다음과 같은 핵심 영역을 포함하여 50개 이상의 주요 앱과 호환됩니다.
- 사회적 및 정보적: 위챗, QQ, 웨이보, 지후, 샤오홍슈
- 전자상거래와 라이프스타일: Taobao, JD.com, Pinduoduo, Meituan, Ele.me, Dianping
- 여행 및 도구: Didi Chuxing, Ctrip, 12306, Gaode 지도
- 시청각적 엔터테인먼트: Douyin, Bilibili, iQiyi, NetEase 클라우드 음악
실행함으로써 파이썬 main.py --list-apps 지원되는 서비스 전체 목록을 확인하세요.
작전능력 목록
| 작동 지침 | 함수 정의 |
|---|---|
| 시작하다 | 지정된 앱을 실행하세요 |
| 탭 / 더블 탭 | 좌표를 지정하려면 클릭/더블클릭하세요. |
| 유형 | 자동 텍스트 입력 |
| 강타 | 4방향 슬라이딩 스크린 |
| 뒤로 / 홈 | 이전 페이지로 돌아가기 / 바탕화면으로 돌아가기 |
| 길게 누르기 | 장시간 누르기를 시뮬레이션합니다 |
| 기다리다 | 페이지 로딩 중 |
| 인수 | 수동 개입(CAPTCHA 처리 등에 사용됨) |
빠른 시작
프로젝트 저장소: GitHub – 오픈-오토글로불
자동화 솔루션 구축을 원하는 개발자이든 AI 애호가이든, Open-AutoGLM은 제어 가능하고 효율적인 모바일 자동화 도우미 프로토타입을 제공합니다.
텍스트 끝