OMG-Agent: Ein auf natürlicher Sprache basierender Android-Automatisierungsassistent
OMG-Agent ist ein Open-Source-Automatisierungstool, das speziell für die Android-Plattform entwickelt wurde. Es kombiniert natürlichsprachliche Befehle mit einem GUI-Modell und ermöglicht es Nutzern, ihre Smartphones direkt mit einfachen Textanweisungen zu steuern (z. B. „Öffne WeChat und sende eine Nachricht an Zhang San“), wodurch die Hürde für die mobile Automatisierung deutlich gesenkt wird.
Kernfunktionen und technische Highlights
- Natürliche SprachsteuerungSie müssen keine komplexen Skripte schreiben; Sie können Ihr Telefon durch Sprachbefehle dazu anleiten, bestimmte Aufgaben zu erledigen.
- Ein robustes ModellökosystemEs bietet integrierte Unterstützung für gängige mobile GUI-Modelle wie AutoGLM und GELab-Zero und ist mit der OpenAI-Schnittstelle kompatibel.
- Geräteinteraktion in EchtzeitEs ermöglicht die effiziente Erfassung von Screenshots und die Ausführung von Operationen auf Basis der ADB-Schnittstelle und unterstützt sowohl reale Geräte als auch Emulatoren.
- Flexible Bereitstellung und SchnittstelleUnterstützt plattformübergreifende Bereitstellung und bietet eine zweisprachige (Chinesisch und Englisch) Benutzeroberfläche mit Umschaltung zwischen hellem und dunklem Design.
- Open Source und skalierbarDas Projekt ist vollständig Open Source, und Entwickler können je nach spezifischen Geschäftsszenarien Weiterentwicklungen vornehmen.
Schnellstartanleitung
1. Vorbereitung der Umgebung (Installation von ADB)
Wählen Sie den passenden Befehl zur Installation der ADB-Umgebung entsprechend Ihrem Betriebssystem aus:
- Windows:
scoop install adb - macOS:
brew install android-platform-tools - Linux:
apt install adb
2. Projektumsetzung
# Repository klonen: git clone https://github.com/safphere/OMG-Agent.git cd OMG-Agent # Abhängigkeiten installieren und Anwendung starten: pip install -r requirements.txt python run.py 3. Gerätekonfiguration
- MobileAktivieren Sie die „Entwickleroptionen“ und das „USB-Debugging“.
- Eingabemethode:Installieren ADB-Tastatur Um sicherzustellen, dass die Texteingabe korrekt ist.
- verbindenVerbinden Sie Ihr Telefon über ein USB-Kabel und schließen Sie die Geräteautorisierung ab.
4. Betriebsabläufe
Nach dem Start des Programms führen Sie die folgenden Befehle nacheinander aus:Gerät aktualisieren $rightarrow$ Beginnen Sie mit dem Casting. $rightarrow$ Eingabe von Befehlen in natürlicher Sprache $rightarrow$ Zum Ausführen klicken。
Vergleich der integrierten GUI-Modelle
| Modellname | Quelle | Kernfunktionen |
|---|---|---|
| AutoGLM-Phone-9B | Zhipu KI | Hochgradig optimiert für die Bedienung mobiler GUIs, um eine präzise Befehlsausführung zu gewährleisten. |
| GELab-Zero-4B-Vorschau | Springende Sterne | Leichtes Design, geeignet für allgemeine mobile Agentenaufgaben. |
Anwendbare Szenarien
- Geek PlayerVersuchen Sie, KI einzusetzen, um Telefonate aus der Ferne zu übernehmen und personalisierte automatisierte Prozesse zu erreichen.
- TechnologieentwicklerRecherchieren Sie im Bereich UI-Automatisierungstests oder erkunden Sie die Agententechnologie.
- Forschungs- und Entwicklungsteam: Durchführung von schnellem Prototyping und Funktionstests von KI-Agentenprodukten.
- EffizienzexperteAutomatisierungsmitarbeiter, die mehrere Geräte benötigen, die zusammenarbeiten, um wiederkehrende Aufgaben zu erledigen.
Ressourcenbeschaffung
GitHub-Repository: safphere/OMG-Agent
Backup herunterladen: Quark Cloud Drive herunterladen