AgentBlue - Agen AI open-source untuk mengoperasikan Android secara otomatis dengan perintah bahasa alami

(github.com/RGLie)

14 poin oleh j2hyeon02 2026-03-08 | Belum ada komentar. | Bagikan ke WhatsApp

Halo, saya membuat sistem agen mobile bernama AgentBlue.

AgentBlue adalah sistem otomatisasi AI open-source yang memungkinkan perangkat Android secara mandiri menelusuri aplikasi, mengetuk, dan mengetik ketika Anda memasukkan perintah bahasa alami di terminal.

Cara kerja

Dengan Accessibility Service Android, sistem membaca pohon UI dari layar saat ini lalu mengirimkannya ke LLM untuk menentukan tindakan berikutnya. Loop ReAct (Reasoning + Acting) ini diulang sampai kondisi selesai terpenuhi.

"Tolong cari musik lo-fi di YouTube"
→ parsing UI → penilaian LLM → CLICK "YouTube" → TYPE "lo-fi" → CLICK cari → DONE
CLI dan aplikasi Android berkomunikasi secara real-time menggunakan Firebase Firestore sebagai server relay. Pairing dilakukan dengan kode sesi 8 digit tanpa server terpisah.

Fitur utama

Dukungan multi-LLM — pilih antara OpenAI, Google Gemini, Anthropic Claude, dan DeepSeek
REPL terminal — mulai sesi dengan agentblue start, lalu kirim perintah dalam bahasa alami
Pengaturan jarak jauh — ubah pengaturan aplikasi Android dari CLI dengan /setting, /model
Pemantauan status real-time — lihat progres tiap langkah secara real-time di terminal
Guard keamanan — berhenti otomatis sebelum tindakan yang tidak bisa dibatalkan seperti konfirmasi pembayaran atau penghapusan akun
Deteksi dan pemulihan Stuck — saat gagal berulang di layar yang sama, sistem menyuntikkan hint atau memaksa eksekusi BACK
Penggunaan mandiri di perangkat — perintah juga bisa dimasukkan langsung di perangkat lewat tombol mengambang tanpa CLI
Mulai cepat

Cara penggunaan

npm install -g @agentblue/cli
agentblue init # pengaturan Firebase + pilih bahasa (shared server disediakan secara default)
agentblue start # terbitkan kode sesi → masukkan ke aplikasi Android → koneksi selesai
Aplikasi Android bisa langsung digunakan cukup dengan mengizinkan Accessibility Service dan izin overlay.

Mengapa dibuat

Sebagian besar alat RPA berbasis koordinat layar, sehingga sekali aplikasi diperbarui, skrip bisa langsung rusak. AgentBlue mencari target berdasarkan makna UI (teks, contentDescription, resource ID), sehingga jauh lebih tangguh terhadap perubahan layout. Karena LLM menilai ulang "apa yang harus dilakukan berikutnya" pada setiap langkah, Anda tidak perlu menyusun skenario sebelumnya.

Masukan dan kontribusi sangat disambut. Terutama jika Anda punya strategi parsing UI yang lebih baik atau ide untuk meningkatkan deteksi Stuck, silakan beri tahu lewat issue, PR, atau komentar!

Terima kasih