- Anthropic mengumumkan Claude 3.5 Sonnet yang telah ditingkatkan dan model baru Claude 3.5 Haiku
- Fitur computer use, yang memungkinkan Claude diarahkan untuk menggunakan komputer layaknya manusia, baru diperkenalkan dalam beta publik
- Kinerja keseluruhan meningkat sambil mempertahankan harga dan kecepatan yang ada
Pengenalan fitur Computer Use
- Developer dapat mengarahkan Claude melalui API untuk menggunakan komputer seperti manusia sungguhan
- Dapat melakukan tugas seperti melihat layar, memindahkan kursor, mengklik tombol, dan memasukkan teks
- Saat ini masih dalam tahap eksperimental sehingga terkadang terasa kurang mulus dan dapat menimbulkan kesalahan
- Asana, Canva, Cognition, DoorDash, Replit, dan The Browser Company telah mulai mengeksplorasi kemungkinan ini untuk menjalankan tugas yang membutuhkan puluhan langkah, bahkan kadang ratusan langkah
Claude 3.5 Sonnet: kemampuan software engineering kelas teratas di industri
- Claude 3.5 Sonnet yang diperbarui menunjukkan peningkatan luas pada benchmark industri, terutama peningkatan kuat pada tugas agentic coding dan penggunaan alat
- Di SWE-bench Verified, kinerjanya naik dari 33.4% menjadi 49.0%, mencatat skor lebih tinggi daripada semua model yang tersedia secara publik
- Di TAU-bench juga meningkat dari 62.6% menjadi 69.2% pada domain ritel, dan dari 36.0% menjadi 46.0% pada domain maskapai
- Menurut umpan balik awal dari pelanggan seperti GitLab, Cognition, dan The Browser Company, Claude 3.5 Sonnet menandai lompatan besar dalam coding berbasis AI
Claude 3.5 Haiku: menggabungkan teknologi mutakhir dengan efisiensi biaya dan kecepatan
- Claude 3.5 Haiku adalah versi generasi berikutnya dari model tercepat
- Dengan biaya yang sama dan kecepatan serupa seperti Haiku generasi sebelumnya, model ini meningkat di semua area kecerdasan teknis dan melampaui model terbesar sebelumnya, Claude 3 Opus
- Khususnya kuat pada tugas coding, mencatat 40.6% di SWE-bench Verified dan mengungguli banyak agent yang memakai model canggih publik yang sudah ada, termasuk Claude 3.5 Sonnet sebelumnya dan GPT-4o
- Dengan latensi rendah, kemampuan mengikuti instruksi yang lebih baik, dan penggunaan alat yang lebih akurat, model ini cocok untuk produk yang berpusat pada pengguna, tugas sub-agent khusus, dan pembuatan pengalaman personal dari data dalam jumlah besar
Mengajarkan Claude menavigasi komputer secara bertanggung jawab
- Melalui fitur computer use, Anthropic sedang mencoba sesuatu yang secara fundamental baru
- Alih-alih membuat alat khusus yang membantu menyelesaikan tugas individual, mereka mengajarkan Claude keterampilan komputer yang bersifat umum
- Developer dapat memakai kemampuan awal ini untuk mengotomatisasi proses berulang, membangun dan menguji software, serta melakukan tugas terbuka seperti riset
- Di OSWorld, Claude 3.5 Sonnet mencatat 14.9% pada kategori khusus screenshot, jauh melampaui skor sistem AI terbaik kedua sebesar 7.8%
- Fitur computer use masih belum sempurna dan dapat menjadi jalur baru bagi ancaman seperti spam, misinformasi, dan penipuan, sehingga Anthropic mengambil pendekatan proaktif untuk penerapan yang aman
Prospek ke depan Computer Use
- Pembelajaran dari penerapan awal teknologi yang masih berada pada tahap awal ini akan membantu memahami dengan lebih baik potensi dan dampak sistem AI yang semakin kuat
- Mereka mengajak pengguna menjelajahi beta publik dari model baru dan fitur computer use serta membagikan masukan
- Mereka meyakini perkembangan ini akan membuka kemungkinan baru dalam cara berkolaborasi dengan Claude
Pendapat GN⁺
- Fitur computer use mirip dengan RPA (Robotic Process Automation), tetapi tampak menawarkan pendekatan yang lebih fleksibel dan lebih umum
- Fitur ini diperkirakan akan sangat membantu otomatisasi pekerjaan berulang di perusahaan, tetapi pada tahap awal sebaiknya dimulai dari tugas yang kurang penting dengan mempertimbangkan kemungkinan terjadinya kesalahan
- Fitur ini diperkirakan akan bersaing dengan alat RPA yang sudah ada seperti Power Automate dan UiPath, dan ke depan batas antara AI dan RPA kemungkinan akan semakin kabur
- Dari sisi keamanan, memberikan hak kendali komputer kepada AI dapat menimbulkan risiko baru, sehingga diperkirakan diperlukan kontrol akses dan pemantauan yang ketat
1 komentar
Opini Hacker News