Anthropic merilis fitur Computer Use serta model Claude 3.5 Sonnet/Haiku

(anthropic.com)

10 poin oleh GN⁺ 2024-10-23 | 1 komentar | Bagikan ke WhatsApp

Anthropic mengumumkan Claude 3.5 Sonnet yang telah ditingkatkan dan model baru Claude 3.5 Haiku
Fitur computer use, yang memungkinkan Claude diarahkan untuk menggunakan komputer layaknya manusia, baru diperkenalkan dalam beta publik
Kinerja keseluruhan meningkat sambil mempertahankan harga dan kecepatan yang ada

Pengenalan fitur Computer Use

Developer dapat mengarahkan Claude melalui API untuk menggunakan komputer seperti manusia sungguhan
Dapat melakukan tugas seperti melihat layar, memindahkan kursor, mengklik tombol, dan memasukkan teks
Saat ini masih dalam tahap eksperimental sehingga terkadang terasa kurang mulus dan dapat menimbulkan kesalahan
Asana, Canva, Cognition, DoorDash, Replit, dan The Browser Company telah mulai mengeksplorasi kemungkinan ini untuk menjalankan tugas yang membutuhkan puluhan langkah, bahkan kadang ratusan langkah

Claude 3.5 Sonnet: kemampuan software engineering kelas teratas di industri

Claude 3.5 Sonnet yang diperbarui menunjukkan peningkatan luas pada benchmark industri, terutama peningkatan kuat pada tugas agentic coding dan penggunaan alat
Di SWE-bench Verified, kinerjanya naik dari 33.4% menjadi 49.0%, mencatat skor lebih tinggi daripada semua model yang tersedia secara publik
Di TAU-bench juga meningkat dari 62.6% menjadi 69.2% pada domain ritel, dan dari 36.0% menjadi 46.0% pada domain maskapai
Menurut umpan balik awal dari pelanggan seperti GitLab, Cognition, dan The Browser Company, Claude 3.5 Sonnet menandai lompatan besar dalam coding berbasis AI

Claude 3.5 Haiku: menggabungkan teknologi mutakhir dengan efisiensi biaya dan kecepatan

Claude 3.5 Haiku adalah versi generasi berikutnya dari model tercepat
Dengan biaya yang sama dan kecepatan serupa seperti Haiku generasi sebelumnya, model ini meningkat di semua area kecerdasan teknis dan melampaui model terbesar sebelumnya, Claude 3 Opus
Khususnya kuat pada tugas coding, mencatat 40.6% di SWE-bench Verified dan mengungguli banyak agent yang memakai model canggih publik yang sudah ada, termasuk Claude 3.5 Sonnet sebelumnya dan GPT-4o
Dengan latensi rendah, kemampuan mengikuti instruksi yang lebih baik, dan penggunaan alat yang lebih akurat, model ini cocok untuk produk yang berpusat pada pengguna, tugas sub-agent khusus, dan pembuatan pengalaman personal dari data dalam jumlah besar

Mengajarkan Claude menavigasi komputer secara bertanggung jawab

Melalui fitur computer use, Anthropic sedang mencoba sesuatu yang secara fundamental baru
Alih-alih membuat alat khusus yang membantu menyelesaikan tugas individual, mereka mengajarkan Claude keterampilan komputer yang bersifat umum
Developer dapat memakai kemampuan awal ini untuk mengotomatisasi proses berulang, membangun dan menguji software, serta melakukan tugas terbuka seperti riset
Di OSWorld, Claude 3.5 Sonnet mencatat 14.9% pada kategori khusus screenshot, jauh melampaui skor sistem AI terbaik kedua sebesar 7.8%
Fitur computer use masih belum sempurna dan dapat menjadi jalur baru bagi ancaman seperti spam, misinformasi, dan penipuan, sehingga Anthropic mengambil pendekatan proaktif untuk penerapan yang aman

Prospek ke depan Computer Use

Pembelajaran dari penerapan awal teknologi yang masih berada pada tahap awal ini akan membantu memahami dengan lebih baik potensi dan dampak sistem AI yang semakin kuat
Mereka mengajak pengguna menjelajahi beta publik dari model baru dan fitur computer use serta membagikan masukan
Mereka meyakini perkembangan ini akan membuka kemungkinan baru dalam cara berkolaborasi dengan Claude

Pendapat GN⁺

Fitur computer use mirip dengan RPA (Robotic Process Automation), tetapi tampak menawarkan pendekatan yang lebih fleksibel dan lebih umum
Fitur ini diperkirakan akan sangat membantu otomatisasi pekerjaan berulang di perusahaan, tetapi pada tahap awal sebaiknya dimulai dari tugas yang kurang penting dengan mempertimbangkan kemungkinan terjadinya kesalahan
Fitur ini diperkirakan akan bersaing dengan alat RPA yang sudah ada seperti Power Automate dan UiPath, dan ke depan batas antara AI dan RPA kemungkinan akan semakin kabur
Dari sisi keamanan, memberikan hak kendali komputer kepada AI dapat menimbulkan risiko baru, sehingga diperkirakan diperlukan kontrol akses dan pemantauan yang ketat

1 komentar

GN⁺ 2024-10-23

Opini Hacker News

Sonnet menempati peringkat 1 di leaderboard pengeditan kode aider dengan 84,2%. Jika menggunakan mode "architect", Sonnet mencatat SOTA di 85,7%. DeepSeek digunakan sebagai model "editor"
- Sonnet juga mencatat SOTA 92,1% pada benchmark refactoring yang lebih menantang
Claude 3.5 Opus tidak lagi disebut dalam dokumentasi resmi Anthropic. Ini mengindikasikan bahwa peluncurannya ditunda atau dibatalkan
Sebagai seseorang yang mengembangkan produk AI SaaS, saya sempat berpikir integrasi API akan menyelesaikan sebagian besar otomatisasi AI, tetapi pada praktiknya saya menyadari banyak perangkat lunak berinteraksi langsung dengan manusia
- Misalnya, ipar saya yang seorang dokter menggunakan perangkat lunak kustom dengan formulir MFC di Windows, dan akuntan menggunakan perangkat lunak kuat bernama Cantax
- Jika berada di ranah SaaS, orang bisa menjadi yakin bahwa semua orang harus memiliki API backend client-server, tetapi kenyataannya tidak demikian
Kemampuan penggunaan komputer ini sangat mengesankan
- Ini bukan sekadar agen yang menggunakan komputer sebagai alat, melainkan agen penalaran otonom yang menetapkan tujuan lalu memanfaatkan komputer dan browser untuk mencapainya
- Ada kemungkinan melampaui OpenAI GPT-o1
Fokus Anthropic pada keamanan AI terasa menarik. AI memiliki kemampuan menggunakan komputer dan browser untuk mencapai tujuan yang diminta
Claude lebih unggul daripada ChatGPT selama 8 bulan terakhir, tetapi basis penggunanya lebih kecil
Perbedaan antara Sonnet dan Opus tidak jelas. Di situs web Anthropic, Opus disebut sebagai model paling canggih, tetapi di bagian lain Sonnet disebut sebagai model tercepat dan paling canggih
- Dari hasil pengujian manual, saya merasa Opus memberikan respons yang sedikit lebih baik, tetapi saya tidak yakin
Demo coding menggunakan Claude perlu lebih banyak dibahas
- Pemrograman pengguna akhir yang sesungguhnya dan pemrograman oleh manajer produk mungkin akan segera hadir
Hal-hal menarik terjadi saat pelatihan dengan API baru
- Claude pernah menghentikan perekaman layar berdurasi panjang hingga semua videonya hilang, atau melihat foto-foto Taman Nasional Yellowstone saat demo coding berlangsung

Anthropic merilis fitur Computer Use serta model Claude 3.5 Sonnet/Haiku

Pengenalan fitur Computer Use

Claude 3.5 Sonnet: kemampuan software engineering kelas teratas di industri

Claude 3.5 Haiku: menggabungkan teknologi mutakhir dengan efisiensi biaya dan kecepatan

Mengajarkan Claude menavigasi komputer secara bertanggung jawab

Prospek ke depan Computer Use

Pendapat GN⁺

Bacaan terkait

1 komentar

Opini Hacker News