10 poin oleh GN⁺ 2024-10-23 | 1 komentar | Bagikan ke WhatsApp
  • Anthropic mengumumkan Claude 3.5 Sonnet yang telah ditingkatkan dan model baru Claude 3.5 Haiku
  • Fitur computer use, yang memungkinkan Claude diarahkan untuk menggunakan komputer layaknya manusia, baru diperkenalkan dalam beta publik
  • Kinerja keseluruhan meningkat sambil mempertahankan harga dan kecepatan yang ada

Pengenalan fitur Computer Use

  • Developer dapat mengarahkan Claude melalui API untuk menggunakan komputer seperti manusia sungguhan
  • Dapat melakukan tugas seperti melihat layar, memindahkan kursor, mengklik tombol, dan memasukkan teks
  • Saat ini masih dalam tahap eksperimental sehingga terkadang terasa kurang mulus dan dapat menimbulkan kesalahan
  • Asana, Canva, Cognition, DoorDash, Replit, dan The Browser Company telah mulai mengeksplorasi kemungkinan ini untuk menjalankan tugas yang membutuhkan puluhan langkah, bahkan kadang ratusan langkah

Claude 3.5 Sonnet: kemampuan software engineering kelas teratas di industri

  • Claude 3.5 Sonnet yang diperbarui menunjukkan peningkatan luas pada benchmark industri, terutama peningkatan kuat pada tugas agentic coding dan penggunaan alat
  • Di SWE-bench Verified, kinerjanya naik dari 33.4% menjadi 49.0%, mencatat skor lebih tinggi daripada semua model yang tersedia secara publik
  • Di TAU-bench juga meningkat dari 62.6% menjadi 69.2% pada domain ritel, dan dari 36.0% menjadi 46.0% pada domain maskapai
  • Menurut umpan balik awal dari pelanggan seperti GitLab, Cognition, dan The Browser Company, Claude 3.5 Sonnet menandai lompatan besar dalam coding berbasis AI

Claude 3.5 Haiku: menggabungkan teknologi mutakhir dengan efisiensi biaya dan kecepatan

  • Claude 3.5 Haiku adalah versi generasi berikutnya dari model tercepat
  • Dengan biaya yang sama dan kecepatan serupa seperti Haiku generasi sebelumnya, model ini meningkat di semua area kecerdasan teknis dan melampaui model terbesar sebelumnya, Claude 3 Opus
  • Khususnya kuat pada tugas coding, mencatat 40.6% di SWE-bench Verified dan mengungguli banyak agent yang memakai model canggih publik yang sudah ada, termasuk Claude 3.5 Sonnet sebelumnya dan GPT-4o
  • Dengan latensi rendah, kemampuan mengikuti instruksi yang lebih baik, dan penggunaan alat yang lebih akurat, model ini cocok untuk produk yang berpusat pada pengguna, tugas sub-agent khusus, dan pembuatan pengalaman personal dari data dalam jumlah besar

Mengajarkan Claude menavigasi komputer secara bertanggung jawab

  • Melalui fitur computer use, Anthropic sedang mencoba sesuatu yang secara fundamental baru
  • Alih-alih membuat alat khusus yang membantu menyelesaikan tugas individual, mereka mengajarkan Claude keterampilan komputer yang bersifat umum
  • Developer dapat memakai kemampuan awal ini untuk mengotomatisasi proses berulang, membangun dan menguji software, serta melakukan tugas terbuka seperti riset
  • Di OSWorld, Claude 3.5 Sonnet mencatat 14.9% pada kategori khusus screenshot, jauh melampaui skor sistem AI terbaik kedua sebesar 7.8%
  • Fitur computer use masih belum sempurna dan dapat menjadi jalur baru bagi ancaman seperti spam, misinformasi, dan penipuan, sehingga Anthropic mengambil pendekatan proaktif untuk penerapan yang aman

Prospek ke depan Computer Use

  • Pembelajaran dari penerapan awal teknologi yang masih berada pada tahap awal ini akan membantu memahami dengan lebih baik potensi dan dampak sistem AI yang semakin kuat
  • Mereka mengajak pengguna menjelajahi beta publik dari model baru dan fitur computer use serta membagikan masukan
  • Mereka meyakini perkembangan ini akan membuka kemungkinan baru dalam cara berkolaborasi dengan Claude

Pendapat GN⁺

  • Fitur computer use mirip dengan RPA (Robotic Process Automation), tetapi tampak menawarkan pendekatan yang lebih fleksibel dan lebih umum
  • Fitur ini diperkirakan akan sangat membantu otomatisasi pekerjaan berulang di perusahaan, tetapi pada tahap awal sebaiknya dimulai dari tugas yang kurang penting dengan mempertimbangkan kemungkinan terjadinya kesalahan
  • Fitur ini diperkirakan akan bersaing dengan alat RPA yang sudah ada seperti Power Automate dan UiPath, dan ke depan batas antara AI dan RPA kemungkinan akan semakin kabur
  • Dari sisi keamanan, memberikan hak kendali komputer kepada AI dapat menimbulkan risiko baru, sehingga diperkirakan diperlukan kontrol akses dan pemantauan yang ketat

1 komentar

 
GN⁺ 2024-10-23
Opini Hacker News
  • Sonnet menempati peringkat 1 di leaderboard pengeditan kode aider dengan 84,2%. Jika menggunakan mode "architect", Sonnet mencatat SOTA di 85,7%. DeepSeek digunakan sebagai model "editor"
    • Sonnet juga mencatat SOTA 92,1% pada benchmark refactoring yang lebih menantang
  • Claude 3.5 Opus tidak lagi disebut dalam dokumentasi resmi Anthropic. Ini mengindikasikan bahwa peluncurannya ditunda atau dibatalkan
  • Sebagai seseorang yang mengembangkan produk AI SaaS, saya sempat berpikir integrasi API akan menyelesaikan sebagian besar otomatisasi AI, tetapi pada praktiknya saya menyadari banyak perangkat lunak berinteraksi langsung dengan manusia
    • Misalnya, ipar saya yang seorang dokter menggunakan perangkat lunak kustom dengan formulir MFC di Windows, dan akuntan menggunakan perangkat lunak kuat bernama Cantax
    • Jika berada di ranah SaaS, orang bisa menjadi yakin bahwa semua orang harus memiliki API backend client-server, tetapi kenyataannya tidak demikian
  • Kemampuan penggunaan komputer ini sangat mengesankan
    • Ini bukan sekadar agen yang menggunakan komputer sebagai alat, melainkan agen penalaran otonom yang menetapkan tujuan lalu memanfaatkan komputer dan browser untuk mencapainya
    • Ada kemungkinan melampaui OpenAI GPT-o1
  • Fokus Anthropic pada keamanan AI terasa menarik. AI memiliki kemampuan menggunakan komputer dan browser untuk mencapai tujuan yang diminta
  • Claude lebih unggul daripada ChatGPT selama 8 bulan terakhir, tetapi basis penggunanya lebih kecil
  • Perbedaan antara Sonnet dan Opus tidak jelas. Di situs web Anthropic, Opus disebut sebagai model paling canggih, tetapi di bagian lain Sonnet disebut sebagai model tercepat dan paling canggih
    • Dari hasil pengujian manual, saya merasa Opus memberikan respons yang sedikit lebih baik, tetapi saya tidak yakin
  • Demo coding menggunakan Claude perlu lebih banyak dibahas
    • Pemrograman pengguna akhir yang sesungguhnya dan pemrograman oleh manajer produk mungkin akan segera hadir
  • Hal-hal menarik terjadi saat pelatihan dengan API baru
    • Claude pernah menghentikan perekaman layar berdurasi panjang hingga semua videonya hilang, atau melihat foto-foto Taman Nasional Yellowstone saat demo coding berlangsung