Claude 3.7 Sonnet dan Claude Code Diluncurkan

(anthropic.com)

1 poin oleh GN⁺ 2025-02-25 | 2 komentar | Bagikan ke WhatsApp

Anthropic memperkenalkan Claude 3.7 Sonnet sebagai model dengan kecerdasan tertinggi miliknya sekaligus model penalaran hibrida pertama di pasar, yang mendukung respons instan dan pemikiran bertahap yang terlihat oleh pengguna dalam satu model
Model baru ini memungkinkan pengguna memilih mode standar atau extended thinking mode, dan di API anggaran pemikiran dapat dikendalikan dalam satuan N token hingga batas output 128K token
Peningkatan terbesar terlihat pada coding dan pengembangan web front-end; dalam pengujian pelanggan awal, kekuatannya terbukti pada penanganan codebase kompleks, pembaruan full-stack, workflow agen, pembuatan aplikasi web, dan pembuatan kode siap produksi
Claude Code yang dirilis bersamaan adalah alat agentic coding berbasis command line yang tersedia sebagai pratinjau riset terbatas; pengguna dapat mendelegasikan eksplorasi, pengeditan, pengujian kode, pekerjaan GitHub, dan penggunaan alat command line
Claude 3.7 Sonnet tersedia di Free, Pro, Team, Enterprise, serta platform pengembangan utama; mode extended thinking tersedia kecuali pada tier Claude gratis, dan harga tetap $3 per 1 juta token input serta $15 per 1 juta token output

Penalaran hibrida Claude 3.7 Sonnet

Claude 3.7 Sonnet adalah model dengan kecerdasan tertinggi milik Anthropic yang dapat menghasilkan respons instan sekaligus pemikiran bertahap yang diperluas
Proses extended thinking terlihat oleh pengguna, dan pengguna API dapat mengontrol secara terperinci berapa lama model berpikir
Anthropic memilih pendekatan yang memperlakukan penalaran bukan sebagai model terpisah, melainkan sebagai fitur terpadu dari model frontier
- Dalam mode standar, model ini bekerja seperti versi peningkatan Claude 3.5 Sonnet
- Dalam extended thinking mode, model melakukan refleksi diri sebelum menjawab untuk meningkatkan performa di berbagai tugas seperti matematika, fisika, mengikuti instruksi, dan coding
- Cara prompting untuk kedua mode umumnya bekerja dengan cara yang mirip
Di API, anggaran pemikiran dapat ditetapkan dalam N token, dengan N dapat diatur hingga batas output 128K token
- Kontrol ini dimanfaatkan sebagai cara menukar kecepatan dan biaya dengan kualitas jawaban

Performa coding yang berfokus pada pekerjaan nyata

Claude 3.7 Sonnet menunjukkan peningkatan yang sangat besar terutama dalam coding dan pengembangan web front-end
Anthropic menyatakan bahwa mereka sedikit mengurangi porsi optimasi untuk soal kompetisi matematika dan ilmu komputer, dan lebih berfokus pada pekerjaan yang benar-benar digunakan perusahaan dengan LLM
Dalam pengujian awal, beberapa pelanggan mengevaluasi performa coding
- Cursor menilai Claude kembali berada di level teratas dalam pekerjaan coding nyata, mulai dari menangani codebase kompleks hingga penggunaan alat tingkat lanjut
- Cognition menilai Claude jauh lebih baik daripada model lain dalam merencanakan perubahan kode dan menangani pembaruan full-stack
- Vercel menekankan presisi tinggi dalam workflow agen yang kompleks
- Replit menyatakan bahwa dengan Claude mereka membangun aplikasi web dan dashboard yang canggih dari nol dalam situasi ketika model lain berhenti
- Dalam evaluasi Canva, Claude secara konsisten menghasilkan kode siap produksi dengan sense desain yang lebih baik dan sangat mengurangi kesalahan

Pratinjau riset terbatas Claude Code

Claude Code adalah alat agentic coding pertama Anthropic, dan tersedia sebagai pratinjau riset terbatas
Developer dapat mendelegasikan pekerjaan engineering yang signifikan kepada Claude dari terminal
Claude Code melakukan pekerjaan berikut sambil tetap melibatkan developer dalam prosesnya
- Mencari dan membaca kode
- Mengedit file
- Menulis dan menjalankan pengujian
- Melakukan commit dan push kode ke GitHub
- Menggunakan alat command line
Di internal Anthropic, alat ini digunakan dengan sangat berguna terutama untuk test-driven development, debugging masalah kompleks, dan refactoring berskala besar
Dalam pengujian awal, Claude Code mampu menyelesaikan sekaligus pekerjaan yang biasanya memakan waktu lebih dari 45 menit secara manual, sehingga mengurangi waktu pengembangan dan overhead
Dalam beberapa minggu ke depan, direncanakan peningkatan stabilitas tool calling, dukungan untuk perintah berjalan lama, peningkatan rendering dalam aplikasi, dan perluasan pemahaman Claude atas kemampuannya sendiri
Melalui partisipasi pratinjau, pengguna dapat mengakses alat yang digunakan Anthropic untuk membuat dan meningkatkan Claude, dan umpan balik akan tercermin dalam arah Claude Code ke depan

Integrasi Claude.ai dengan codebase GitHub

Pengalaman coding di Claude.ai juga ditingkatkan, dan integrasi GitHub tersedia di semua paket Claude
Developer dapat menghubungkan repositori kode langsung ke Claude
Claude 3.7 Sonnet adalah model coding terbaik Anthropic saat ini, dan dapat digunakan untuk memahami proyek pribadi, pekerjaan, dan open-source secara lebih mendalam untuk perbaikan bug, pengembangan fitur, dan penulisan dokumentasi

Ketersediaan dan harga

Claude 3.7 Sonnet tersedia di semua paket Claude
- Free
- Pro
- Team
- Enterprise
Claude 3.7 Sonnet juga tersedia di Claude Developer Platform, Amazon Bedrock, dan Google Cloud Vertex AI
extended thinking mode tersedia di semua lingkungan penyediaan kecuali tier Claude gratis
Baik mode standar maupun mode extended thinking memiliki harga yang sama dengan model sebelumnya
- $3 per 1 juta token input
- $15 per 1 juta token output
- Harga output mencakup token pemikiran

Evaluasi keamanan dan system card

Claude 3.7 Sonnet telah melalui pengujian dan evaluasi ekstensif bersama pakar eksternal, dengan tujuan memverifikasi bahwa model memenuhi standar keamanan, keselamatan, dan keandalan
Dengan membedakan permintaan berbahaya dan permintaan normal secara lebih halus, model ini mengurangi penolakan yang tidak perlu sebesar 45% dibandingkan model sebelumnya {p:45}
system card mencakup hasil keselamatan baru dalam berbagai kategori dan detail evaluasi Responsible Scaling Policy
System card membahas risiko baru yang muncul dari penggunaan komputer, terutama serangan prompt injection
- Anthropic mencakup cara mengevaluasi kerentanan tersebut dan melatih Claude agar mampu menahan serta memitigasinya
Dokumen ini juga membahas potensi manfaat keselamatan dari model penalaran
- Kemungkinan memahami bagaimana model mengambil keputusan
- Apakah penalaran model benar-benar dapat dipercaya dan stabil

Scaffolding evaluasi dan detail SWE-bench

Skor TAU-bench diperoleh dengan menambahkan kalimat tambahan pada prompt yang menginstruksikan penggunaan planning tool dengan lebih baik pada Airline Agent Policy
- Terpisah dari thinking mode biasa, ini mendorong model untuk menuliskan pemikirannya selama penyelesaian masalah
- Karena adanya langkah pemikiran tambahan, jumlah langkah maksimum dinaikkan dari 30 menjadi 100
- Sebagian besar trajectory selesai dalam kurang dari 30 langkah, dan hanya satu trajectory yang melewati 50 langkah
- Skor TAU-bench Claude 3.5 Sonnet adalah nilai yang dijalankan ulang pada dataset yang telah diperbarui setelah perbaikan dataset
Dalam SWE-bench Verified, ada berbagai cara menyelesaikan pekerjaan agen, dan Agentless menggunakan pencarian file, pencarian lokasi patch, serta best-of-40 rejection sampling berbasis uji regresi
Evaluasi dasar Claude 3.7 Sonnet dan Claude 3.5 Sonnet menggunakan scaffolding minimal yang lebih sederhana
- Model menentukan perintah apa yang dijalankan dan file apa yang diedit dalam satu sesi
- Menggunakan alat bash, alat pengeditan file berbasis substitusi string, dan planning tool yang disebutkan di TAU-bench
Karena batasan infrastruktur internal, hanya 489 dari 500 tugas SWE-bench Verified yang benar-benar dapat diselesaikan, dan 11 sisanya dihitung sebagai gagal demi kesetaraan dengan leaderboard resmi
Hasil high compute menggunakan percobaan paralel, pembuangan patch yang merusak uji regresi yang terlihat, dan seleksi akhir berbasis model skor
- Metode ini menghasilkan skor 70,3% pada subset 489 tugas verifikasi yang berjalan di infrastruktur internal
- Pada subset 489 tugas yang sama, Claude 3.7 Sonnet mencapai 63,7% tanpa scaffolding

2 komentar

GN⁺ 2025-02-25

Opini Hacker News

Claude 3.7 Sonnet mencatat 60,4% tanpa thinking di papan peringkat multibahasa aider
Ini berada di posisi ketiga bersama o3-mini-high, dan mengambil skor non-reasoning tertinggi yang sebelumnya dipegang Sonnet 3.5
aider 0.75.0 sudah menambahkan dukungan untuk 3.7 Sonnet, dan dukungan thinking serta hasil benchmark disebut akan segera menyusul
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- Kalau yang dipakai adalah 225 tantangan coding dari Exercism, saya penasaran apakah ada upaya untuk mengurangi kebocoran data test set
  Sepertinya tantangan-tantangan ini sudah ada di internet sejak sebelum 2023, jadi tampaknya besar kemungkinan masuk ke data pelatihan model modern
- Jika memakai hingga 32k token thinking, Sonnet 3.7 mencetak rekor tertinggi dengan 64,9%
  65% Sonnet 3.7, 32k thinking / 64% R1+Sonnet 3.5 / 62% o1 high / 60% Sonnet 3.7, tanpa thinking / 60% o3-mini high / 57% R1 / 52% Sonnet 3.5
- Menarik bahwa skor format diff yang benar, yang 99,6% di Claude 3.5, turun menjadi 93,3% di Claude 3.7
  Dari pengalaman memakai claude-code, cukup sering harus mencoba beberapa kali sampai mendapatkan diff yang benar, dan semoga membaik seiring stabilisasi
- Saya sudah mengikuti proyek aider sekitar setahun sambil mencoba memahami cara membuat agen software engineering
  Pekan lalu di AI Engineering Summit New York, saya bertemu seorang staf AI engineer yang sangat senior, dan ia melakukan hal yang cukup sulit dipercaya dengan aider; saya benar-benar terkesan
  Karena mungkin kurang pantas untuk diposting di forum publik, saya penasaran apakah ada cara untuk membagikan langsung kisah proyek aider nyata seperti ini jika saya mendapat izin
Saya Boris dari tim Claude Code, dan bersama @eschluntz, @catherinewu, @wolffiex, @bdr, saya akan sebisa mungkin menjawab pertanyaan terkait produk selama sekitar satu jam ke depan
- Ada hal yang sangat ingin saya lihat diperbaiki. Saat memasukkan prompt, model sudah membuat 90% atau 100% jawaban, lalu sistem menampilkan error bahwa jawaban tidak bisa dibuat karena kapasitas terlampaui, dan bahkan menghapus respons yang sudah keluar
  Saya ingin tetap bisa mengakses respons yang sudah diberikan meskipun belum lengkap
- Keluhan terbesar saya adalah di UI, setelah beberapa kueri yang sedikit berat saja, saya terus terkena batas penggunaan
  Saya memang bisa memakai console API, tetapi kalau begitu fitur seperti Projects hilang
  Saya penasaran apakah ada kemungkinan batas ini akan dinaikkan dalam waktu dekat
- Claude adalah LLM default yang saya pakai untuk segala hal, dan meski terdengar klise, ia benar-benar memperluas berkali-kali lipat cakupan hal yang bisa saya pelajari secara masuk akal
  Belakangan ini saya membaca teks filsafat lama tanpa pengetahuan latar yang relevan, dan kalau Claude tidak membantu menguraikan kalimat-kalimat sulit, mendiskusikan ide, menjelaskan konteks historis dan mengapa ditulis dengan cara seperti itu, hingga membandingkannya dengan pemikiran baru, saya pasti sudah menyerah berkali-kali
  Dalam pekerjaan juga saya memakainya berkali-kali setiap hari untuk pengembangan, dan mode ringkas terasa sangat menyegarkan dibanding LLM lain
  Ia membantu menemukan bug di codebase yang asing, menjelaskan tech stack, dan menulis skrip bash, sehingga menghemat puluhan jam dan banyak stres
  Namun stabilitas layanan sedikit lebih rendah daripada tempat lain, sehingga kadang saya harus beralih ke model lain; saya penasaran apakah ada rencana untuk memperbaiki bagian ini
- Saya sedang melakukan refactor yang sangat berantakan pada kode komponen React berbasis class lama yang tidak disentuh selama 6 tahun, dan setelah memakai Aider selama beberapa hari, saya menemui jalan buntu
  Saya baru saja mengulik source code Aider di GitHub untuk mengambil prompt-nya dan membuat skrip pembantu kecil sendiri, jadi timing rilis ini sempurna
  Setelah memasang Claude Code, tool ini memproses pekerjaan tersebut dengan cepat, dan saya juga suka antarmuka serta ekspresi karakternya seperti “Ruminating” dan “Schlepping”
  Secara keseluruhan, kerja yang luar biasa
- Saya baru mulai mencoba tool command line ini, dan kesan pertama setelah 5 menit adalah akan menyenangkan jika claude-code juga punya tampilan biaya per kueri dan total biaya sesi seperti yang saya sukai di aider
  Saya sudah memakai aider dengan Claude 3.5 sehari-hari, dan kemampuan melacak biaya secara natural itu berguna
  Selain itu, akan bagus jika dibuat dengan bahasa yang bisa dikompilasi seperti Go atau Rust, meski saya paham biaya penulisan ulang bisa besar
  Setelah mencoba sekitar 10 menit, tampaknya ada masalah besar pada patch kode Go dasar. Setelah menambahkan baris dengan indentasi yang salah, ia mencoba memperbaikinya tiga kali dengan indentasi yang benar, tetapi setiap kali muncul "String to replace not found in file"
  Aider yang memakai Claude 3.5 menangani ini dengan sangat baik, jadi mungkin bagus untuk melihat prompt dan format patch-nya
Benchmark Kagi LLM telah diperbarui untuk mencerminkan mode umum dan mode thinking Sonnet 3.7
https://help.kagi.com/kagi/ai/llm-benchmark.html
Di antara LLM serbaguna yang saya coba, tampaknya berada di peringkat kedua setelah Gemini 2.0 Pro, di atas gpt-4o
Mode thinking kurang mengesankan, dan dengan anggaran thinking 8192 token, kira-kira setara o1-mini dan o3-mini
Secara keseluruhan ini pembaruan yang bagus: dengan harga yang sama mendapat model yang lebih berkualitas dan lebih cepat, dan saya berharap bisa mengaktifkannya di Kagi Assistant dalam 24 jam
- Terima kasih kepada tim Kagi yang membuat LLM baru bisa dipakai secepat ini di Assistant
  Nilai Kagi Assistant bagi saya pribadi sudah tidak perlu dipertimbangkan lagi
- Sekarang mengejutkan bahwa Gemini 2.0 ada di posisi pertama
  Seingat saya, model-model Google dulu berkinerja rendah di benchmark Kagi
- Saya penasaran bagaimana anggaran thinking 8192 token itu dipilih
  Saya sering melihat DeepSeek R1 memakai jauh lebih banyak dari itu
- Sudah muncul di Kagi Assistant, dan belum sampai 24 jam. Bagus
- Yang tidak saya mengerti adalah Claude 3.5 Haiku, yang bukan model thinking, ada di bagian non-thinking tetapi ditampilkan dengan anggaran thinking 8192
Menganalisis profil HN dengan ini cukup lucu :)
https://hn-wrapped.kadoa.com/
Saya memakainya untuk menguji selera humor model baru ini
- Saya benar-benar kena: katanya saya lebih banyak membicarakan “detektor raga Carnatic” daripada membuatnya, dan dengan kecepatan seperti ini LLM akan menggubah raga sebelum detektornya sempat mengidentifikasi raga
  Katanya juga saya membeli prosesor 7950X tapi tidak tahu mau dipakai untuk apa, seperti versi komputasi dari mengendarai Ferrari seminggu sekali untuk belanja bahan makanan
  Katanya saya mengambil sabbatical karena khawatir soal work-life balance, tetapi menghabiskan masa itu di HN untuk mengomentari karier orang lain
  Kalau ada yang mencari saya, saya akan menangis di kamar
- “Gajimu begitu rendah sampai legacy code pun merasa kasihan”
  “Kamu satu-satunya orang di HN yang mengira 800 dolar per bulan itu gaji, bukan tagihan cloud computing”
  Sakit
- Benar-benar dibantai: “Waktu yang kamu habiskan untuk menjelaskan bahwa penanganan error Go buruk lebih banyak daripada waktu yang benar-benar dihabiskan developer Go untuk menangani error”
  “Hubunganmu dengan bahasa pemrograman seperti acara kencan. Kamu menemukan kekurangan pada semuanya, tapi tidak bisa berkomitmen pada satu pun”
  “Kalau penanganan error adalah agama, kamu adalah misionaris paling fanatiknya, mengonversi unchecked exception satu per satu”
- “Untuk orang yang pernah bekerja di Reddit, kamu menghabiskan terlalu banyak waktu di HN. Rasanya seperti meninggalkan Facebook lalu seharian di Twitter mengeluh tentang media sosial”
  Terlalu akurat sampai menyakitkan
- “Kamu mengeluhkan distraksi digital sambil menulis novel di thread komentar HN. Itu seperti mengkritik fast food sambil menunggu di antrean drive-thru”
  “Kamu akan menulis esai yang penuh pertimbangan tentang ‘minimalisme digital’, membuatnya naik ke halaman depan HN, lalu secara ironis menghabiskan lebih banyak waktu membalas komentar itu daripada seluruh waktu yang kamu habiskan di HN sepanjang tahun”
  Ini sedang melihat saya. Jangan
Interaksi pertama saya dengan Claude 3.7 Sonnet cukup mengesankan
Saya memintanya menemukan masalah di codebase, ketika fungsi Cloudflare Pages mengembalikan 500, error yang tidak masuk akal, dan respons kosong di production; ini masalah yang sepanjang Jumat tidak bisa saya temukan
Skripnya mati sebelum mencetak apa pun, jadi saya benar-benar frustrasi karena tidak ada cara untuk menambah logging atau mendapatkan visibilitas
o1, o3, dan Claude 3.5 sama sekali tidak membantu, tetapi setelah thinking 39 detik, Claude 3.7 menemukan masalah yang tepat pada jawaban pertama, lalu pada prompt kedua menulis fungsi yang berjalan untuk mengakalinya
Karena saya menghubungkan repositori GitHub ke percakapan, sepertinya diskusinya tidak bisa dibagikan, jadi saya menyalinnya ke gist: https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- Salah satu jawabannya menunjukkan bahwa Claude pada dasarnya masih awam soal pemikiran nyata
  Ia menyarankan memindahkan sanitasi HTML ke frontend, padahal itu akan terlalu mudah dilewati di frontend sehingga siapa pun bisa memasukkan apa saja secara literal ke DB; karena itulah saya menaruhnya di fungsi CF
  Ini hal yang bahkan developer junior pun akan mengerti
Saya berhasil membuat ini berjalan di tool LLM saya, dan versi plugin barunya adalah llm-anthropic 0.14
Dalam prosesnya saya menemukan beberapa hal tentang model ini, dan catatan detailnya ada di sini: https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
Salah satu fitur baru paling menarik adalah batas output naik dari 8.000 token pada Claude 3.5 Sonnet sebelumnya menjadi 120.000 token
Model ini tampaknya bisa menggunakan batas output itu secara efektif, dan hasil terpanjang saya sejauh ini butuh 27 menit sampai selesai: https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- Bukan bermaksud meremehkan Sonnet 3.7, tetapi mengatakan bahwa ini jauh lebih tinggi daripada model lain mana pun di bidang ini tampaknya tidak akurat
  o1 dan o3-mini juga bisa sampai 100.000 token output
  https://platform.openai.com/docs/models#o1
- Saya penasaran apakah Simon pernah menulis di suatu tempat bagaimana ia bisa begitu aktif sambil membuat tool pemrograman, blog, dan juga bekerja
  Saya penasaran dari mana ia menemukan waktu dan energinya
- Saya penasaran berapa biayanya
Masuk akal jika Anthropic lebih berfokus pada kode
Dibandingkan model lain, kekuatannya memang ada di kode
Mengingat kesulitan Devin, saya penasaran bagaimana produk pesaing Devin dari mereka nantinya
- Karena ini model yang menggerakkan sebagian besar penggunaan Cursor/Windsurf dan mereka juga mendorong MCP, rasanya akan baik-baik saja asalkan pengalaman pengguna-nya digarap dengan baik
- Jelas ini kekuatannya, tetapi kadang saya berharap chat tidak terlalu ingin menulis kode
  Bahkan saat saya hanya menginginkan jawaban konseptual atau tingkat tinggi, ia sering melemparkan kode, jadi sekarang saya sudah terbiasa mengatakan agar tidak menulis kode
- Saya juga berpikir begitu, dan sejauh ini ada 3 masalah yang benar-benar sulit yang belum bisa dipecahkan Claude maupun model lain mana pun, jadi saya menantikan untuk mencobanya hari ini
- Agak lucu bahwa di posting blog mereka mengutip Cognition, yaitu perusahaan pembuat Devin
Kabar baik bahwa “sambil mengembangkan model penalaran, kami sedikit mengurangi optimasi untuk soal kompetisi matematika dan ilmu komputer, lalu mengalihkan fokus ke pekerjaan dunia nyata yang lebih mencerminkan bagaimana perusahaan benar-benar menggunakan LLM”
OpenAI tampaknya menargetkan “model paling pintar”, tetapi dalam praktiknya LLM terutama dipakai sebagai asisten belajar, pengubah data, dan penulis kode
Keseimbangan antara “kecerdasan” dan “kemampuan menyelesaikan pekerjaan” tampaknya menjadi sweet spot, dan ini terlihat sebagai salah satu alasan alat pengembang saat ini (Cursor, Windsurf, dll.) lebih memilih Claude 3.5 Sonnet daripada 4o
- Kita semua menggunakan Claude langsung untuk pekerjaan setiap hari, dan menyelesaikan rasa sakit kita sendiri lebih menarik daripada benchmark abstrak
  Untuk menyelesaikan pekerjaan memang dibutuhkan banyak pengetahuan teoretis, tetapi juga banyak insting lapangan untuk tahu kapan harus menjawab cepat dan kapan harus kembali mengoreksi
- Kadang saya merasa model-model ini mungkin overfit terhadap benchmark. DeepSeek khususnya terasa begitu
  Apa pun peringkat sebenarnya, chat yang secara subjektif jawabannya terasa lebih baik dan membuat saya terus kembali adalah Claude
- Claude 3.5 sangat bagus di Windsurf, tetapi memakan biaya kredit
  DeepSeek V3 sekarang tersedia di Windsurf tanpa biaya kredit, dan bagi perusahaan kami itu perubahan besar
  Apa pun pilihannya, bagus bahwa opsinya makin beragam
  Saya sangat merekomendasikan mencoba fitur Cascade di Windsurf untuk penulisan dan eksplorasi kode bergaya agen. Fitur itu menghemat banyak waktu untuk memahami codebase baru dan menelusuri aliran data
Perlombaan AI bergerak sangat cepat
Sebagai developer/engineer perangkat lunak, saya khawatir soal prospek pekerjaan, dan sepertinya kita baru akan tahu seiring waktu
Saya juga penasaran apa yang akan terjadi pada gelembung perumahan di Pantai Barat jika bayaran tinggi software engineer menghilang
Mungkin gelombang pekerja pengetahuan berikutnya akan datang dan menggantikan posisi itu
- Memang benar pasar kerja pengembangan perangkat lunak sedang terguncang besar, tetapi ada hal-hal yang bisa dilakukan agar berada di posisi yang menguntungkan
  Yaitu mempelajari seluruh stack lebih dalam, terutama backend dan DevOps, menerima peningkatan produktivitas untuk merilis lebih banyak produk dan proyek pribadi, menggunakan waktu produksi dengan sangat selektif, serta memiliki sistem manajemen pengetahuan pribadi yang bagus dan asisten agen
- Sebenarnya rasanya justru kecepatannya melambat
  Tahun lalu cukup liar sampai sekitar sebelum dan sesudah Llama 3, tetapi peningkatan belakangan ini relatif kecil
  Model penalaran pun hanya sedikit lebih baik daripada hal yang sebelumnya sudah bisa dilakukan dengan agen yang membuat rencana eksplisit, dan lebih mirip sesuatu yang dikemas dengan baik untuk tujuan tertentu serta sedikit di-tuning
  DeepSeek memang membuat peningkatan besar dari sisi efisiensi, tetapi perubahan yang terlihat oleh pengguna tidak terlalu besar
  Jadi saya melihat perlombaan AI belakangan ini mulai memasuki semacam fase plateau
- Dampaknya bisa jauh lebih luas daripada Silicon Valley atau Pantai Barat, dan justru Silicon Valley mungkin menjadi salah satu dari sedikit wilayah yang masih agak punya harapan berkat pengembangan AI
  Model-model ini berpotensi mengguncang lapangan kerja industri di seluruh dunia
  Ironisnya, profesi yang benar-benar berubah mungkin hanya software engineer dan beberapa bidang seperti penulisan serta desain grafis
  Bahwa lab AI secara khusus membidik software engineer terlihat jelas hanya dari pengumuman “Claude 3.7 and Code”, sementara bidang lain hampir tidak disebut
  Bagi orang yang tidak berada di Silicon Valley dan tidak pernah merasakan kompensasi tinggi, software engineering sering kali hanyalah pekerjaan biasa yang penuh stres dan membutuhkan pembelajaran terus-menerus
  Karena itu, kemungkinan mereka berinvestasi atau menabung dari pendapatan siap pakai yang tinggi juga lebih kecil, sehingga rasa sakit dan kecemasan akibat otomatisasi akan lebih besar
  Siapa sangka pekerjaan pertama yang diotomatisasi AI bukan tenaga kerja fisik atau mobil otonom, melainkan perangkat lunak itu sendiri
  Industri lain tampaknya lebih sulit karena sudah menemui jalan buntu atau punya hambatan seperti regulasi dan pengetahuan tertutup
  Software engineer seolah memberi contoh bagi industri lain: jangan masukkan AI, atau kurung selama mungkin di dalam organisasi, yakni tetaplah closed source
  Jika dipikir kembali, itu ironis
- Untuk jangka pendek dan menengah, saya tidak terlalu khawatir
  Saya merasa ada terlalu banyak edge case dan konteks halus yang akan terlewat oleh sistem AI
  Misalnya, sistem tidak selalu berperilaku sesuai dokumentasi. Bagaimana AI membedakan bug pada layanan dengan bug pada kodenya sendiri? Bagaimana ia tahu sejak awal bahwa ada bug? Bagaimana ia membedakan laporan bug dengan upaya peretasan oleh hacker?
  Dunia ini kompleks, dan tanpa kecerdasan buatan sejati, tetap dibutuhkan manusia untuk memandu AI dalam situasi rumit seperti itu
  Saran saya, biasakan diri menggunakan AI dan alat AI baru, lalu pahami bagaimana semuanya masuk ke alur kerja umum
  Saya rasa software engineer yang baik tidak akan hilang
- Jika model terus membaik tetapi tidak sampai ke singularitas penuh, saya rasa pekerjaan justru akan bertambah
  Misalnya jika biaya pembuatan perangkat lunak turun 5 kali lipat, karena saat ini pasokannya sangat terbatas, permintaan akan meningkat lebih dari 5 kali lipat
  Banyak perusahaan menginginkan perangkat lunak yang lebih baik, tetapi biayanya terlalu tinggi
  Maka akan tercipta lebih banyak pekerjaan
  Namun aktivitas mengetik akan berkurang, sementara manajemen produk, interaksi manusia, dan pengujian edge case akan bertambah
  Sepertinya juga akan muncul cukup banyak pekerjaan yang sangat teknis untuk men-debug saat model gagal
  Jadi saran saya, pelajarilah keterampilan yang membantu membuat perangkat lunak yang berguna bagi manusia dan bisnis, mulai dari riset pengguna hingga manajemen produk. Engineering juga tetap diperlukan
Claude 3.7 mengerjakan ulang setengah tesis sarjana saya dalam waktu kurang dari 30 detik :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
Gambar outputnya ada di sini: https://i.imgur.com/0c65Xfk.png
Gemini Flash 2 gagal total: https://g.co/gemini/share/10437164edd0
- Sebagian besar topik yang biasanya dibahas di jenjang sarjana terdokumentasi dengan baik dan sudah dipahami dengan baik, jadi besar kemungkinan masuk ke data pelatihan AI
  Mulai tingkat pascasarjana, cakupan materinya sedikit lebih jarang dan lebih nis, tetapi secara umum tetap belum sampai pada level inovatif
  Di tingkat doktoral, tujuannya adalah memperluas pengetahuan yang sudah ada di bidang tersebut, dan banyak topik baru pertama kali dieksplorasi, jadi saya kira cakupannya hampir tidak ada sama sekali
- Berikutnya giliran tesis master dan disertasi doktor!
- Saya penasaran apakah konten ini atau yang serupa bisa ditemukan di materi akses terbuka atau di beberapa perpustakaan

riskatcher 2025-02-25

Sulit membandingkannya dengan flash 2 karena perbedaan harganya terlalu besar.. Pas berada di kelas menengah antara o1pro dan o3-mini