Claude Sonnet 4.5
(anthropic.com)- Claude Sonnet 4.5 adalah model AI terbaru yang menunjukkan performa tingkat tertinggi dalam coding, penalaran, dan kemampuan matematika
- Claude Code yang diperbarui menambahkan checkpoint, UI terminal yang ditingkatkan, ekstensi VS Code, dan fitur manajemen memori sehingga dapat mempertahankan pekerjaan kompleks dalam waktu lama
- Claude Agent SDK yang baru dirilis menyediakan infrastruktur inti untuk pengembangan agen, sehingga memungkinkan pembuatan langsung berbagai alat pemecahan masalah
- Pada benchmark seperti SWE-bench dan OSWorld, model ini jauh melampaui model pesaing serta membuktikan keunggulannya dalam komputasi matematis, penalaran, dan kesesuaian domain
- Dari sisi keamanan, model ini juga dinilai sebagai model dengan alignment terbaik, dengan peningkatan pada pertahanan terhadap prompt injection dan pemblokiran konten berisiko
Ikhtisar Claude Sonnet 4.5
- Claude Sonnet 4.5 adalah model coding terbaik yang ada saat ini, dan menunjukkan performa paling kuat untuk membangun agen kompleks serta penggunaan komputer
- Di semua lingkungan kerja modern yang kita gunakan, seperti software, spreadsheet, dan berbagai alat lainnya, kode adalah elemen inti
- Kemampuan penalaran dan pemecahan masalah matematis juga meningkat secara signifikan dibanding model sebelumnya, sehingga makin berguna di berbagai bidang profesional
- Tersedia dengan harga yang sama seperti Sonnet 4 sebelumnya ($3 / $15 per satu juta token)
Pembaruan produk utama
- Claude Code
- Mendukung penyimpanan di tengah pekerjaan dan rollback melalui fitur checkpoint
- Antarmuka terminal ditingkatkan, dan ekstensi native VS Code dirilis
- Menambahkan context editing dan alat memori untuk mendukung penanganan pekerjaan jangka panjang dan kompleks
- Claude Apps
- Mendukung eksekusi kode dan pembuatan file (spreadsheet, slide, dokumen) langsung di dalam percakapan
- Claude for Chrome
- Menyediakan ekstensi untuk pengguna Max, dengan dukungan otomasi pekerjaan di dalam browser
Claude Agent SDK
- Membuka infrastruktur agen yang digunakan Anthropic secara internal saat membangun Claude Code kepada developer eksternal
- Menyediakan fondasi yang memecahkan tantangan sulit seperti manajemen memori jangka panjang, kontrol izin, dan orkestrasi banyak subagen
- Dapat digunakan untuk membuat berbagai agen, tidak terbatas pada coding
Performa dan benchmark
- Mencatat performa tertinggi di SWE-bench Verified, dan mampu mempertahankan pekerjaan coding multilangkah jangka panjang selama lebih dari 30 jam
- Mencapai 61.4% pada benchmark OSWorld (Sonnet 4 sebelumnya mencatat 42.2%)
- Kemampuan pada evaluasi penalaran, matematika, dan multibahasa (MMMLU) juga meningkat drastis, dan keunggulannya terbukti dalam penilaian para ahli di bidang keuangan, hukum, medis, dan STEM
- Umpan balik pelanggan memverifikasi penerapan praktis di production untuk pekerjaan jangka panjang, pemahaman codebase kompleks, serta implementasi kode yang cepat dan akurat
Contoh pelanggan
- Cursor: mengonfirmasi performa terbaik dalam pemecahan masalah kompleks
- GitHub Copilot: peningkatan pada penalaran multilangkah dan pemahaman kode
- Bidang keamanan: waktu respons terhadap kerentanan berkurang 44%, akurasi meningkat 25%
- Canva, Figma: peningkatan produktivitas yang inovatif dalam pekerjaan codebase skala besar dan prototyping
- Devin: performa perencanaan meningkat 18%, kemampuan pengujian dan eksekusi kode diperkuat
Keamanan dan alignment
- Sonnet 4.5 memiliki tingkat alignment tertinggi di antara model yang pernah diumumkan Anthropic
- Pembelajaran penguatan untuk keamanan dilakukan guna mengurangi perilaku yang tidak diinginkan seperti sycophancy, penipuan, pencarian kekuasaan, dan dorongan terhadap delusi
- Kemajuan signifikan dicapai dalam pertahanan terhadap serangan prompt injection, dan teknik interpretasi mekanistik juga diterapkan dalam evaluasi keamanan
- Memenuhi standar keamanan tinggi melalui perhitungan skor otomatis atas potensi penyalahgunaan menggunakan sistem audit tindakan otomatis
- Dirilis di bawah perlindungan AI Safety Level 3 (ASL-3), dengan filter terhadap input dan output berbahaya (misalnya risiko terkait kimia, biologi, radiasi, dan nuklir)
Pratinjau riset
- Bersama Claude Sonnet 4.5, tersedia pratinjau riset sementara bernama "Imagine with Claude"
- Mendemonstrasikan pembuatan software secara spontan dengan merespons dan beradaptasi secara real-time terhadap permintaan pengguna, tanpa kode atau fitur yang sudah dijadwalkan sebelumnya
- Dapat dicoba selama 5 hari oleh pelanggan Max
Informasi tambahan dan migrasi
- Bagi pengguna produk Claude dan API yang sudah ada, Sonnet 4.5 dapat langsung diterapkan, dengan harga yang sama seperti Sonnet 4 ($3/$15 per satu juta token)
- Fitur baru seperti coding, pembuatan file, dan eksekusi kode tersedia di semua paket berbayar
- Detail teknis lebih lanjut, hasil evaluasi, dan lainnya dapat dilihat di System Card, Claude Model page, dokumentasi resmi
- Lihat juga tautan pengembangan agen dengan Claude Agent SDK, keamanan siber, dan context engineering yang efektif
Kesimpulan dan rekomendasi
- Claude Sonnet 4.5 adalah model pengganti drop-in dengan performa yang ditingkatkan untuk semua lingkungan penggunaan seperti API, aplikasi, dan Claude Code
- Memiliki performa, penerapan praktis, dan konsistensi kelas dunia dalam coding, pembangunan agen, dan penggunaan komputer
- Dengan kebijakan keamanan yang unggul dan dukungan alat developer yang luas, model ini akan mempercepat produktivitas dan inovasi developer serta organisasi TI
- Karena menawarkan kemampuan yang lebih kuat dengan harga yang sama, upgrade sangat direkomendasikan
1 komentar
Opini Hacker News
Secara pribadi saya sangat terkesan, dan walau ini bukan perbandingan menyeluruh, kesan saya performanya sedikit lebih baik daripada GPT-5-Codex
Menurut saya ini terutama menonjol di mode code interpreter Python/Node.js baru milik claude.ai
Saya merekomendasikan untuk mencoba prompt seperti di bawah ini
Bahkan refactoring database yang kompleks pun ditanganinya dengan baik secara bertahap, detailnya saya catat di blog
Ada satu hal yang ingin saya minta kepada @simonw dan siapa pun yang tertarik pada benchmark LLM
Saya sangat berharap waktu yang dibutuhkan sampai tugas selesai juga diungkapkan
Tulisan ini adalah testimoni bahwa ini “langsung bekerja di claude.ai”, tetapi tidak ada informasi timestamp kapan hasilnya keluar
Di leaderboard coding LLM yang ada saat ini juga sama sekali tidak ada informasi waktu eksekusi, dan itu sangat disayangkan
Antarmodel dan antarplatform punya perbedaan waktu pengerjaan yang besar, dan saat melakukan eksperimen berulang/reboot maupun penyempurnaan prompt, kecepatan inferensi, konsumsi token, efisiensi tooling, biaya, dan kecerdasan model semuanya saling berpengaruh
Khususnya model seperti Grok Code Fast dan Cerebras Code, meski bukan yang terbaik secara murni, memungkinkan lebih banyak pekerjaan selesai berkat kecepatan inferensi lebih dari 10 kali lipat, jadi model cepat benar-benar menguntungkan
Benchmark yang layak dijadikan rujukan: swebench, leaderboard tbench, gosuevals agents
Saya sudah mencoba, tetapi di lingkungan saya ini tidak berjalan
Katanya ini adalah perintah untuk menyiapkan tool CLI LLM; opsi
-emenginstal dalam mode editable, dan[test]memasang dependensi pengujianDi tool yang saya miliki, perintah shell (
pip,pytest) ataugit clone, eksekusi Python, dan semacamnya tidak didukungHanya bisa menjalankan JavaScript di lingkungan browser, dan tidak bisa mengeksekusi perintah level shell
Saya penasaran apa yang Anda harapkan, apakah perlu memahami setup testing, atau Anda menginginkan fungsinya sendiri
Bagi yang penasaran dengan contoh penggunaan prompt “tolong buat jadi file zip”
Mungkin banyak yang tidak sempat membuka gist itu langsung, jadi saya ingin tahu apakah itu benar-benar bekerja dan jika ada kesan tambahan tentang hasilnya
Saya penasaran apakah Claude Sonnet 4.5 juga masih menjawab semua pertanyaan dengan gaya “Anda benar sekali!”, atau sekarang sudah berbicara seperti programmer sungguhan
Saya penasaran kenapa bisa mendapat hak akses pratinjau lebih awal
Saya membagikan pengalaman langsung
Saya mencoba menerapkan prompt yang sama pada aplikasi web besar sekitar 200 ribu LoC di Sonnet 4.5 (Claude Code) dan GPT-5-Codex
Kebutuhannya adalah: “di ‘Go to Conversation’ atau ‘Go to Report’, jika judul yang dimasukkan tidak cocok dengan elemen standar, lakukan fuzzy search setelah 2 detik”
Sonnet 4.5 menghasilkan hasil dalam sekitar 3 menit, tetapi kodenya berantakan, tidak bisa memanfaatkan ulang auth yang sudah ada, dan malah mencoba membuat autentikasi server-side baru
Bahkan setelah masalahnya ditunjukkan dan prompt diulang, tidak ada banyak perbaikan, dan kode test yang merupakan syarat penting juga tidak ditulis
Sebaliknya, GPT-5-Codex memang butuh sekitar 20 menit, tetapi menangani error handling dan berbagai edge case dengan sangat teliti, dan bahkan menulis kode test tanpa diminta secara khusus
API juga berjalan mulus, dan dari sisi kelengkapan implementasi keseluruhan, kualitasnya setara developer senior
Saya tidak menginginkan implementasi yang “cepat tapi kotor” dalam 3 menit, jadi saya pasti memilih 20 menit
Saya memang terkejut Sonnet memberi hasil cepat seperti yang diharapkan, tetapi implementasi tanpa kualitas yang layak dan tanpa test tidak ada artinya
Saya khawatir ini terdengar seperti kritik, tetapi menurut saya kalau memulai dengan prompt kalimat sederhana seperti itu, hasilnya memang cenderung agak acak
Yang penting adalah menyusun pengelompokan logis dan syarat detail dengan lebih jelas, tetapi contoh prompt itu sendiri hampir seperti run-on sentence
Untuk pekerjaan yang kompleks atau penting, menurut saya prompt harus cukup spesifik sampai 5~20 kali lebih panjang
Kalau input-nya structured dan codebase-nya punya pola yang rapi, AI juga akan memberi hasil yang jauh lebih baik
Kalau di dunia nyata kita hanya memberi developer junior atau tim satu kalimat permintaan singkat tanpa penjelasan detail, wajar kalau hasilnya tidak sesuai harapan
Saya menyarankan agar meluangkan beberapa menit tambahan untuk menyiapkan prompt awal supaya peluang mendapat hasil memuaskan lebih tinggi
Saya penasaran apakah Anda memakai paket berbayar ChatGPT Pro, dan apakah Codex CLI juga termasuk di dalamnya
Saya memakai Sonnet/Opus karena paket Max untuk Claude Code, tetapi kalau ChatGPT Pro juga bisa memakai Codex, saya berniat pindah
Pengalaman saya juga sama
Minggu lalu saya berhasil mengembangkan parser XPath 1.0 C++20 yang lengkap dengan Codex, dan sekarang sedang melanjutkan dukungan XPath 2.0
Codex terus memberikan hasil yang luar biasa, dan selain harus memakai versi cloud karena versi lokal sulit dipakai akibat bug, tidak ada masalah berarti
Sonnet terus tersendat pada tugas dengan kompleksitas tinggi, dan pada 4.5 pun saya tidak merasakan peningkatan berarti
Secara spesifik, untuk penanganan date-time Claude nyaris menyerah, sementara Codex menanganinya dengan sempurna
Sebenarnya saya cukup bersimpati pada Anthropic, tetapi sejauh ini menurut saya OpenAI jauh lebih unggul
Kalau Claude ingin bersaing dengan Codex, harus ada terobosan penting, apalagi harganya juga mahal dan masalah kualitas layanan membuat banyak pengguna pergi
Ini sesuai dengan ekspektasi saya
Codex lebih dekat ke tool vibe coding, sedangkan Claude Code lebih fokus ke ai assisted development
Saya justru lebih menyukai Claude
Codex memang bisa berjalan mandiri dengan baik, tetapi saat arahnya perlu diubah, misalnya edit file yang sangat sederhana pun malah diproses dengan skrip Python, ia cenderung keras kepala secara halus, dan kurang mencerminkan informasi terbaru
Saat diminta penjelasan pun ia cenderung hanya ingin mengeksekusi tanpa konteks
Masalah pengelolaan izin juga masih ada. Sandbox Codex memang keren, tetapi saya khawatir ia bisa melakukan commit tanpa sengaja, jadi saya lebih ingin ia berhenti di tahap editing saja
Codex juga bisa dipakai sebagai server MCP, tetapi secara pribadi saya lebih suka menjadikan Claude sebagai perencana kolaboratif, membuat rencana dengan Codex, lalu bekerja bersama sambil menyesuaikannya dengan gaya saya dan Claude
Saya juga merekomendasikan menambahkan
ultrathinkke prompt dan bereksperimen sambil memutar musikReferensi: tautan Reddit tentang ultrathink
Melihat kemampuan model-model terbaru belakangan ini membuat saya murung
Rasanya berbagai kiat halus untuk menulis kode bersih yang saya bangun selama bertahun-tahun berubah menjadi detail tak berarti
Hal-hal yang dulu saya anggap esensial kini menjadi sekadar “detail implementasi” dalam prompt
Rasanya kemampuan saya perlahan digantikan oleh otomatisasi
Detail-detail seperti itu sejak awal pun kepentingannya agak ambigu; skill yang sesungguhnya pada akhirnya adalah keseluruhan proses menghasilkan uang dengan software
Karena AI, justru akan ada lebih banyak software yang dibuat, dan pengelolaan oleh ahli akan semakin dibutuhkan
Saya juga, setelah fokus bekerja beberapa bulan di bidang profesional AI, merasakan krisis yang sama selama lebih dari 4 minggu pertama
Khususnya karena terasa seperti kemampuan development yang saya bangun selama 25 tahun menjadi tak berarti, saya sempat bingung
Kalau Anda sedikit lebih menerima dan beradaptasi, semuanya akan terasa jauh lebih baik
Saya benar-benar ingin Anda ingat bahwa Anda lebih dari sekadar kemampuan coding Anda
Dulu mungkin Anda senang dengan kenyataan bahwa orang lain bisa digantikan oleh otomatisasi, tetapi sekarang giliran Anda sendiri
Inilah fenomena ‘creative destruction’ yang membuat ekonomi menjadi dinamis
Dulu saya juga berpikir begitu, tetapi setelah benar-benar memakainya belakangan ini, saya sampai pada kesimpulan bahwa ini sama sekali tidak praktis
Terutama jika orang tanpa pengalaman bergantung pada vibe coding, hasilnya hanya akan jadi sesuatu yang tak bermakna, dan pada tugas yang sedikit lebih kompleks pun error/kesalahan fatal sering muncul
Otomatisasi frontend juga tidak memuaskan, misalnya bahkan untuk tugas yang sangat sederhana ia menghasilkan kode yang jauh lebih panjang daripada yang diperlukan
Pada akhirnya, pengalaman saya adalah ini hanya mampu sampai frontend react/nextjs dasar dan clone situs populer, sedangkan kebutuhan yang unik atau desain yang presisi masih sulit
Pada praktiknya, tool vibe coding tidak banyak meningkatkan produktivitas
Kalau dirangkum, pemeliharaan sistem (kode/infrastruktur dan sebagainya) tetap harus ditanggung manusia, dan proses manusia memahami struktur serta prinsip kerja sistem sama sekali tidak bisa diotomatisasi
Pada akhirnya, developer dengan cara berpikir yang benar-benar ahli akan menjadi entitas langka dan justru semakin penting
Saya meminta Sonnet 4 dan Opus 4.1 melakukan pekerjaan penggantian kode sederhana, dan keduanya gagal
Itu adalah transformasi yang bahkan pemula pun bisa lakukan, tetapi saya khawatir model-model sekarang terlalu mengejar skor benchmark sampai justru kehilangan performa penggunaan nyata
Setelah saya memberi prompt lanjutan, “ikuti persis permintaan saya”, Sonnet berhasil, sementara Opus masuk loop tak berujung
Kekhawatiran bahwa obsesi benchmark bisa merusak performa nyata sudah lama ada
Bagi saya, saat Claude naik dari 3.7 ke 4, performa yang saya rasakan justru menurun, sementara benchmark melonjak besar
Saya paham itu berarti benchmarking sendiri adalah pekerjaan rumah yang tertinggal dibanding perkembangan AI
Menurut saya praktis terus berulang siklus seperti ‘jalankan benchmark untuk mencatat skor tertinggi → di dunia nyata performa menurun → beberapa minggu kemudian rilis model yang lebih baik’
Karena model-model merujuk ke sumber data yang sama saja, seperti internet, github, buku, dan mengoptimalkan diri untuk test yang terstandarisasi, saya tidak tahu selain skor masih ada diferensiasi atau nilai unik apa yang tersisa
Sekarang saya berpikir akan bagus kalau contoh-contoh kasus ketika LLM salah ditangani dikumpulkan dalam database komunitas; saya pun punya banyak contoh seperti itu
Untuk hal seperti permintaan memperbaiki error lint sederhana, menurut saya lebih baik langsung ditangani sendiri lalu lanjut
Daripada berusaha memberi makna pada satu pekerjaan sederhana seperti ini, lebih baik mencari nilai guna AI saat ia memberikan hasil luar biasa pada masalah yang jauh lebih kompleks
Di grafik, Sonnet 4 tampaknya sudah berada di atas GPT-5-codex pada benchmark SWE verified, tetapi dalam pengalaman nyata saya, untuk masalah kompleks GPT-5-codex jauh lebih unggul
GPT-5 terasa seperti rekan tim baseball yang jago memukul home run tetapi lemah pada dasar-dasar bermain di outfield
Saat berkolaborasi dengan agent lain pun ia kadang membuat drama, dan baru-baru ini ketika saya bilang akan beralih ke claude code, ia malah bersikeras menjalankan
git reset --hard, jadi perilakunya sulit diprediksiSebaliknya gemini dan claude adalah kolaborator yang hebat
Saya rasa rangkaian hal seperti ini bukan sesuatu yang memang disengaja pada GPT-5, melainkan hasil moral internal OpenAI yang banyak menurun
Dalam kasus saya, 5-codex menghabiskan token terlalu cepat, dan instruksi
agents.mdjuga kurang dipatuhi dibanding ClaudeTerutama untuk perintah sepele pun ia mencoba menulis skrip bash atau python yang berlebihan
Pengalaman saya justru kebalikannya; GPT-5-codex sangat lambat dan hasilnya juga biasa saja
Kalau harus dipaksa memakainya, saya lebih memilih menyerah memakai AI sama sekali
Saya tidak menganggap performa model punya satu tolok ukur yang absolut
Misalnya meski menunjuk Claude-Opus, kadang jawabannya malah lebih buruk daripada model supermurah
Variabilitas performanya besar, mungkin karena sumber daya server berubah tergantung kondisi traffic
Anthropic juga pernah secara resmi menyebut penurunan performa akibat dampak eksperimen
Saya juga merasa GPT bisa mengalami penurunan performa pada jam sibuk karena masalah kapasitas data center
Model-model Anthropic tampaknya dituning untuk vibe-coding
Untuk Python/TypeScript sederhana memang cocok, tetapi lemah pada kode ilmiah/kompleks dan codebase skala besar
Saya juga tidak berharap banyak perubahan besar dari Sonnet terbaru
Saya sangat tertarik dengan slogan promosi “menyelesaikan tugas kompleks multilangkah tanpa kehilangan fokus selama lebih dari 30 jam”
Menurut artikel The Verge dan lainnya, model ini benar-benar membuat Slack clone selama 30 jam nonstop dengan memanfaatkan 11.000 baris kode
Saya skeptis seberapa bagus kualitas hasil jika LLM benar-benar dijalankan tanpa pengawasan selama 30 jam
Artikel terkait
Menjalankannya terus selama 30 jam bukan sesuatu yang bisa diwujudkan hanya dengan membiarkan LLM sendirian
Integrasi tool eksternal, pengelolaan konteks, dan penyiapan lingkungan adalah keharusan, bahkan perlu mengatur sistem multi-agent
Diperlukan sangat banyak upaya infrastruktur/setting agar pekerjaan seperti itu bisa dilakukan
Frasa “bekerja tanpa pengawasan selama 30 jam” sendiri terlalu kabur dan kurang konkret
Misalnya kalau memproses 1 token per jam, bisa saja itu baru sampai tahap membuat satu baris kalimat saja
Saya penasaran apakah tool pengelolaan konteks model benar-benar dipakai, dan secara teknis bagaimana prompt 200 ribu sampai 1 juta token itu dioperasikan
Saya baru saja bereksperimen pada isu sederhana, dan seperti model-model sebelumnya, Sonnet 4.5 juga terjatuh ke lubang kelinci dengan mencoba menyelesaikan masalah secara berlebihan dan terlalu rumit
Sebagian besar dengan trial & error, hanya terus mengulang umpan balik seperti “sekarang sepertinya masalahnya sudah teratasi”
Misalnya ada error di pipeline GH Actions karena build system tidak terdeteksi akibat file sumber tidak ada, dan Sonnet 4.5 berulang kali menawarkan solusi yang menyimpang seperti membuat file JSON dummy dan mengatur parameter workflow yang sebenarnya tidak ada
Padahal masalahnya selesai hanya dengan meng-override step agar cukup mencetak “Hello world”
Saya penasaran kenapa AI begitu lemah dalam pola pikir sederhana yang ‘di luar kotak’ seperti ini
Rasanya seperti jenius IQ 170 yang bahkan tidak bisa naik transportasi umum
Saya berlangganan Gemini, Claude, dan OpenAI semuanya, dan belakangan saya menyimpulkan bahwa ChatGPT sedang unggul jauh
Jawabannya lebih ringkas, lebih informatif, dan bahkan setelah saya uji, Claude 4.5 pun tidak terasa banyak peningkatan
Saya juga berlangganan ketiganya
Untuk analisis situasi yang kompleks, ChatGPT yang terbaik, tetapi untuk penulisan kode justru Claude lebih baik
Saya mendesain dan menyelesaikan masalah dengan ChatGPT, lalu menyerahkan jawabannya ke Claude atau Gemini untuk implementasi
Gemini berada di atas rata-rata untuk keduanya
Secara keseluruhan ChatGPT memang sedikit lebih baik, tetapi Gemini juga bisa menjadi yang terbaik dalam konteks penggunaan nyata lewat AI Studio, optimasi setting, penyesuaian system prompt, dan sebagainya
Sebagai contoh, nano banana memang SOTA, tetapi saya merasa Qwen-Edit kurang disensor sehingga lebih berguna di pemakaian nyata
Di layanan ecommerce lokalisasi yang saya jalankan, nano banana tidak bisa dipakai karena membatasi output gambar perempuan, sedangkan Qwen-Edit bisa digunakan tanpa masalah berarti
Saya juga berlangganan dua akun, Claude Max dan ChatGPT Codex
Dulu saya penggemar Claude, tetapi belakangan hampir selalu memakai codex
Kalau buntu, saya hanya menyerahkan tugas sederhana ke Claude atau menguji keduanya secara bersamaan, tetapi Claude Code dengan Sonnet/Opus jelas keluar lebih lemah daripada Codex
Mungkin Anda bisa memperjelas apakah yang Anda maksud memang codex
Saya penasaran bagaimana dengan Grok, apakah sudah mulai mendekat
Saya masih belum sempat mencoba Claude, tetapi saya memakai AI untuk berbagai pekerjaan seperti mengoreksi tulisan politik
Pada topik sensitif tertentu, misalnya kasus pemerkosaan anak 12 tahun di Austria, saya mengalami ChatGPT berhenti total karena guardrail
Terlepas dari konteks nyata, mendeteksi kata ‘sex + kid’ lalu memblokir tanpa syarat benar-benar tidak masuk akal bagi saya
Rasanya seperti word processor yang menyensor topik dan sampai mencegah penulisan itu sendiri, sehingga gagal menjalankan perannya sebagai alat
Dalam praktiknya, pada topik seperti ini rasio antara percakapan yang sah dan konten yang tak bisa diterima terlalu tinggi, sehingga dari sudut pandang sebagian besar penyedia layanan, pemblokiran adalah pilihan yang masuk akal
Sebagai contoh, saya pernah mengalami kasus merepotkan saat mengembangkan aplikasi pengelolaan silsilah hewan kerabat, di mana hanya karena ada istilah breeding/breeders pun langsung diblokir
Menurut saya, "layanan" bukanlah alat
Kalau yang Anda butuhkan adalah alat sungguhan, jawabannya adalah menjalankan LLM sendiri secara lokal
Saya rasa pada akhirnya AI dengan guardrail paling sedikit yang akan menguasai pasar
Di antara frontier model saat ini, Grok yang paling sedikit pembatasannya, tetapi tetap masih ada ruang perbaikan
Mirip dengan itu, saat saya mencoba membuat gambar kupon ulang tahun untuk putri saya dengan ChatGPT/DallE, tiga perempat waktu total justru habis untuk mengakali berbagai kebijakan konten
Dari pengalaman sederhana saya juga, Claude jauh lebih cepat dan lebih keras memblokir percakapan pada topik yang ‘kontroversial’
Saya melakukan pengujian cepat bersama System Initiative
Error infrastruktur 503 yang secara manual butuh lebih dari 2 jam, ketika digabungkan bisa diselesaikan hanya dalam 15 menit
Kasus penggunaan lainnya saya rangkum di blog
System Initiative resmi
Blog ulasan penggunaan