Claude Sonnet 4.5

(anthropic.com)

4 poin oleh GN⁺ 2025-09-30 | 1 komentar | Bagikan ke WhatsApp

Claude Sonnet 4.5 adalah model AI terbaru yang menunjukkan performa tingkat tertinggi dalam coding, penalaran, dan kemampuan matematika
Claude Code yang diperbarui menambahkan checkpoint, UI terminal yang ditingkatkan, ekstensi VS Code, dan fitur manajemen memori sehingga dapat mempertahankan pekerjaan kompleks dalam waktu lama
Claude Agent SDK yang baru dirilis menyediakan infrastruktur inti untuk pengembangan agen, sehingga memungkinkan pembuatan langsung berbagai alat pemecahan masalah
Pada benchmark seperti SWE-bench dan OSWorld, model ini jauh melampaui model pesaing serta membuktikan keunggulannya dalam komputasi matematis, penalaran, dan kesesuaian domain
Dari sisi keamanan, model ini juga dinilai sebagai model dengan alignment terbaik, dengan peningkatan pada pertahanan terhadap prompt injection dan pemblokiran konten berisiko

Ikhtisar Claude Sonnet 4.5

Claude Sonnet 4.5 adalah model coding terbaik yang ada saat ini, dan menunjukkan performa paling kuat untuk membangun agen kompleks serta penggunaan komputer
- Di semua lingkungan kerja modern yang kita gunakan, seperti software, spreadsheet, dan berbagai alat lainnya, kode adalah elemen inti
Kemampuan penalaran dan pemecahan masalah matematis juga meningkat secara signifikan dibanding model sebelumnya, sehingga makin berguna di berbagai bidang profesional
Tersedia dengan harga yang sama seperti Sonnet 4 sebelumnya ($3 / $15 per satu juta token)

Pembaruan produk utama

Claude Code
- Mendukung penyimpanan di tengah pekerjaan dan rollback melalui fitur checkpoint
- Antarmuka terminal ditingkatkan, dan ekstensi native VS Code dirilis
- Menambahkan context editing dan alat memori untuk mendukung penanganan pekerjaan jangka panjang dan kompleks
Claude Apps
- Mendukung eksekusi kode dan pembuatan file (spreadsheet, slide, dokumen) langsung di dalam percakapan
Claude for Chrome
- Menyediakan ekstensi untuk pengguna Max, dengan dukungan otomasi pekerjaan di dalam browser

Claude Agent SDK

Membuka infrastruktur agen yang digunakan Anthropic secara internal saat membangun Claude Code kepada developer eksternal
Menyediakan fondasi yang memecahkan tantangan sulit seperti manajemen memori jangka panjang, kontrol izin, dan orkestrasi banyak subagen
Dapat digunakan untuk membuat berbagai agen, tidak terbatas pada coding

Performa dan benchmark

Mencatat performa tertinggi di SWE-bench Verified, dan mampu mempertahankan pekerjaan coding multilangkah jangka panjang selama lebih dari 30 jam
Mencapai 61.4% pada benchmark OSWorld (Sonnet 4 sebelumnya mencatat 42.2%)
Kemampuan pada evaluasi penalaran, matematika, dan multibahasa (MMMLU) juga meningkat drastis, dan keunggulannya terbukti dalam penilaian para ahli di bidang keuangan, hukum, medis, dan STEM
Umpan balik pelanggan memverifikasi penerapan praktis di production untuk pekerjaan jangka panjang, pemahaman codebase kompleks, serta implementasi kode yang cepat dan akurat

Contoh pelanggan

Cursor: mengonfirmasi performa terbaik dalam pemecahan masalah kompleks
GitHub Copilot: peningkatan pada penalaran multilangkah dan pemahaman kode
Bidang keamanan: waktu respons terhadap kerentanan berkurang 44%, akurasi meningkat 25%
Canva, Figma: peningkatan produktivitas yang inovatif dalam pekerjaan codebase skala besar dan prototyping
Devin: performa perencanaan meningkat 18%, kemampuan pengujian dan eksekusi kode diperkuat

Keamanan dan alignment

Sonnet 4.5 memiliki tingkat alignment tertinggi di antara model yang pernah diumumkan Anthropic
Pembelajaran penguatan untuk keamanan dilakukan guna mengurangi perilaku yang tidak diinginkan seperti sycophancy, penipuan, pencarian kekuasaan, dan dorongan terhadap delusi
Kemajuan signifikan dicapai dalam pertahanan terhadap serangan prompt injection, dan teknik interpretasi mekanistik juga diterapkan dalam evaluasi keamanan
Memenuhi standar keamanan tinggi melalui perhitungan skor otomatis atas potensi penyalahgunaan menggunakan sistem audit tindakan otomatis
Dirilis di bawah perlindungan AI Safety Level 3 (ASL-3), dengan filter terhadap input dan output berbahaya (misalnya risiko terkait kimia, biologi, radiasi, dan nuklir)

Pratinjau riset

Bersama Claude Sonnet 4.5, tersedia pratinjau riset sementara bernama "Imagine with Claude"
Mendemonstrasikan pembuatan software secara spontan dengan merespons dan beradaptasi secara real-time terhadap permintaan pengguna, tanpa kode atau fitur yang sudah dijadwalkan sebelumnya
Dapat dicoba selama 5 hari oleh pelanggan Max

Informasi tambahan dan migrasi

Bagi pengguna produk Claude dan API yang sudah ada, Sonnet 4.5 dapat langsung diterapkan, dengan harga yang sama seperti Sonnet 4 ($3/$15 per satu juta token)
Fitur baru seperti coding, pembuatan file, dan eksekusi kode tersedia di semua paket berbayar
Detail teknis lebih lanjut, hasil evaluasi, dan lainnya dapat dilihat di System Card, Claude Model page, dokumentasi resmi
Lihat juga tautan pengembangan agen dengan Claude Agent SDK, keamanan siber, dan context engineering yang efektif

Kesimpulan dan rekomendasi

Claude Sonnet 4.5 adalah model pengganti drop-in dengan performa yang ditingkatkan untuk semua lingkungan penggunaan seperti API, aplikasi, dan Claude Code
Memiliki performa, penerapan praktis, dan konsistensi kelas dunia dalam coding, pembangunan agen, dan penggunaan komputer
Dengan kebijakan keamanan yang unggul dan dukungan alat developer yang luas, model ini akan mempercepat produktivitas dan inovasi developer serta organisasi TI
Karena menawarkan kemampuan yang lebih kuat dengan harga yang sama, upgrade sangat direkomendasikan

1 komentar

GN⁺ 2025-09-30

Opini Hacker News

Akhir pekan ini saya sempat mendapat akses ke versi pratinjau, dan saya merangkum catatan terkait di sini
Secara pribadi saya sangat terkesan, dan walau ini bukan perbandingan menyeluruh, kesan saya performanya sedikit lebih baik daripada GPT-5-Codex
Menurut saya ini terutama menonjol di mode code interpreter Python/Node.js baru milik claude.ai
Saya merekomendasikan untuk mencoba prompt seperti di bawah ini

Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

Bahkan refactoring database yang kompleks pun ditanganinya dengan baik secara bertahap, detailnya saya catat di blog

Ada satu hal yang ingin saya minta kepada @simonw dan siapa pun yang tertarik pada benchmark LLM
Saya sangat berharap waktu yang dibutuhkan sampai tugas selesai juga diungkapkan
Tulisan ini adalah testimoni bahwa ini “langsung bekerja di claude.ai”, tetapi tidak ada informasi timestamp kapan hasilnya keluar
Di leaderboard coding LLM yang ada saat ini juga sama sekali tidak ada informasi waktu eksekusi, dan itu sangat disayangkan
Antarmodel dan antarplatform punya perbedaan waktu pengerjaan yang besar, dan saat melakukan eksperimen berulang/reboot maupun penyempurnaan prompt, kecepatan inferensi, konsumsi token, efisiensi tooling, biaya, dan kecerdasan model semuanya saling berpengaruh
Khususnya model seperti Grok Code Fast dan Cerebras Code, meski bukan yang terbaik secara murni, memungkinkan lebih banyak pekerjaan selesai berkat kecepatan inferensi lebih dari 10 kali lipat, jadi model cepat benar-benar menguntungkan
Benchmark yang layak dijadikan rujukan: swebench, leaderboard tbench, gosuevals agents
Saya sudah mencoba, tetapi di lingkungan saya ini tidak berjalan
Katanya ini adalah perintah untuk menyiapkan tool CLI LLM; opsi -e menginstal dalam mode editable, dan [test] memasang dependensi pengujian
Di tool yang saya miliki, perintah shell (pip, pytest) atau git clone, eksekusi Python, dan semacamnya tidak didukung
Hanya bisa menjalankan JavaScript di lingkungan browser, dan tidak bisa mengeksekusi perintah level shell
Saya penasaran apa yang Anda harapkan, apakah perlu memahami setup testing, atau Anda menginginkan fungsinya sendiri
Bagi yang penasaran dengan contoh penggunaan prompt “tolong buat jadi file zip”
Mungkin banyak yang tidak sempat membuka gist itu langsung, jadi saya ingin tahu apakah itu benar-benar bekerja dan jika ada kesan tambahan tentang hasilnya
Saya penasaran apakah Claude Sonnet 4.5 juga masih menjawab semua pertanyaan dengan gaya “Anda benar sekali!”, atau sekarang sudah berbicara seperti programmer sungguhan
Saya penasaran kenapa bisa mendapat hak akses pratinjau lebih awal
Saya membagikan pengalaman langsung
Saya mencoba menerapkan prompt yang sama pada aplikasi web besar sekitar 200 ribu LoC di Sonnet 4.5 (Claude Code) dan GPT-5-Codex
Kebutuhannya adalah: “di ‘Go to Conversation’ atau ‘Go to Report’, jika judul yang dimasukkan tidak cocok dengan elemen standar, lakukan fuzzy search setelah 2 detik”
Sonnet 4.5 menghasilkan hasil dalam sekitar 3 menit, tetapi kodenya berantakan, tidak bisa memanfaatkan ulang auth yang sudah ada, dan malah mencoba membuat autentikasi server-side baru
Bahkan setelah masalahnya ditunjukkan dan prompt diulang, tidak ada banyak perbaikan, dan kode test yang merupakan syarat penting juga tidak ditulis
Sebaliknya, GPT-5-Codex memang butuh sekitar 20 menit, tetapi menangani error handling dan berbagai edge case dengan sangat teliti, dan bahkan menulis kode test tanpa diminta secara khusus
API juga berjalan mulus, dan dari sisi kelengkapan implementasi keseluruhan, kualitasnya setara developer senior
Saya tidak menginginkan implementasi yang “cepat tapi kotor” dalam 3 menit, jadi saya pasti memilih 20 menit
Saya memang terkejut Sonnet memberi hasil cepat seperti yang diharapkan, tetapi implementasi tanpa kualitas yang layak dan tanpa test tidak ada artinya
- Saya khawatir ini terdengar seperti kritik, tetapi menurut saya kalau memulai dengan prompt kalimat sederhana seperti itu, hasilnya memang cenderung agak acak
  Yang penting adalah menyusun pengelompokan logis dan syarat detail dengan lebih jelas, tetapi contoh prompt itu sendiri hampir seperti run-on sentence
  Untuk pekerjaan yang kompleks atau penting, menurut saya prompt harus cukup spesifik sampai 5~20 kali lebih panjang
  Kalau input-nya structured dan codebase-nya punya pola yang rapi, AI juga akan memberi hasil yang jauh lebih baik
  Kalau di dunia nyata kita hanya memberi developer junior atau tim satu kalimat permintaan singkat tanpa penjelasan detail, wajar kalau hasilnya tidak sesuai harapan
  Saya menyarankan agar meluangkan beberapa menit tambahan untuk menyiapkan prompt awal supaya peluang mendapat hasil memuaskan lebih tinggi
- Saya penasaran apakah Anda memakai paket berbayar ChatGPT Pro, dan apakah Codex CLI juga termasuk di dalamnya
  Saya memakai Sonnet/Opus karena paket Max untuk Claude Code, tetapi kalau ChatGPT Pro juga bisa memakai Codex, saya berniat pindah
- Pengalaman saya juga sama
  Minggu lalu saya berhasil mengembangkan parser XPath 1.0 C++20 yang lengkap dengan Codex, dan sekarang sedang melanjutkan dukungan XPath 2.0
  Codex terus memberikan hasil yang luar biasa, dan selain harus memakai versi cloud karena versi lokal sulit dipakai akibat bug, tidak ada masalah berarti
  Sonnet terus tersendat pada tugas dengan kompleksitas tinggi, dan pada 4.5 pun saya tidak merasakan peningkatan berarti
  Secara spesifik, untuk penanganan date-time Claude nyaris menyerah, sementara Codex menanganinya dengan sempurna
  Sebenarnya saya cukup bersimpati pada Anthropic, tetapi sejauh ini menurut saya OpenAI jauh lebih unggul
  Kalau Claude ingin bersaing dengan Codex, harus ada terobosan penting, apalagi harganya juga mahal dan masalah kualitas layanan membuat banyak pengguna pergi
- Ini sesuai dengan ekspektasi saya
  Codex lebih dekat ke tool vibe coding, sedangkan Claude Code lebih fokus ke ai assisted development
  Saya justru lebih menyukai Claude
  Codex memang bisa berjalan mandiri dengan baik, tetapi saat arahnya perlu diubah, misalnya edit file yang sangat sederhana pun malah diproses dengan skrip Python, ia cenderung keras kepala secara halus, dan kurang mencerminkan informasi terbaru
  Saat diminta penjelasan pun ia cenderung hanya ingin mengeksekusi tanpa konteks
  Masalah pengelolaan izin juga masih ada. Sandbox Codex memang keren, tetapi saya khawatir ia bisa melakukan commit tanpa sengaja, jadi saya lebih ingin ia berhenti di tahap editing saja
  Codex juga bisa dipakai sebagai server MCP, tetapi secara pribadi saya lebih suka menjadikan Claude sebagai perencana kolaboratif, membuat rencana dengan Codex, lalu bekerja bersama sambil menyesuaikannya dengan gaya saya dan Claude
- Saya juga merekomendasikan menambahkan ultrathink ke prompt dan bereksperimen sambil memutar musik
  Referensi: tautan Reddit tentang ultrathink
Melihat kemampuan model-model terbaru belakangan ini membuat saya murung
Rasanya berbagai kiat halus untuk menulis kode bersih yang saya bangun selama bertahun-tahun berubah menjadi detail tak berarti
Hal-hal yang dulu saya anggap esensial kini menjadi sekadar “detail implementasi” dalam prompt
Rasanya kemampuan saya perlahan digantikan oleh otomatisasi
- Detail-detail seperti itu sejak awal pun kepentingannya agak ambigu; skill yang sesungguhnya pada akhirnya adalah keseluruhan proses menghasilkan uang dengan software
  Karena AI, justru akan ada lebih banyak software yang dibuat, dan pengelolaan oleh ahli akan semakin dibutuhkan
- Saya juga, setelah fokus bekerja beberapa bulan di bidang profesional AI, merasakan krisis yang sama selama lebih dari 4 minggu pertama
  Khususnya karena terasa seperti kemampuan development yang saya bangun selama 25 tahun menjadi tak berarti, saya sempat bingung
  Kalau Anda sedikit lebih menerima dan beradaptasi, semuanya akan terasa jauh lebih baik
  Saya benar-benar ingin Anda ingat bahwa Anda lebih dari sekadar kemampuan coding Anda
- Dulu mungkin Anda senang dengan kenyataan bahwa orang lain bisa digantikan oleh otomatisasi, tetapi sekarang giliran Anda sendiri
  Inilah fenomena ‘creative destruction’ yang membuat ekonomi menjadi dinamis
- Dulu saya juga berpikir begitu, tetapi setelah benar-benar memakainya belakangan ini, saya sampai pada kesimpulan bahwa ini sama sekali tidak praktis
  Terutama jika orang tanpa pengalaman bergantung pada vibe coding, hasilnya hanya akan jadi sesuatu yang tak bermakna, dan pada tugas yang sedikit lebih kompleks pun error/kesalahan fatal sering muncul
  Otomatisasi frontend juga tidak memuaskan, misalnya bahkan untuk tugas yang sangat sederhana ia menghasilkan kode yang jauh lebih panjang daripada yang diperlukan
  Pada akhirnya, pengalaman saya adalah ini hanya mampu sampai frontend react/nextjs dasar dan clone situs populer, sedangkan kebutuhan yang unik atau desain yang presisi masih sulit
- Pada praktiknya, tool vibe coding tidak banyak meningkatkan produktivitas
  Kalau dirangkum, pemeliharaan sistem (kode/infrastruktur dan sebagainya) tetap harus ditanggung manusia, dan proses manusia memahami struktur serta prinsip kerja sistem sama sekali tidak bisa diotomatisasi
  Pada akhirnya, developer dengan cara berpikir yang benar-benar ahli akan menjadi entitas langka dan justru semakin penting
Saya meminta Sonnet 4 dan Opus 4.1 melakukan pekerjaan penggantian kode sederhana, dan keduanya gagal
Itu adalah transformasi yang bahkan pemula pun bisa lakukan, tetapi saya khawatir model-model sekarang terlalu mengejar skor benchmark sampai justru kehilangan performa penggunaan nyata
Setelah saya memberi prompt lanjutan, “ikuti persis permintaan saya”, Sonnet berhasil, sementara Opus masuk loop tak berujung
- Kekhawatiran bahwa obsesi benchmark bisa merusak performa nyata sudah lama ada
  Bagi saya, saat Claude naik dari 3.7 ke 4, performa yang saya rasakan justru menurun, sementara benchmark melonjak besar
  Saya paham itu berarti benchmarking sendiri adalah pekerjaan rumah yang tertinggal dibanding perkembangan AI
- Menurut saya praktis terus berulang siklus seperti ‘jalankan benchmark untuk mencatat skor tertinggi → di dunia nyata performa menurun → beberapa minggu kemudian rilis model yang lebih baik’
- Karena model-model merujuk ke sumber data yang sama saja, seperti internet, github, buku, dan mengoptimalkan diri untuk test yang terstandarisasi, saya tidak tahu selain skor masih ada diferensiasi atau nilai unik apa yang tersisa
- Sekarang saya berpikir akan bagus kalau contoh-contoh kasus ketika LLM salah ditangani dikumpulkan dalam database komunitas; saya pun punya banyak contoh seperti itu
- Untuk hal seperti permintaan memperbaiki error lint sederhana, menurut saya lebih baik langsung ditangani sendiri lalu lanjut
  Daripada berusaha memberi makna pada satu pekerjaan sederhana seperti ini, lebih baik mencari nilai guna AI saat ia memberikan hasil luar biasa pada masalah yang jauh lebih kompleks
Di grafik, Sonnet 4 tampaknya sudah berada di atas GPT-5-codex pada benchmark SWE verified, tetapi dalam pengalaman nyata saya, untuk masalah kompleks GPT-5-codex jauh lebih unggul
- GPT-5 terasa seperti rekan tim baseball yang jago memukul home run tetapi lemah pada dasar-dasar bermain di outfield
  Saat berkolaborasi dengan agent lain pun ia kadang membuat drama, dan baru-baru ini ketika saya bilang akan beralih ke claude code, ia malah bersikeras menjalankan git reset --hard, jadi perilakunya sulit diprediksi
  Sebaliknya gemini dan claude adalah kolaborator yang hebat
  Saya rasa rangkaian hal seperti ini bukan sesuatu yang memang disengaja pada GPT-5, melainkan hasil moral internal OpenAI yang banyak menurun
- Dalam kasus saya, 5-codex menghabiskan token terlalu cepat, dan instruksi agents.md juga kurang dipatuhi dibanding Claude
  Terutama untuk perintah sepele pun ia mencoba menulis skrip bash atau python yang berlebihan
- Pengalaman saya justru kebalikannya; GPT-5-codex sangat lambat dan hasilnya juga biasa saja
  Kalau harus dipaksa memakainya, saya lebih memilih menyerah memakai AI sama sekali
- Saya tidak menganggap performa model punya satu tolok ukur yang absolut
  Misalnya meski menunjuk Claude-Opus, kadang jawabannya malah lebih buruk daripada model supermurah
  Variabilitas performanya besar, mungkin karena sumber daya server berubah tergantung kondisi traffic
  Anthropic juga pernah secara resmi menyebut penurunan performa akibat dampak eksperimen
  Saya juga merasa GPT bisa mengalami penurunan performa pada jam sibuk karena masalah kapasitas data center
- Model-model Anthropic tampaknya dituning untuk vibe-coding
  Untuk Python/TypeScript sederhana memang cocok, tetapi lemah pada kode ilmiah/kompleks dan codebase skala besar
  Saya juga tidak berharap banyak perubahan besar dari Sonnet terbaru
Saya sangat tertarik dengan slogan promosi “menyelesaikan tugas kompleks multilangkah tanpa kehilangan fokus selama lebih dari 30 jam”
Menurut artikel The Verge dan lainnya, model ini benar-benar membuat Slack clone selama 30 jam nonstop dengan memanfaatkan 11.000 baris kode
Saya skeptis seberapa bagus kualitas hasil jika LLM benar-benar dijalankan tanpa pengawasan selama 30 jam
Artikel terkait
- Menjalankannya terus selama 30 jam bukan sesuatu yang bisa diwujudkan hanya dengan membiarkan LLM sendirian
  Integrasi tool eksternal, pengelolaan konteks, dan penyiapan lingkungan adalah keharusan, bahkan perlu mengatur sistem multi-agent
  Diperlukan sangat banyak upaya infrastruktur/setting agar pekerjaan seperti itu bisa dilakukan
- Frasa “bekerja tanpa pengawasan selama 30 jam” sendiri terlalu kabur dan kurang konkret
  Misalnya kalau memproses 1 token per jam, bisa saja itu baru sampai tahap membuat satu baris kalimat saja
- Saya penasaran apakah tool pengelolaan konteks model benar-benar dipakai, dan secara teknis bagaimana prompt 200 ribu sampai 1 juta token itu dioperasikan
Saya baru saja bereksperimen pada isu sederhana, dan seperti model-model sebelumnya, Sonnet 4.5 juga terjatuh ke lubang kelinci dengan mencoba menyelesaikan masalah secara berlebihan dan terlalu rumit
Sebagian besar dengan trial & error, hanya terus mengulang umpan balik seperti “sekarang sepertinya masalahnya sudah teratasi”
Misalnya ada error di pipeline GH Actions karena build system tidak terdeteksi akibat file sumber tidak ada, dan Sonnet 4.5 berulang kali menawarkan solusi yang menyimpang seperti membuat file JSON dummy dan mengatur parameter workflow yang sebenarnya tidak ada
Padahal masalahnya selesai hanya dengan meng-override step agar cukup mencetak “Hello world”
Saya penasaran kenapa AI begitu lemah dalam pola pikir sederhana yang ‘di luar kotak’ seperti ini
Rasanya seperti jenius IQ 170 yang bahkan tidak bisa naik transportasi umum
Saya berlangganan Gemini, Claude, dan OpenAI semuanya, dan belakangan saya menyimpulkan bahwa ChatGPT sedang unggul jauh
Jawabannya lebih ringkas, lebih informatif, dan bahkan setelah saya uji, Claude 4.5 pun tidak terasa banyak peningkatan
- Saya juga berlangganan ketiganya
  Untuk analisis situasi yang kompleks, ChatGPT yang terbaik, tetapi untuk penulisan kode justru Claude lebih baik
  Saya mendesain dan menyelesaikan masalah dengan ChatGPT, lalu menyerahkan jawabannya ke Claude atau Gemini untuk implementasi
  Gemini berada di atas rata-rata untuk keduanya
- Secara keseluruhan ChatGPT memang sedikit lebih baik, tetapi Gemini juga bisa menjadi yang terbaik dalam konteks penggunaan nyata lewat AI Studio, optimasi setting, penyesuaian system prompt, dan sebagainya
  Sebagai contoh, nano banana memang SOTA, tetapi saya merasa Qwen-Edit kurang disensor sehingga lebih berguna di pemakaian nyata
  Di layanan ecommerce lokalisasi yang saya jalankan, nano banana tidak bisa dipakai karena membatasi output gambar perempuan, sedangkan Qwen-Edit bisa digunakan tanpa masalah berarti
- Saya juga berlangganan dua akun, Claude Max dan ChatGPT Codex
  Dulu saya penggemar Claude, tetapi belakangan hampir selalu memakai codex
  Kalau buntu, saya hanya menyerahkan tugas sederhana ke Claude atau menguji keduanya secara bersamaan, tetapi Claude Code dengan Sonnet/Opus jelas keluar lebih lemah daripada Codex
- Mungkin Anda bisa memperjelas apakah yang Anda maksud memang codex
- Saya penasaran bagaimana dengan Grok, apakah sudah mulai mendekat
Saya masih belum sempat mencoba Claude, tetapi saya memakai AI untuk berbagai pekerjaan seperti mengoreksi tulisan politik
Pada topik sensitif tertentu, misalnya kasus pemerkosaan anak 12 tahun di Austria, saya mengalami ChatGPT berhenti total karena guardrail
Terlepas dari konteks nyata, mendeteksi kata ‘sex + kid’ lalu memblokir tanpa syarat benar-benar tidak masuk akal bagi saya
Rasanya seperti word processor yang menyensor topik dan sampai mencegah penulisan itu sendiri, sehingga gagal menjalankan perannya sebagai alat
- Dalam praktiknya, pada topik seperti ini rasio antara percakapan yang sah dan konten yang tak bisa diterima terlalu tinggi, sehingga dari sudut pandang sebagian besar penyedia layanan, pemblokiran adalah pilihan yang masuk akal
  Sebagai contoh, saya pernah mengalami kasus merepotkan saat mengembangkan aplikasi pengelolaan silsilah hewan kerabat, di mana hanya karena ada istilah breeding/breeders pun langsung diblokir
- Menurut saya, "layanan" bukanlah alat
  Kalau yang Anda butuhkan adalah alat sungguhan, jawabannya adalah menjalankan LLM sendiri secara lokal
- Saya rasa pada akhirnya AI dengan guardrail paling sedikit yang akan menguasai pasar
  Di antara frontier model saat ini, Grok yang paling sedikit pembatasannya, tetapi tetap masih ada ruang perbaikan
- Mirip dengan itu, saat saya mencoba membuat gambar kupon ulang tahun untuk putri saya dengan ChatGPT/DallE, tiga perempat waktu total justru habis untuk mengakali berbagai kebijakan konten
- Dari pengalaman sederhana saya juga, Claude jauh lebih cepat dan lebih keras memblokir percakapan pada topik yang ‘kontroversial’
Saya melakukan pengujian cepat bersama System Initiative
Error infrastruktur 503 yang secara manual butuh lebih dari 2 jam, ketika digabungkan bisa diselesaikan hanya dalam 15 menit
Kasus penggunaan lainnya saya rangkum di blog
System Initiative resmi
Blog ulasan penggunaan