4 poin oleh GN⁺ 2025-09-30 | 1 komentar | Bagikan ke WhatsApp
  • Claude Sonnet 4.5 adalah model AI terbaru yang menunjukkan performa tingkat tertinggi dalam coding, penalaran, dan kemampuan matematika
  • Claude Code yang diperbarui menambahkan checkpoint, UI terminal yang ditingkatkan, ekstensi VS Code, dan fitur manajemen memori sehingga dapat mempertahankan pekerjaan kompleks dalam waktu lama
  • Claude Agent SDK yang baru dirilis menyediakan infrastruktur inti untuk pengembangan agen, sehingga memungkinkan pembuatan langsung berbagai alat pemecahan masalah
  • Pada benchmark seperti SWE-bench dan OSWorld, model ini jauh melampaui model pesaing serta membuktikan keunggulannya dalam komputasi matematis, penalaran, dan kesesuaian domain
  • Dari sisi keamanan, model ini juga dinilai sebagai model dengan alignment terbaik, dengan peningkatan pada pertahanan terhadap prompt injection dan pemblokiran konten berisiko

Ikhtisar Claude Sonnet 4.5

  • Claude Sonnet 4.5 adalah model coding terbaik yang ada saat ini, dan menunjukkan performa paling kuat untuk membangun agen kompleks serta penggunaan komputer
    • Di semua lingkungan kerja modern yang kita gunakan, seperti software, spreadsheet, dan berbagai alat lainnya, kode adalah elemen inti
  • Kemampuan penalaran dan pemecahan masalah matematis juga meningkat secara signifikan dibanding model sebelumnya, sehingga makin berguna di berbagai bidang profesional
  • Tersedia dengan harga yang sama seperti Sonnet 4 sebelumnya ($3 / $15 per satu juta token)

Pembaruan produk utama

  • Claude Code
    • Mendukung penyimpanan di tengah pekerjaan dan rollback melalui fitur checkpoint
    • Antarmuka terminal ditingkatkan, dan ekstensi native VS Code dirilis
    • Menambahkan context editing dan alat memori untuk mendukung penanganan pekerjaan jangka panjang dan kompleks
  • Claude Apps
    • Mendukung eksekusi kode dan pembuatan file (spreadsheet, slide, dokumen) langsung di dalam percakapan
  • Claude for Chrome
    • Menyediakan ekstensi untuk pengguna Max, dengan dukungan otomasi pekerjaan di dalam browser

Claude Agent SDK

  • Membuka infrastruktur agen yang digunakan Anthropic secara internal saat membangun Claude Code kepada developer eksternal
  • Menyediakan fondasi yang memecahkan tantangan sulit seperti manajemen memori jangka panjang, kontrol izin, dan orkestrasi banyak subagen
  • Dapat digunakan untuk membuat berbagai agen, tidak terbatas pada coding

Performa dan benchmark

  • Mencatat performa tertinggi di SWE-bench Verified, dan mampu mempertahankan pekerjaan coding multilangkah jangka panjang selama lebih dari 30 jam
  • Mencapai 61.4% pada benchmark OSWorld (Sonnet 4 sebelumnya mencatat 42.2%)
  • Kemampuan pada evaluasi penalaran, matematika, dan multibahasa (MMMLU) juga meningkat drastis, dan keunggulannya terbukti dalam penilaian para ahli di bidang keuangan, hukum, medis, dan STEM
  • Umpan balik pelanggan memverifikasi penerapan praktis di production untuk pekerjaan jangka panjang, pemahaman codebase kompleks, serta implementasi kode yang cepat dan akurat

Contoh pelanggan

  • Cursor: mengonfirmasi performa terbaik dalam pemecahan masalah kompleks
  • GitHub Copilot: peningkatan pada penalaran multilangkah dan pemahaman kode
  • Bidang keamanan: waktu respons terhadap kerentanan berkurang 44%, akurasi meningkat 25%
  • Canva, Figma: peningkatan produktivitas yang inovatif dalam pekerjaan codebase skala besar dan prototyping
  • Devin: performa perencanaan meningkat 18%, kemampuan pengujian dan eksekusi kode diperkuat

Keamanan dan alignment

  • Sonnet 4.5 memiliki tingkat alignment tertinggi di antara model yang pernah diumumkan Anthropic
  • Pembelajaran penguatan untuk keamanan dilakukan guna mengurangi perilaku yang tidak diinginkan seperti sycophancy, penipuan, pencarian kekuasaan, dan dorongan terhadap delusi
  • Kemajuan signifikan dicapai dalam pertahanan terhadap serangan prompt injection, dan teknik interpretasi mekanistik juga diterapkan dalam evaluasi keamanan
  • Memenuhi standar keamanan tinggi melalui perhitungan skor otomatis atas potensi penyalahgunaan menggunakan sistem audit tindakan otomatis
  • Dirilis di bawah perlindungan AI Safety Level 3 (ASL-3), dengan filter terhadap input dan output berbahaya (misalnya risiko terkait kimia, biologi, radiasi, dan nuklir)

Pratinjau riset

  • Bersama Claude Sonnet 4.5, tersedia pratinjau riset sementara bernama "Imagine with Claude"
  • Mendemonstrasikan pembuatan software secara spontan dengan merespons dan beradaptasi secara real-time terhadap permintaan pengguna, tanpa kode atau fitur yang sudah dijadwalkan sebelumnya
  • Dapat dicoba selama 5 hari oleh pelanggan Max

Informasi tambahan dan migrasi

Kesimpulan dan rekomendasi

  • Claude Sonnet 4.5 adalah model pengganti drop-in dengan performa yang ditingkatkan untuk semua lingkungan penggunaan seperti API, aplikasi, dan Claude Code
  • Memiliki performa, penerapan praktis, dan konsistensi kelas dunia dalam coding, pembangunan agen, dan penggunaan komputer
  • Dengan kebijakan keamanan yang unggul dan dukungan alat developer yang luas, model ini akan mempercepat produktivitas dan inovasi developer serta organisasi TI
  • Karena menawarkan kemampuan yang lebih kuat dengan harga yang sama, upgrade sangat direkomendasikan

1 komentar

 
GN⁺ 2025-09-30
Opini Hacker News
  • Akhir pekan ini saya sempat mendapat akses ke versi pratinjau, dan saya merangkum catatan terkait di sini
    Secara pribadi saya sangat terkesan, dan walau ini bukan perbandingan menyeluruh, kesan saya performanya sedikit lebih baik daripada GPT-5-Codex
    Menurut saya ini terutama menonjol di mode code interpreter Python/Node.js baru milik claude.ai
    Saya merekomendasikan untuk mencoba prompt seperti di bawah ini
Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

Bahkan refactoring database yang kompleks pun ditanganinya dengan baik secara bertahap, detailnya saya catat di blog

  • Ada satu hal yang ingin saya minta kepada @simonw dan siapa pun yang tertarik pada benchmark LLM
    Saya sangat berharap waktu yang dibutuhkan sampai tugas selesai juga diungkapkan
    Tulisan ini adalah testimoni bahwa ini “langsung bekerja di claude.ai”, tetapi tidak ada informasi timestamp kapan hasilnya keluar
    Di leaderboard coding LLM yang ada saat ini juga sama sekali tidak ada informasi waktu eksekusi, dan itu sangat disayangkan
    Antarmodel dan antarplatform punya perbedaan waktu pengerjaan yang besar, dan saat melakukan eksperimen berulang/reboot maupun penyempurnaan prompt, kecepatan inferensi, konsumsi token, efisiensi tooling, biaya, dan kecerdasan model semuanya saling berpengaruh
    Khususnya model seperti Grok Code Fast dan Cerebras Code, meski bukan yang terbaik secara murni, memungkinkan lebih banyak pekerjaan selesai berkat kecepatan inferensi lebih dari 10 kali lipat, jadi model cepat benar-benar menguntungkan
    Benchmark yang layak dijadikan rujukan: swebench, leaderboard tbench, gosuevals agents

  • Saya sudah mencoba, tetapi di lingkungan saya ini tidak berjalan
    Katanya ini adalah perintah untuk menyiapkan tool CLI LLM; opsi -e menginstal dalam mode editable, dan [test] memasang dependensi pengujian
    Di tool yang saya miliki, perintah shell (pip, pytest) atau git clone, eksekusi Python, dan semacamnya tidak didukung
    Hanya bisa menjalankan JavaScript di lingkungan browser, dan tidak bisa mengeksekusi perintah level shell
    Saya penasaran apa yang Anda harapkan, apakah perlu memahami setup testing, atau Anda menginginkan fungsinya sendiri

  • Bagi yang penasaran dengan contoh penggunaan prompt “tolong buat jadi file zip”
    Mungkin banyak yang tidak sempat membuka gist itu langsung, jadi saya ingin tahu apakah itu benar-benar bekerja dan jika ada kesan tambahan tentang hasilnya

  • Saya penasaran apakah Claude Sonnet 4.5 juga masih menjawab semua pertanyaan dengan gaya “Anda benar sekali!”, atau sekarang sudah berbicara seperti programmer sungguhan

  • Saya penasaran kenapa bisa mendapat hak akses pratinjau lebih awal

  • Saya membagikan pengalaman langsung
    Saya mencoba menerapkan prompt yang sama pada aplikasi web besar sekitar 200 ribu LoC di Sonnet 4.5 (Claude Code) dan GPT-5-Codex
    Kebutuhannya adalah: “di ‘Go to Conversation’ atau ‘Go to Report’, jika judul yang dimasukkan tidak cocok dengan elemen standar, lakukan fuzzy search setelah 2 detik”
    Sonnet 4.5 menghasilkan hasil dalam sekitar 3 menit, tetapi kodenya berantakan, tidak bisa memanfaatkan ulang auth yang sudah ada, dan malah mencoba membuat autentikasi server-side baru
    Bahkan setelah masalahnya ditunjukkan dan prompt diulang, tidak ada banyak perbaikan, dan kode test yang merupakan syarat penting juga tidak ditulis
    Sebaliknya, GPT-5-Codex memang butuh sekitar 20 menit, tetapi menangani error handling dan berbagai edge case dengan sangat teliti, dan bahkan menulis kode test tanpa diminta secara khusus
    API juga berjalan mulus, dan dari sisi kelengkapan implementasi keseluruhan, kualitasnya setara developer senior
    Saya tidak menginginkan implementasi yang “cepat tapi kotor” dalam 3 menit, jadi saya pasti memilih 20 menit
    Saya memang terkejut Sonnet memberi hasil cepat seperti yang diharapkan, tetapi implementasi tanpa kualitas yang layak dan tanpa test tidak ada artinya

    • Saya khawatir ini terdengar seperti kritik, tetapi menurut saya kalau memulai dengan prompt kalimat sederhana seperti itu, hasilnya memang cenderung agak acak
      Yang penting adalah menyusun pengelompokan logis dan syarat detail dengan lebih jelas, tetapi contoh prompt itu sendiri hampir seperti run-on sentence
      Untuk pekerjaan yang kompleks atau penting, menurut saya prompt harus cukup spesifik sampai 5~20 kali lebih panjang
      Kalau input-nya structured dan codebase-nya punya pola yang rapi, AI juga akan memberi hasil yang jauh lebih baik
      Kalau di dunia nyata kita hanya memberi developer junior atau tim satu kalimat permintaan singkat tanpa penjelasan detail, wajar kalau hasilnya tidak sesuai harapan
      Saya menyarankan agar meluangkan beberapa menit tambahan untuk menyiapkan prompt awal supaya peluang mendapat hasil memuaskan lebih tinggi

    • Saya penasaran apakah Anda memakai paket berbayar ChatGPT Pro, dan apakah Codex CLI juga termasuk di dalamnya
      Saya memakai Sonnet/Opus karena paket Max untuk Claude Code, tetapi kalau ChatGPT Pro juga bisa memakai Codex, saya berniat pindah

    • Pengalaman saya juga sama
      Minggu lalu saya berhasil mengembangkan parser XPath 1.0 C++20 yang lengkap dengan Codex, dan sekarang sedang melanjutkan dukungan XPath 2.0
      Codex terus memberikan hasil yang luar biasa, dan selain harus memakai versi cloud karena versi lokal sulit dipakai akibat bug, tidak ada masalah berarti
      Sonnet terus tersendat pada tugas dengan kompleksitas tinggi, dan pada 4.5 pun saya tidak merasakan peningkatan berarti
      Secara spesifik, untuk penanganan date-time Claude nyaris menyerah, sementara Codex menanganinya dengan sempurna
      Sebenarnya saya cukup bersimpati pada Anthropic, tetapi sejauh ini menurut saya OpenAI jauh lebih unggul
      Kalau Claude ingin bersaing dengan Codex, harus ada terobosan penting, apalagi harganya juga mahal dan masalah kualitas layanan membuat banyak pengguna pergi

    • Ini sesuai dengan ekspektasi saya
      Codex lebih dekat ke tool vibe coding, sedangkan Claude Code lebih fokus ke ai assisted development
      Saya justru lebih menyukai Claude
      Codex memang bisa berjalan mandiri dengan baik, tetapi saat arahnya perlu diubah, misalnya edit file yang sangat sederhana pun malah diproses dengan skrip Python, ia cenderung keras kepala secara halus, dan kurang mencerminkan informasi terbaru
      Saat diminta penjelasan pun ia cenderung hanya ingin mengeksekusi tanpa konteks
      Masalah pengelolaan izin juga masih ada. Sandbox Codex memang keren, tetapi saya khawatir ia bisa melakukan commit tanpa sengaja, jadi saya lebih ingin ia berhenti di tahap editing saja
      Codex juga bisa dipakai sebagai server MCP, tetapi secara pribadi saya lebih suka menjadikan Claude sebagai perencana kolaboratif, membuat rencana dengan Codex, lalu bekerja bersama sambil menyesuaikannya dengan gaya saya dan Claude

    • Saya juga merekomendasikan menambahkan ultrathink ke prompt dan bereksperimen sambil memutar musik
      Referensi: tautan Reddit tentang ultrathink

  • Melihat kemampuan model-model terbaru belakangan ini membuat saya murung
    Rasanya berbagai kiat halus untuk menulis kode bersih yang saya bangun selama bertahun-tahun berubah menjadi detail tak berarti
    Hal-hal yang dulu saya anggap esensial kini menjadi sekadar “detail implementasi” dalam prompt
    Rasanya kemampuan saya perlahan digantikan oleh otomatisasi

    • Detail-detail seperti itu sejak awal pun kepentingannya agak ambigu; skill yang sesungguhnya pada akhirnya adalah keseluruhan proses menghasilkan uang dengan software
      Karena AI, justru akan ada lebih banyak software yang dibuat, dan pengelolaan oleh ahli akan semakin dibutuhkan

    • Saya juga, setelah fokus bekerja beberapa bulan di bidang profesional AI, merasakan krisis yang sama selama lebih dari 4 minggu pertama
      Khususnya karena terasa seperti kemampuan development yang saya bangun selama 25 tahun menjadi tak berarti, saya sempat bingung
      Kalau Anda sedikit lebih menerima dan beradaptasi, semuanya akan terasa jauh lebih baik
      Saya benar-benar ingin Anda ingat bahwa Anda lebih dari sekadar kemampuan coding Anda

    • Dulu mungkin Anda senang dengan kenyataan bahwa orang lain bisa digantikan oleh otomatisasi, tetapi sekarang giliran Anda sendiri
      Inilah fenomena ‘creative destruction’ yang membuat ekonomi menjadi dinamis

    • Dulu saya juga berpikir begitu, tetapi setelah benar-benar memakainya belakangan ini, saya sampai pada kesimpulan bahwa ini sama sekali tidak praktis
      Terutama jika orang tanpa pengalaman bergantung pada vibe coding, hasilnya hanya akan jadi sesuatu yang tak bermakna, dan pada tugas yang sedikit lebih kompleks pun error/kesalahan fatal sering muncul
      Otomatisasi frontend juga tidak memuaskan, misalnya bahkan untuk tugas yang sangat sederhana ia menghasilkan kode yang jauh lebih panjang daripada yang diperlukan
      Pada akhirnya, pengalaman saya adalah ini hanya mampu sampai frontend react/nextjs dasar dan clone situs populer, sedangkan kebutuhan yang unik atau desain yang presisi masih sulit

    • Pada praktiknya, tool vibe coding tidak banyak meningkatkan produktivitas
      Kalau dirangkum, pemeliharaan sistem (kode/infrastruktur dan sebagainya) tetap harus ditanggung manusia, dan proses manusia memahami struktur serta prinsip kerja sistem sama sekali tidak bisa diotomatisasi
      Pada akhirnya, developer dengan cara berpikir yang benar-benar ahli akan menjadi entitas langka dan justru semakin penting

  • Saya meminta Sonnet 4 dan Opus 4.1 melakukan pekerjaan penggantian kode sederhana, dan keduanya gagal
    Itu adalah transformasi yang bahkan pemula pun bisa lakukan, tetapi saya khawatir model-model sekarang terlalu mengejar skor benchmark sampai justru kehilangan performa penggunaan nyata
    Setelah saya memberi prompt lanjutan, “ikuti persis permintaan saya”, Sonnet berhasil, sementara Opus masuk loop tak berujung

    • Kekhawatiran bahwa obsesi benchmark bisa merusak performa nyata sudah lama ada
      Bagi saya, saat Claude naik dari 3.7 ke 4, performa yang saya rasakan justru menurun, sementara benchmark melonjak besar
      Saya paham itu berarti benchmarking sendiri adalah pekerjaan rumah yang tertinggal dibanding perkembangan AI

    • Menurut saya praktis terus berulang siklus seperti ‘jalankan benchmark untuk mencatat skor tertinggi → di dunia nyata performa menurun → beberapa minggu kemudian rilis model yang lebih baik’

    • Karena model-model merujuk ke sumber data yang sama saja, seperti internet, github, buku, dan mengoptimalkan diri untuk test yang terstandarisasi, saya tidak tahu selain skor masih ada diferensiasi atau nilai unik apa yang tersisa

    • Sekarang saya berpikir akan bagus kalau contoh-contoh kasus ketika LLM salah ditangani dikumpulkan dalam database komunitas; saya pun punya banyak contoh seperti itu

    • Untuk hal seperti permintaan memperbaiki error lint sederhana, menurut saya lebih baik langsung ditangani sendiri lalu lanjut
      Daripada berusaha memberi makna pada satu pekerjaan sederhana seperti ini, lebih baik mencari nilai guna AI saat ia memberikan hasil luar biasa pada masalah yang jauh lebih kompleks

  • Di grafik, Sonnet 4 tampaknya sudah berada di atas GPT-5-codex pada benchmark SWE verified, tetapi dalam pengalaman nyata saya, untuk masalah kompleks GPT-5-codex jauh lebih unggul

    • GPT-5 terasa seperti rekan tim baseball yang jago memukul home run tetapi lemah pada dasar-dasar bermain di outfield
      Saat berkolaborasi dengan agent lain pun ia kadang membuat drama, dan baru-baru ini ketika saya bilang akan beralih ke claude code, ia malah bersikeras menjalankan git reset --hard, jadi perilakunya sulit diprediksi
      Sebaliknya gemini dan claude adalah kolaborator yang hebat
      Saya rasa rangkaian hal seperti ini bukan sesuatu yang memang disengaja pada GPT-5, melainkan hasil moral internal OpenAI yang banyak menurun

    • Dalam kasus saya, 5-codex menghabiskan token terlalu cepat, dan instruksi agents.md juga kurang dipatuhi dibanding Claude
      Terutama untuk perintah sepele pun ia mencoba menulis skrip bash atau python yang berlebihan

    • Pengalaman saya justru kebalikannya; GPT-5-codex sangat lambat dan hasilnya juga biasa saja
      Kalau harus dipaksa memakainya, saya lebih memilih menyerah memakai AI sama sekali

    • Saya tidak menganggap performa model punya satu tolok ukur yang absolut
      Misalnya meski menunjuk Claude-Opus, kadang jawabannya malah lebih buruk daripada model supermurah
      Variabilitas performanya besar, mungkin karena sumber daya server berubah tergantung kondisi traffic
      Anthropic juga pernah secara resmi menyebut penurunan performa akibat dampak eksperimen
      Saya juga merasa GPT bisa mengalami penurunan performa pada jam sibuk karena masalah kapasitas data center

    • Model-model Anthropic tampaknya dituning untuk vibe-coding
      Untuk Python/TypeScript sederhana memang cocok, tetapi lemah pada kode ilmiah/kompleks dan codebase skala besar
      Saya juga tidak berharap banyak perubahan besar dari Sonnet terbaru

  • Saya sangat tertarik dengan slogan promosi “menyelesaikan tugas kompleks multilangkah tanpa kehilangan fokus selama lebih dari 30 jam”
    Menurut artikel The Verge dan lainnya, model ini benar-benar membuat Slack clone selama 30 jam nonstop dengan memanfaatkan 11.000 baris kode
    Saya skeptis seberapa bagus kualitas hasil jika LLM benar-benar dijalankan tanpa pengawasan selama 30 jam
    Artikel terkait

    • Menjalankannya terus selama 30 jam bukan sesuatu yang bisa diwujudkan hanya dengan membiarkan LLM sendirian
      Integrasi tool eksternal, pengelolaan konteks, dan penyiapan lingkungan adalah keharusan, bahkan perlu mengatur sistem multi-agent
      Diperlukan sangat banyak upaya infrastruktur/setting agar pekerjaan seperti itu bisa dilakukan

    • Frasa “bekerja tanpa pengawasan selama 30 jam” sendiri terlalu kabur dan kurang konkret
      Misalnya kalau memproses 1 token per jam, bisa saja itu baru sampai tahap membuat satu baris kalimat saja

    • Saya penasaran apakah tool pengelolaan konteks model benar-benar dipakai, dan secara teknis bagaimana prompt 200 ribu sampai 1 juta token itu dioperasikan

  • Saya baru saja bereksperimen pada isu sederhana, dan seperti model-model sebelumnya, Sonnet 4.5 juga terjatuh ke lubang kelinci dengan mencoba menyelesaikan masalah secara berlebihan dan terlalu rumit
    Sebagian besar dengan trial & error, hanya terus mengulang umpan balik seperti “sekarang sepertinya masalahnya sudah teratasi”
    Misalnya ada error di pipeline GH Actions karena build system tidak terdeteksi akibat file sumber tidak ada, dan Sonnet 4.5 berulang kali menawarkan solusi yang menyimpang seperti membuat file JSON dummy dan mengatur parameter workflow yang sebenarnya tidak ada
    Padahal masalahnya selesai hanya dengan meng-override step agar cukup mencetak “Hello world”
    Saya penasaran kenapa AI begitu lemah dalam pola pikir sederhana yang ‘di luar kotak’ seperti ini
    Rasanya seperti jenius IQ 170 yang bahkan tidak bisa naik transportasi umum

  • Saya berlangganan Gemini, Claude, dan OpenAI semuanya, dan belakangan saya menyimpulkan bahwa ChatGPT sedang unggul jauh
    Jawabannya lebih ringkas, lebih informatif, dan bahkan setelah saya uji, Claude 4.5 pun tidak terasa banyak peningkatan

    • Saya juga berlangganan ketiganya
      Untuk analisis situasi yang kompleks, ChatGPT yang terbaik, tetapi untuk penulisan kode justru Claude lebih baik
      Saya mendesain dan menyelesaikan masalah dengan ChatGPT, lalu menyerahkan jawabannya ke Claude atau Gemini untuk implementasi
      Gemini berada di atas rata-rata untuk keduanya

    • Secara keseluruhan ChatGPT memang sedikit lebih baik, tetapi Gemini juga bisa menjadi yang terbaik dalam konteks penggunaan nyata lewat AI Studio, optimasi setting, penyesuaian system prompt, dan sebagainya
      Sebagai contoh, nano banana memang SOTA, tetapi saya merasa Qwen-Edit kurang disensor sehingga lebih berguna di pemakaian nyata
      Di layanan ecommerce lokalisasi yang saya jalankan, nano banana tidak bisa dipakai karena membatasi output gambar perempuan, sedangkan Qwen-Edit bisa digunakan tanpa masalah berarti

    • Saya juga berlangganan dua akun, Claude Max dan ChatGPT Codex
      Dulu saya penggemar Claude, tetapi belakangan hampir selalu memakai codex
      Kalau buntu, saya hanya menyerahkan tugas sederhana ke Claude atau menguji keduanya secara bersamaan, tetapi Claude Code dengan Sonnet/Opus jelas keluar lebih lemah daripada Codex

    • Mungkin Anda bisa memperjelas apakah yang Anda maksud memang codex

    • Saya penasaran bagaimana dengan Grok, apakah sudah mulai mendekat

  • Saya masih belum sempat mencoba Claude, tetapi saya memakai AI untuk berbagai pekerjaan seperti mengoreksi tulisan politik
    Pada topik sensitif tertentu, misalnya kasus pemerkosaan anak 12 tahun di Austria, saya mengalami ChatGPT berhenti total karena guardrail
    Terlepas dari konteks nyata, mendeteksi kata ‘sex + kid’ lalu memblokir tanpa syarat benar-benar tidak masuk akal bagi saya
    Rasanya seperti word processor yang menyensor topik dan sampai mencegah penulisan itu sendiri, sehingga gagal menjalankan perannya sebagai alat

    • Dalam praktiknya, pada topik seperti ini rasio antara percakapan yang sah dan konten yang tak bisa diterima terlalu tinggi, sehingga dari sudut pandang sebagian besar penyedia layanan, pemblokiran adalah pilihan yang masuk akal
      Sebagai contoh, saya pernah mengalami kasus merepotkan saat mengembangkan aplikasi pengelolaan silsilah hewan kerabat, di mana hanya karena ada istilah breeding/breeders pun langsung diblokir

    • Menurut saya, "layanan" bukanlah alat
      Kalau yang Anda butuhkan adalah alat sungguhan, jawabannya adalah menjalankan LLM sendiri secara lokal

    • Saya rasa pada akhirnya AI dengan guardrail paling sedikit yang akan menguasai pasar
      Di antara frontier model saat ini, Grok yang paling sedikit pembatasannya, tetapi tetap masih ada ruang perbaikan

    • Mirip dengan itu, saat saya mencoba membuat gambar kupon ulang tahun untuk putri saya dengan ChatGPT/DallE, tiga perempat waktu total justru habis untuk mengakali berbagai kebijakan konten

    • Dari pengalaman sederhana saya juga, Claude jauh lebih cepat dan lebih keras memblokir percakapan pada topik yang ‘kontroversial’

  • Saya melakukan pengujian cepat bersama System Initiative
    Error infrastruktur 503 yang secara manual butuh lebih dari 2 jam, ketika digabungkan bisa diselesaikan hanya dalam 15 menit
    Kasus penggunaan lainnya saya rangkum di blog
    System Initiative resmi
    Blog ulasan penggunaan