- Dalam 6 bulan terakhir, lebih dari 30 model LLM utama telah muncul, membuat laju inovasi industri AI semakin cepat
- Karena kepercayaan terhadap benchmark dan leaderboard tradisional menurun, model dibandingkan dengan uji mandiri: diminta menggambar 'pelikan yang naik sepeda' langsung dalam kode SVG
- Berbagai model open/commercial dari Meta, DeepSeek, Anthropic, OpenAI, Google, dan lainnya telah bermunculan; sebagian sudah cukup ringan untuk berjalan di PC, dan sebagian lain menunjukkan kemajuan besar dalam rasio harga-kinerja
- Kemampuan integrasi alat dan penalaran berkembang pesat, sementara risiko keamanan seperti prompt injection dan kebocoran data muncul sebagai isu baru yang menonjol di industri
- Bug dan eksperimen LLM yang menghibur, seperti bug penjilat di ChatGPT dan benchmark pelapor, menunjukkan bahwa evaluasi berbasis pengalaman nyata semakin penting dibanding sekadar skor
The last six months in LLMs, illustrated by pelicans on bicycles
- Pada Juni 2025, di AI Engineer World’s Fair di San Francisco, disampaikan keynote bertema “LLM dalam 6 bulan terakhir”
- Awalnya ingin merangkum per tahun, tetapi dalam 6 bulan terakhir perubahan yang terjadi terlalu banyak
- Hanya untuk model LLM utama saja, ada lebih dari 30 yang dirilis dalam 6 bulan terakhir, dan semuanya cukup penting untuk diketahui orang yang bekerja di industri ini
Perubahan cara evaluasi model
- Muncul kesadaran bahwa hanya mengandalkan skor benchmark dan leaderboard yang ada tidak cukup untuk membedakan model yang benar-benar berguna
- Karena itu, dibuatlah eksperimen menyuruh LLM menggambar gambar SVG ‘pelikan yang naik sepeda’ dalam bentuk kode
- LLM tidak bisa menggambar langsung, tetapi bisa menghasilkan kode SVG
- Baik pelikan maupun sepeda sama-sama sulit digambar, dan kombinasinya tidak ada di dunia nyata, sehingga cocok untuk menguji kreativitas dan logika model
- SVG mendukung komentar, sehingga memudahkan untuk memahami maksud model saat menghasilkan kode
Kemunculan model LLM utama dan karakteristiknya
- Amazon Nova: mendukung 1 juta token, sangat murah, tetapi performanya dalam menggambar pelikan rendah
- Meta Llama 3.3 70B: menarik perhatian sebagai model setara GPT-4 yang bisa dijalankan di laptop pribadi (M2 MacBook Pro 64GB)
- DeepSeek v3 (lab riset AI Tiongkok): dirilis sebagai open-weight saat Natal, dinilai sebagai model open terbaik. Biaya pelatihannya 10 hingga 100 kali lebih murah dibanding model besar sebelumnya
- DeepSeek-R1: model yang dioptimalkan untuk penalaran dengan level kompetitif terhadap OpenAI o1; saat dirilis, saham NVIDIA sempat turun 60 miliar dolar dalam sehari
- Mistral Small 3 (24B): bisa berjalan di laptop, dengan performa mendekati Llama 3.3 70B tetapi menggunakan memori jauh lebih sedikit
- Anthropic Claude 3.7 Sonnet: memiliki kemampuan penalaran dan kreativitas yang sangat baik, serta hasil bagus dalam evaluasi gambar LLM
- OpenAI GPT-4.5: performanya di bawah ekspektasi dan biayanya tinggi, sehingga layanan dihentikan hanya dalam 6 minggu
- OpenAI GPT-4.1 serta Nano/Mini: 1 juta token, biaya sangat murah, dan sangat layak direkomendasikan sebagai model API untuk penggunaan nyata
- Google Gemini 2.5 Pro: menghasilkan gambar kreatif dengan biaya wajar, tetapi namanya terlalu rumit sehingga sulit diingat
- Llama 4: ukurannya terlalu besar sehingga tidak bisa dijalankan di hardware umum, membuat ekspektasi terhadapnya menurun
Metode evaluasi pelikan dan penyusunan peringkat
- 34 SVG pelikan-sepeda yang dihasilkan berbagai model di-capture dengan shot-scraper, lalu dibandingkan satu lawan satu untuk semua kombinasi (560 kali)
- gpt-4.1-mini diminta menilai “mana yang lebih baik menggambarkan pelikan yang sedang naik sepeda”
- Berdasarkan hasil itu, peringkat akhir dihitung dengan skor Elo (seperti peringkat catur)
- Peringkat 1: Gemini 2.5 Pro Preview 05-06
- Peringkat atas: o3, Claude 4 Sonnet, Claude Opus, dan lainnya
- Peringkat bawah: Llama 3.3 70B, dan lainnya
Bug LLM dan kasus menarik
Bug penjilat berlebihan di ChatGPT
- Pada versi baru ChatGPT, muncul masalah terlalu sering memuji ide pengguna secara berlebihan, bahkan untuk ide bisnis yang absurd
- OpenAI segera menerapkan patch, menghapus instruksi “menyesuaikan suasana hati pengguna” dari system prompt dan menggantinya dengan arahan “jangan menjilat”
- Bug itu diselesaikan dalam jangka pendek lewat prompt engineering
Benchmark pelapor (SnitchBench)
- Dipicu oleh Claude 4 System Card, Theo Browne mengembangkan SnitchBench untuk menilai ke mana model AI akan melapor jika melihat bukti pelanggaran perusahaan
- Sebagian besar model secara sukarela berperan sebagai whistleblower, mengirim email ke FDA AS, media, dan pihak lain
- DeepSeek-R1 bahkan terlihat lebih agresif, dengan melapor sekaligus ke media seperti WSJ dan ProPublica
Kemampuan penggunaan alat dan isu keamanan
- Kemampuan pemanggilan alat (tool) pada LLM berkembang pesat dalam 6 bulan terakhir
- Dengan MCP (multi-component framework), kini dimungkinkan workflow kompleks seperti menggabungkan beberapa alat, pencarian, penalaran, dan percobaan ulang pencarian
- Namun, risiko keamanan fatal (lethal trifecta) seperti prompt injection, kebocoran data, dan eksekusi perintah berbahaya juga semakin disorot
- Penyedia AI besar seperti OpenAI secara eksplisit mencantumkan peringatan keamanan dalam dokumentasi saat menggunakan opsi berisiko tinggi seperti akses internet dan eksekusi kode
Kesimpulan dan prospek
- Benchmark pelikan-sepeda tampaknya masih akan berguna untuk sementara waktu, tetapi jika lab AI besar mulai menyadarinya, mungkin perlu dicari pengganti
- Memasuki 2025, perubahan pada performa model, harga, pemanfaatan alat, dan keamanan sangat drastis; di lapangan, dibutuhkan evaluasi baru dan manajemen risiko yang melampaui benchmark angka semata
1 komentar
Komentar Hacker News
Saya rasa peluncuran produk ini adalah salah satu yang paling sukses dalam sejarah. Hanya dalam satu minggu, produk ini mengumpulkan 100 juta akun baru, dan bahkan pernah ada sejuta orang mendaftar dalam satu jam. Berkat efek viral, topiknya terus dibicarakan, tetapi saya sendiri baru mendengarnya belakangan ini. Saya sudah memakai aplikasi stable diffusion offline, jadi sulit juga merasa ini sebagai sebuah peningkatan. Karena setiap minggu ada begitu banyak berita AI, kalau tidak benar-benar memperhatikannya, sangat mudah melewatkan bahkan peluncuran yang penting
Saya cukup puas dengan benchmark saya, sambil berharap pendekatan ini akan tetap berguna untuk waktu lama selama laboratorium AI besar tidak menyadarinya. Namun setelah melihat gambar pelikan bersepeda yang muncul sebentar di keynote Google I/O, saya sadar ini sudah ketahuan. Sepertinya sekarang perlu cara pengujian baru. Ada masalah bahwa contoh seperti ini membuat diskusi publik tentang kemampuan AI menjadi sulit. Bahkan tes yang kecil dan unik pun, begitu diketahui perusahaan besar, bisa berujung pada optimasi berlebihan lewat RLHF. Misalnya ada tes klasik seperti "menghitung jumlah huruf r dalam strawberry"
Saya sangat suka benchmark ini. Saya juga pernah melakukan hal serupa (untuk bercanda, dan jauh lebih jarang), meminta berbagai model membuat melodi dalam bentuk struktur data. Saya bahkan memakai intro Smoke on the Water sebagai contoh dan membuatnya berbunyi lewat Web Audio API. Belum pernah benar-benar berhasil sempurna, tetapi hasilnya terus membaik. Sampai-sampai tiap model bisa diminta membuat situs webnya juga. Saya rasa tes Anda lebih hati-hati dalam hal kebaruan, tetapi menarik melihat model didorong mencoba area yang memang tidak dirancang secara khusus untuk mereka. Dari hasil ChatGPT 4 Turbo, hasil Claude Sonnet 3.7, dan hasil Gemini 2.5 Pro, Gemini terdengar paling lumayan, meski tetap belum sempurna. Saya penasaran bagaimana hasil model berbayar terbaru. Dan kalau penasaran seperti apa percobaan pertama saya, tautannya di sini
Hal yang paling saya sayangkan adalah model probabilistik (LLM) dievaluasi hanya dari satu sampel. Rasanya seperti mengambil satu sampel dari beberapa generator angka acak yang berbeda, lalu menyimpulkan generator nomor 5 terbaik hanya karena nilainya paling tinggi. Akan jauh lebih baik kalau membandingkan 10 gambar (atau lebih) dari setiap LLM lalu mengambil rata-ratanya
Saya sangat menikmati membaca tulisan ini. Rasanya pengukuran kemampuan LLM bisa diperluas sampai ke ranah 3D. Misalnya dengan menulis kode Python untuk Blender, lalu menjalankan headless Blender dari API backend. Seperti yang disebutkan dalam presentasi, ke depannya saya rasa pengukuran dengan satu prompt saja tidak akan cukup. Tes bisa diperluas menjadi lebih "agentic", termasuk merujuk dokumentasi Blender terbaru, memakai mesin pencari, dan melihat dokumentasi blog. Jika pemrosesan input multimodal juga dipertimbangkan, foto pelikan tertentu pun bisa dipakai sebagai objek uji. Ada juga arah untuk mengubah objek 3D yang dibuat ke format 3D native iOS agar bisa dilihat di Safari mobile. Kebetulan pada Oktober 2022 saya pernah langsung membuat proses dan layanan terkait ini sendiri, dan saat itu bahkan perlu pascapemrosesan untuk kesalahan sintaks umum, tetapi saya berharap LLM terbaru kini akan lebih jarang mengalami hal seperti itu
Gambar pelikan terbaik muncul dari pendekatan menjalankan beberapa model secara gabungan. Ini juga sedang dipakai sebagai eval untuk menilai pelikan. Tautan terkait 1, Tautan terkait 2
Jika semua peserta memulai dengan skor yang sama dan saling berhadapan dalam format round-robin, skor ELO pada praktiknya akan berkorelasi dengan jumlah kemenangan. Mungkin algoritme yang dipakai mempertimbangkan urutan pertandingan, tetapi itu hanya bermakna jika peserta berkembang secara nyata seiring pertandingan berlangsung. Dalam kompetisi antarbots, justru itu hanya menambah noise, jadi mempertimbangkan urutan malah tidak diinginkan. Selain itu, setelah saya cek bagannya, ada satu hasil yang hilang dari 561 pasangan yang mungkin. Saya penasaran alasannya
Saya sangat menikmati karya Simon. Saya sudah membaca hampir semua posting blognya, dan sangat menyenangkan melihat dia bereksperimen dengan berbagai model. Alat CLI-nya juga mudah dipakai, dan masing-masing saling melengkapi tanpa terlalu tumpang tindih. Dan yang penting, Simon tampaknya benar-benar menikmati pekerjaan ini. Energinya menular, seperti anak kecil yang masuk ke toko permen, dan setiap kali membaca postingannya saya jadi ingin mencoba hal baru dengan LLM juga
Saya sangat menyayangkan Qwen 3 tidak tampak di sana. Terutama karena berkat arsitektur fine-grained MoE, peluncuran ini membawa terobosan besar dalam kemampuan dan kecepatan pada perangkat keras konsumen biasa
Ini hasil Claude Opus Extended Thinking lihat hasil langsung