6 poin oleh GN⁺ 3 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Hasil perbandingan Qwen3.6-35B-A3B dan Claude Opus 4.7 untuk membuat gambar ‘pelikan yang mengendarai sepeda’ menunjukkan Qwen menghasilkan gambar yang lebih matang
  • Model Qwen adalah versi terbaru dari Alibaba, dengan model terkuantisasi 20,9GB yang didistribusikan Unsloth, dijalankan secara lokal di MacBook Pro M5 menggunakan LM Studio
  • Claude Opus 4.7 mengalami kesalahan dalam representasi rangka sepeda, dan kualitas hampir tidak membaik meskipun memakai opsi thinking_level: max
  • ‘Benchmark pelikan’ awalnya merupakan tes satir untuk membandingkan model, tetapi hasil kali ini menunjukkan bahwa LLM lokal bisa melampaui model komersial
  • Qwen3.6-35B-A3B menjadi contoh yang membuktikan daya saing model besar yang dapat dijalankan di lingkungan lokal

Eksperimen perbandingan Qwen3.6-35B-A3B dan Claude Opus 4.7

  • Dilakukan eksperimen perbandingan pada dua model, Qwen3.6-35B-A3B dan Claude Opus 4.7, untuk menghasilkan gambar ‘pelikan yang mengendarai sepeda’
    • Model Qwen adalah versi terbaru yang dirilis Alibaba, menggunakan model quantized 20,9GB yang disediakan Unsloth
    • Dijalankan secara lokal di MacBook Pro M5 melalui LM Studio dan plugin llm-lmstudio
    • Claude Opus 4.7 memakai model cloud terbaru dari Anthropic
  • Hasilnya, Qwen3.6-35B-A3B menghasilkan gambar pelikan yang lebih baik
    • Claude Opus 4.7 mengalami kesalahan dengan penggambaran rangka sepeda
    • Percobaan ulang dengan menambahkan opsi thinking_level: max hampir tidak meningkatkan kualitas
  • Beberapa pihak menaruh kecurigaan bahwa model-model ini telah dilatih untuk benchmark pelikan
    • Penulis membantah hal tersebut, namun untuk memverifikasi keandalan hasil, ia menambahkan tes baru berupa ‘flamingo yang mengendarai unicycle’
    • Qwen3.6-35B-A3B kembali memberikan hasil yang lebih baik, dan komentar “” di dalam kode SVG dinilai mengesankan

Makna dan batasan benchmark pelikan

  • ‘Benchmark pelikan bersepeda’ pada awalnya dimulai sebagai tes bercanda untuk menyindir absurditas perbandingan model
    • Namun dalam praktiknya, memang ada korelasi tertentu antara kualitas gambar pelikan dan performa umum model
    • Hasil awal pada Oktober 2024 masih kasar, tetapi setelah itu model-model secara bertahap mampu menghasilkan ilustrasi yang benar-benar bisa digunakan
  • Dalam eksperimen kali ini, korelasi tersebut runtuh untuk pertama kalinya
    • Meski model Qwen memberikan hasil unggul, tetap dinilai sulit mengatakan bahwa versi terkuantisasi 21GB lebih kuat daripada model komersial terbaru Anthropic
    • Namun, jika yang dibutuhkan adalah membuat ‘SVG pelikan yang mengendarai sepeda’, maka untuk saat ini Qwen3.6-35B-A3B yang dapat dijalankan secara lokal adalah pilihan yang lebih baik
  • Secara keseluruhan, perbandingan ini dinilai sebagai contoh yang menunjukkan tingkat kemajuan LLM lokal dan menyempitnya kesenjangan dengan model komersial besar
    • Terutama, hal ini menonjol karena membuktikan kemungkinan menjalankan model besar di lingkungan LM Studio

1 komentar

 
GN⁺ 3 hari lalu
Komentar Hacker News
  • Sulit setuju dengan uji pembanding ini. Opus flamingo menampilkan pedal, sadel, jari-jari roda, bahkan paruh sepeda secara fungsional. Dari sisi realisme, Qwen benar-benar melenceng. Agak heran ada yang lebih menyukai hasil Qwen. Malah terlihat seperti Qwen overfitting pada data pelican

    • Flamingo buatan Qwen jauh lebih menarik secara artistik. Seekor flamingo bermata satu memakai kacamata hitam dan dasi kupu-kupu sambil merokok. Sebaliknya, Opus menggambar flamingo yang membosankan dan agak canggung. Langit dan tanah di latar belakang juga lebih menarik di versi Qwen. Tapi untuk hasil yang masuk akal secara fisik, Opus jauh lebih dekat
    • Qwen setidaknya menggambar rangka sepeda yang utuh. Rangka Opus terlihat seperti akan patah dua dan bahkan tampak tak bisa dikendalikan
    • Qwen menambahkan detail pada latar belakang, tetapi pelicannya sendiri terlihat seperti bangau berparuh melengkung dan kakinya terpotong. Untuk model lokal ini mengesankan, tetapi bukan pemenangnya
    • Ini model 3B. Hasil yang bisa sedekat ini saja sudah mengejutkan. Perdebatan soal nilai artistik bukan inti utamanya
  • Jika dilihat dari performa coding, Qwen 3.6 35b a3b menyelesaikan 11 dari 98 tugas Power Ranking. Qwen 3.5 dengan ukuran serupa menyelesaikan 10, Qwen 3.5 27b dense menyelesaikan 26, dan Opus menyelesaikan 95. Jadi, Qwen 3.6 hanya menunjukkan peningkatan yang sangat tipis

    • Benchmark ini punya masalah tumpang tindih antara data pelatihan dan data benchmark, seperti Brokk Power Ranking
    • Kecepatannya jelas meningkat. Untuk deskripsi gambar pada M1 Max, Qwen 3.6 35b a3b mencapai 34 token/detik, Qwen 3.5 27b 10 token/detik, dan Qwen 3.5 35b a3b tidak mendukung input gambar
    • Tidak adil membandingkan model kecil untuk inferensi lokal dengan model frontier mahal. Harusnya dibandingkan dengan model di kisaran harga serupa atau model frontier kecil seperti Haiku, Flash, atau GPT Nano
  • Saya paham unsur lucu dari ‘tes pelican’, tapi sekarang saya sudah tidak tahu lagi apa yang sebenarnya dibuktikan tes ini. Kalau ingin melihat seberapa baik model beradaptasi pada situasi di luar distribusi, akan lebih bermakna mencoba kombinasi hewan dan aktivitas lain (misalnya paus yang naik skateboard)

    • Karena itu saya mencoba flamingo yang naik unicycle. Sempat curiga penyedia model melatih khusus untuk pelican, tapi setelah melihat hasil flamingo saya yakin bukan begitu
    • Semakin populer sebuah benchmark, semakin besar kemungkinan ia diperlakukan khusus saat pelatihan model. Saya ingin mengujinya dengan prompt seperti “gajah mengendarai mobil” atau “singa tidur di tempat tidur”
    • Kalau membaca artikelnya, jelas disebutkan bahwa tes ini dibuat dengan niat humoris. Hanya saja tes ini secara longgar mengikuti tren performa model, dan hasil kali ini menunjukkan tren itu telah patah
    • Model-model mungkin mengenali tes ini, tetapi kemungkinan mereka tidak dilatih untuk hal seperti “kura-kura melakukan kickflip di atas skateboard”. Seperti terlihat dari tweet Jeff Dean, justru kegagalan pelican Opus 4.7 menjadi buktinya
    • Lelucon ini sebenarnya sudah habis umurnya. Namun di tengah hype AI yang berlebihan, masih ada orang yang menanggapinya serius. Setiap kali muncul gambar pelican yang bagus, itu berulang kali dijadikan bukti bahwa modelnya hebat
  • Hari ini saya mencoba memperbaiki diagram slide dengan Gemini, lalu membuang waktu dan akhirnya menyerah. Sekali jadi lucu memang bisa, tetapi revisi halus seperti “tolong ubah sedikit bagian ini saja” hampir mustahil. Saya benar-benar merasakan jurang antara mainan dan alat kerja

  • Di HN, ketika orang berkata “laptop saya”, rasanya yang dimaksud selalu MacBook kelas tinggi. Jauh lebih kuat daripada kebanyakan komputer

  • Kalau ditanya langsung ke Opus “apakah kamu pandai membuat gambar”, jawabannya “tidak”. Itu memang tidak pernah dipasarkan untuk pembuatan gambar

    • Belakangan saya curiga OpenAI sedang memanipulasi komentar HN untuk menggeser arah diskusi. Berulang kali terlihat komentar yang hanya membela OpenAI pada topik tertentu atau mengkritik model lain secara berlebihan
    • Claude sangat mahir menghasilkan SVG. Saya sering memakai Claude untuk membuat ikon kecil. Tetapi ilustrasi SVG seperti pelican naik sepeda secara realistis tidak ada gunanya. Pelican memang tidak bisa naik sepeda
  • Bahasa pada dasarnya kaya akan metafora spasial (spatial metaphor). Misalnya, alih-alih mengatakan uang “bertambah”, orang sering mengekspresikannya sebagai “naik”. Struktur metaforis seperti ini bisa saja tercermin juga dalam struktur ruang bobot model. Jadi semakin model belajar strategi yang kompleks, pola seperti ini mungkin makin mendalam. Ke depan saya ingin membuat proyek yang membandingkan geometri aktivasi model lama dan baru

  • Opus dan Sonnet mengalami penurunan performa untuk tugas non-coding sejak versi 4.1

  • Saya tidak tahu demo seperti ini membuktikan apa. LLM hanya kuat pada tugas yang memang dilatih atau yang mirip dengannya. Pembuatan SVG pada dasarnya bukan tugas seperti itu. Dulu model tidak bisa karena contoh di data pelatihan sedikit, lalu setelah contoh ditambahkan untuk keperluan promosi, hasilnya jadi lumayan. Tapi tetap tidak praktis. Perbaikan seperti ini tidak menjalar ke kemampuan lain. Sekarang ketika peningkatan ukuran model sudah berhenti, fokusnya adalah optimasi tugas tertentu. Jika ada tugas rahasia yang tidak masuk pelatihan, itu bisa dipakai untuk menilai kemampuan generalisasi yang sebenarnya, tetapi ini bukan tes seperti itu

  • Saya ini iguana, tapi harus membawa sepeda ke tempat cuci kendaraan. Saya sedang bingung, jalan kaki saja atau naik bus

    • Ada usulan untuk menyerahkan sepeda itu kepada pelican agar dia yang mencucinya
    • Ada juga saran, “Itu terlalu jauh. Pesan saja lewat $PartnerRideshareCo”