- Hasil perbandingan Qwen3.6-35B-A3B dan Claude Opus 4.7 untuk membuat gambar ‘pelikan yang mengendarai sepeda’ menunjukkan Qwen menghasilkan gambar yang lebih matang
- Model Qwen adalah versi terbaru dari Alibaba, dengan model terkuantisasi 20,9GB yang didistribusikan Unsloth, dijalankan secara lokal di MacBook Pro M5 menggunakan LM Studio
- Claude Opus 4.7 mengalami kesalahan dalam representasi rangka sepeda, dan kualitas hampir tidak membaik meskipun memakai opsi
thinking_level: max
- ‘Benchmark pelikan’ awalnya merupakan tes satir untuk membandingkan model, tetapi hasil kali ini menunjukkan bahwa LLM lokal bisa melampaui model komersial
- Qwen3.6-35B-A3B menjadi contoh yang membuktikan daya saing model besar yang dapat dijalankan di lingkungan lokal
Eksperimen perbandingan Qwen3.6-35B-A3B dan Claude Opus 4.7
- Dilakukan eksperimen perbandingan pada dua model, Qwen3.6-35B-A3B dan Claude Opus 4.7, untuk menghasilkan gambar ‘pelikan yang mengendarai sepeda’
- Model Qwen adalah versi terbaru yang dirilis Alibaba, menggunakan model quantized 20,9GB yang disediakan Unsloth
- Dijalankan secara lokal di MacBook Pro M5 melalui LM Studio dan plugin llm-lmstudio
- Claude Opus 4.7 memakai model cloud terbaru dari Anthropic
- Hasilnya, Qwen3.6-35B-A3B menghasilkan gambar pelikan yang lebih baik
- Claude Opus 4.7 mengalami kesalahan dengan penggambaran rangka sepeda
- Percobaan ulang dengan menambahkan opsi
thinking_level: max hampir tidak meningkatkan kualitas
- Beberapa pihak menaruh kecurigaan bahwa model-model ini telah dilatih untuk benchmark pelikan
- Penulis membantah hal tersebut, namun untuk memverifikasi keandalan hasil, ia menambahkan tes baru berupa ‘flamingo yang mengendarai unicycle’
- Qwen3.6-35B-A3B kembali memberikan hasil yang lebih baik, dan komentar “” di dalam kode SVG dinilai mengesankan
Makna dan batasan benchmark pelikan
- ‘Benchmark pelikan bersepeda’ pada awalnya dimulai sebagai tes bercanda untuk menyindir absurditas perbandingan model
- Namun dalam praktiknya, memang ada korelasi tertentu antara kualitas gambar pelikan dan performa umum model
- Hasil awal pada Oktober 2024 masih kasar, tetapi setelah itu model-model secara bertahap mampu menghasilkan ilustrasi yang benar-benar bisa digunakan
- Dalam eksperimen kali ini, korelasi tersebut runtuh untuk pertama kalinya
- Meski model Qwen memberikan hasil unggul, tetap dinilai sulit mengatakan bahwa versi terkuantisasi 21GB lebih kuat daripada model komersial terbaru Anthropic
- Namun, jika yang dibutuhkan adalah membuat ‘SVG pelikan yang mengendarai sepeda’, maka untuk saat ini Qwen3.6-35B-A3B yang dapat dijalankan secara lokal adalah pilihan yang lebih baik
- Secara keseluruhan, perbandingan ini dinilai sebagai contoh yang menunjukkan tingkat kemajuan LLM lokal dan menyempitnya kesenjangan dengan model komersial besar
- Terutama, hal ini menonjol karena membuktikan kemungkinan menjalankan model besar di lingkungan LM Studio
1 komentar
Komentar Hacker News
Sulit setuju dengan uji pembanding ini. Opus flamingo menampilkan pedal, sadel, jari-jari roda, bahkan paruh sepeda secara fungsional. Dari sisi realisme, Qwen benar-benar melenceng. Agak heran ada yang lebih menyukai hasil Qwen. Malah terlihat seperti Qwen overfitting pada data pelican
Jika dilihat dari performa coding, Qwen 3.6 35b a3b menyelesaikan 11 dari 98 tugas Power Ranking. Qwen 3.5 dengan ukuran serupa menyelesaikan 10, Qwen 3.5 27b dense menyelesaikan 26, dan Opus menyelesaikan 95. Jadi, Qwen 3.6 hanya menunjukkan peningkatan yang sangat tipis
Saya paham unsur lucu dari ‘tes pelican’, tapi sekarang saya sudah tidak tahu lagi apa yang sebenarnya dibuktikan tes ini. Kalau ingin melihat seberapa baik model beradaptasi pada situasi di luar distribusi, akan lebih bermakna mencoba kombinasi hewan dan aktivitas lain (misalnya paus yang naik skateboard)
Hari ini saya mencoba memperbaiki diagram slide dengan Gemini, lalu membuang waktu dan akhirnya menyerah. Sekali jadi lucu memang bisa, tetapi revisi halus seperti “tolong ubah sedikit bagian ini saja” hampir mustahil. Saya benar-benar merasakan jurang antara mainan dan alat kerja
Di HN, ketika orang berkata “laptop saya”, rasanya yang dimaksud selalu MacBook kelas tinggi. Jauh lebih kuat daripada kebanyakan komputer
Kalau ditanya langsung ke Opus “apakah kamu pandai membuat gambar”, jawabannya “tidak”. Itu memang tidak pernah dipasarkan untuk pembuatan gambar
Bahasa pada dasarnya kaya akan metafora spasial (spatial metaphor). Misalnya, alih-alih mengatakan uang “bertambah”, orang sering mengekspresikannya sebagai “naik”. Struktur metaforis seperti ini bisa saja tercermin juga dalam struktur ruang bobot model. Jadi semakin model belajar strategi yang kompleks, pola seperti ini mungkin makin mendalam. Ke depan saya ingin membuat proyek yang membandingkan geometri aktivasi model lama dan baru
Opus dan Sonnet mengalami penurunan performa untuk tugas non-coding sejak versi 4.1
Saya tidak tahu demo seperti ini membuktikan apa. LLM hanya kuat pada tugas yang memang dilatih atau yang mirip dengannya. Pembuatan SVG pada dasarnya bukan tugas seperti itu. Dulu model tidak bisa karena contoh di data pelatihan sedikit, lalu setelah contoh ditambahkan untuk keperluan promosi, hasilnya jadi lumayan. Tapi tetap tidak praktis. Perbaikan seperti ini tidak menjalar ke kemampuan lain. Sekarang ketika peningkatan ukuran model sudah berhenti, fokusnya adalah optimasi tugas tertentu. Jika ada tugas rahasia yang tidak masuk pelatihan, itu bisa dipakai untuk menilai kemampuan generalisasi yang sebenarnya, tetapi ini bukan tes seperti itu
Saya ini iguana, tapi harus membawa sepeda ke tempat cuci kendaraan. Saya sedang bingung, jalan kaki saja atau naik bus