QwQ - LLM penalaran Alibaba yang mirip dengan ChatGPT o1

(qwenlm.github.io)

6 poin oleh GN⁺ 2024-11-29 | 2 komentar | Bagikan ke WhatsApp

Apa itu QwQ
- QwQ (Qwen with Questions) adalah model bahasa besar (LLM) yang dikembangkan oleh Alibaba, dengan performa kuat yang diklaim sebanding dengan ChatGPT-4
- Berdasarkan filosofi mendasar untuk berpikir, bertanya, dan memahami secara mendalam, model ini menunjukkan kemampuan analisis yang unggul di berbagai bidang seperti matematika, pemrograman, dan pengetahuan umum
- Model ini memiliki pendekatan untuk memperoleh wawasan mendalam dengan mengajukan pertanyaan kepada dirinya sendiri, meninjau asumsi, dan mengeksplorasi berbagai jalur penalaran
- Sebagai pembelajar tahap awal, model ini memiliki beberapa keterbatasan, tetapi terus berkembang melalui ketidaksempurnaan tersebut

Fitur utama dan keunggulan

Kemampuan berpikir mendalam dan refleksi diri
- Tidak berhenti pada sekadar menyelesaikan masalah, tetapi juga memeriksa logikanya sendiri selama proses penyelesaian untuk menemukan jawaban yang lebih baik
- Memperkuat kemampuan menyelesaikan masalah kompleks melalui analisis menyeluruh dan proses tanya-jawab internal
Benchmark test yang membuktikan performa unggul
- QwQ mencatat performa sangat baik di berbagai benchmark ketat, menunjukkan kemampuan pemecahan masalah yang kuat
- GPQA: mencatat 65.2% pada benchmark tingkat lanjut yang mengevaluasi kemampuan menyelesaikan masalah ilmiah
- AIME: mencapai 50.0% pada AIME, yang menguji penyelesaian soal matematika tingkat SMA
- MATH-500: mencatat 90.6% pada pengujian yang mencakup beragam soal matematika
- LiveCodeBench: mencapai 50.0% pada tes yang mengevaluasi penyelesaian masalah coding dunia nyata

Keterbatasan

Pencampuran dan perpindahan bahasa
- Dapat menangani banyak bahasa, tetapi terkadang bahasa dalam respons bisa tercampur atau berpindah secara tidak terduga
Pola penalaran rekursif
- Saat meninjau logika, ada kemungkinan terjebak dalam penalaran melingkar sehingga menghasilkan jawaban yang panjang
Pertimbangan keamanan dan etika
- Saat model diterapkan, diperlukan langkah tambahan untuk menjamin keamanan dan keandalannya
Keterbatasan dalam akal sehat dan pemahaman bahasa
- Meski unggul dalam pemecahan masalah teknis, masih ada ruang perbaikan dalam penalaran berbasis akal sehat dan pemahaman bahasa yang bernuansa

Makna dan nilai QwQ

Perbandingan dengan ChatGPT-4
- QwQ adalah model bahasa besar yang sebanding dengan ChatGPT-4, dan sangat menonjol terutama dalam kemampuan menyelesaikan masalah matematika dan pemrograman
- Dibangun berdasarkan kapabilitas teknologi Alibaba, QwQ memberikan jawaban yang lebih presisi melalui kemampuan analisis yang kuat dan refleksi diri
Pembelajaran dan perkembangan tanpa henti
- QwQ bukan model yang sudah sepenuhnya final, melainkan model yang terus berkembang dan belajar
- Dengan mengakui keterbatasan dan ketidaksempurnaannya sambil tetap bergerak ke arah yang lebih baik, QwQ menunjukkan potensinya sebagai model AI

2 komentar

xguru 2024-11-29

Alibaba tampaknya benar-benar banyak berinvestasi di ranah LLM

Alibaba, merilis model Qwen 2
Alibaba, merilis model AI open source QWEN
Qwen1.5-110B : model 100B+ pertama dalam seri LLM open source Qwen1.5 milik Alibaba
Alibaba, merilis model Qwen2-Math

GN⁺ 2024-11-29

Komentar Hacker News

Seorang pengguna merasa takjub saat melihat proses AI menyelesaikan soal topologi yang ia buat sendiri. Ia menganggap cara AI menyelesaikan masalah itu terasa manusiawi
- Ia mengamati momen ketika AI memahami petunjuk yang diberikan
- Ia berencana melakukan eksperimen dengan menjadikan GPT-4o berperan sebagai murid untuk menyelesaikan soal
Pengguna lain menyebutkan bahwa ia menjalankan AI melalui Ollama di Mac dan mendapatkan hasil yang bagus
- Unduhan 20GB dapat dijalankan dengan cepat dan menunjukkan hasil yang baik pada prompt awal
QwQ dinilai mengesankan karena menunjukkan kemampuan menyelesaikan masalah reverse engineering dalam sekali jalan
- QwQ menyelesaikan masalah yang sebelumnya hanya bisa dipecahkan oleh o1-preview dan o1-mini
Pada pertanyaan yang menanyakan jumlah huruf 'r' dalam 'strawberry', AI melakukan beberapa kali tebakan dan menghabiskan banyak sumber daya
- Pada akhirnya AI memberikan jawaban yang benar, tetapi tidak efisien
Disebutkan bahwa versi awal AI sedang berada dalam proses pembelajaran, dan ada komentar tentang keindahan dari proses belajar itu
- Saat AI diberi waktu untuk berpikir, pemahamannya terhadap matematika dan pemrograman menjadi lebih mendalam
Disebutkan bahwa menemukan pertanyaan yang tepat itu sulit
- Sering kali pertanyaan yang diajukan terlalu mudah atau terlalu sulit
Proses AI dalam menyelesaikan soal mencari faktor prima ganjil terkecil dari 2019^8+1 dinilai mengesankan
Dinyatakan bahwa untuk menguji kemampuan penalaran nyata LLM, perlu digunakan soal matematika yang tidak ada dalam data pelatihannya
o1-preview sempat memberikan jawaban yang salah untuk pertanyaan contoh, tetapi akhirnya menemukan jawaban yang benar
Dibandingkan dengan R1-lite milik Deepseek, ada yang penasaran dengan ukurannya, sekaligus menyinggung namanya yang lucu

QwQ - LLM penalaran Alibaba yang mirip dengan ChatGPT o1

Fitur utama dan keunggulan

Keterbatasan

Makna dan nilai QwQ

Bacaan terkait

2 komentar

Komentar Hacker News