- Beberapa hari lalu, seseorang mengumumkan Reflection 70B dengan hasil benchmark yang mengejutkan, dan mengklaimnya sebagai versi fine-tuning dari Llama 3.1 70B
- Rilis weight-nya berantakan. Mengklaim sebagai fine-tuning untuk 3.1, tetapi merilis LoRA untuk 3.0
- Saat dijalankan dengan weight yang dirilis, pada awalnya hasil evaluasinya tidak memenuhi ekspektasi
- Namun saat menggunakan endpoint yang di-host, evaluasinya mulai menunjukkan performa setara SOTA
- Orang-orang menemukan cara cerdik untuk memeriksa model apa yang sebenarnya berjalan di endpoint tersebut
- Token yang spesifik untuk tiap model dan sensor yang khas per model
- Berdasarkan temuan mereka, mereka mengklaim bahwa itu bukan model fine-tuning buatan sendiri, melainkan pembungkus untuk Sonnet 3.5
- Setelah tangkapan bahwa itu adalah Sonnet diposting di Twitter, isinya kemudian berubah
- Lalu pengguna lain mengklaim menemukan bukti, dengan metode serupa, bahwa model yang di-host kemudian diubah menjadi GPT 4o
- Hasilnya bercampur dan tidak konsisten, sehingga tidak jelas apa yang benar dan apa yang salah
- Tweet rilis dari pembuat aslinya: https://twitter.com/mattshumer_/status/1831767014341538166
- Utas tweet yang melacak bahwa sesuatu terus berubah melalui prompt: https://x.com/RealJosephus/status/1832904398831280448
1 komentar
Komentar Hacker News
Diumumkan bahwa performa model Llama 3.1 70B sangat unggul, tetapi kemudian muncul berbagai masalah
Lora for Llama 3.0didistribusikan secara keliruAda yang berpendapat postingan ini seharusnya mendapat perhatian lebih besar
Orang melakukan banyak hal demi ketenaran; jadi muncul pertanyaan apa tujuan akhir Schumer
Tweet asli dari penulis (akan segera dihapus)
Ada lelucon tentang seseorang yang namanya berima dengan "odd" dan dimulai dengan huruf ketiga (C*** Debussy)
Ada yang bertanya-tanya apakah sudah mendapat "konfirmasi" dari sumber tepercaya, karena sulit mempercayai postingan Reddit, thread Twitter, dan tangkapan layar dengan sumber yang tidak jelas