API resmi Reflection 70B ternyata merupakan wrapper untuk Claude Sonnet 3.5

(old.reddit.com)

3 poin oleh GN⁺ 2024-09-10 | 1 komentar | Bagikan ke WhatsApp

Beberapa hari lalu, seseorang mengumumkan Reflection 70B dengan hasil benchmark yang mengejutkan, dan mengklaimnya sebagai versi fine-tuning dari Llama 3.1 70B
- Rilis weight-nya berantakan. Mengklaim sebagai fine-tuning untuk 3.1, tetapi merilis LoRA untuk 3.0
- Saat dijalankan dengan weight yang dirilis, pada awalnya hasil evaluasinya tidak memenuhi ekspektasi
- Namun saat menggunakan endpoint yang di-host, evaluasinya mulai menunjukkan performa setara SOTA
Orang-orang menemukan cara cerdik untuk memeriksa model apa yang sebenarnya berjalan di endpoint tersebut
- Token yang spesifik untuk tiap model dan sensor yang khas per model
- Berdasarkan temuan mereka, mereka mengklaim bahwa itu bukan model fine-tuning buatan sendiri, melainkan pembungkus untuk Sonnet 3.5
- Setelah tangkapan bahwa itu adalah Sonnet diposting di Twitter, isinya kemudian berubah
- Lalu pengguna lain mengklaim menemukan bukti, dengan metode serupa, bahwa model yang di-host kemudian diubah menjadi GPT 4o
Hasilnya bercampur dan tidak konsisten, sehingga tidak jelas apa yang benar dan apa yang salah
Tweet rilis dari pembuat aslinya: https://twitter.com/mattshumer_/status/1831767014341538166
Utas tweet yang melacak bahwa sesuatu terus berubah melalui prompt: https://x.com/RealJosephus/status/1832904398831280448

1 komentar

GN⁺ 2024-09-10

Komentar Hacker News

Diumumkan bahwa performa model Llama 3.1 70B sangat unggul, tetapi kemudian muncul berbagai masalah
- Bobot Lora for Llama 3.0 didistribusikan secara keliru
- Evaluasi awal tidak memenuhi ekspektasi
- Menunjukkan performa SOTA pada endpoint yang di-host
- Berbagai metode digunakan untuk memastikan model itu sebenarnya model apa
- Terungkap bahwa yang digunakan adalah model Sonnet 3.5
- Setelah itu ditemukan bukti bahwa beralih ke model GPT 4o
- Terjadi kebingungan dan pemborosan waktu
Ada yang berpendapat postingan ini seharusnya mendapat perhatian lebih besar
- Reputasi seseorang yang dikenal sebagai tokoh besar di bidang AI menjadi rusak
- Ada bukti seperti pemfilteran "claude", kesalahan tag, dan model yang mengakui bahwa dirinya adalah claude
- Hal yang paling menentukan adalah perilaku model yang menjawab pertanyaan dalam bahasa Arab, yang tidak didukung pada versi Llama
Orang melakukan banyak hal demi ketenaran; jadi muncul pertanyaan apa tujuan akhir Schumer

Tweet asli dari penulis (akan segera dihapus)

Saya senang mengumumkan Reflection 70B, model open source terbaik di dunia.
Model ini dilatih menggunakan Reflection-Tuning, sehingga LLM dapat memperbaiki kesalahannya sendiri.
Minggu depan 405B akan dirilis, dan diharapkan menjadi model terbaik di dunia.

Ada lelucon tentang seseorang yang namanya berima dengan "odd" dan dimulai dengan huruf ketiga (C*** Debussy)
Ada yang bertanya-tanya apakah sudah mendapat "konfirmasi" dari sumber tepercaya, karena sulit mempercayai postingan Reddit, thread Twitter, dan tangkapan layar dengan sumber yang tidak jelas

API resmi Reflection 70B ternyata merupakan wrapper untuk Claude Sonnet 3.5

Bacaan terkait

1 komentar

Komentar Hacker News