3 poin oleh GN⁺ 2024-09-10 | 1 komentar | Bagikan ke WhatsApp
  • Beberapa hari lalu, seseorang mengumumkan Reflection 70B dengan hasil benchmark yang mengejutkan, dan mengklaimnya sebagai versi fine-tuning dari Llama 3.1 70B
    • Rilis weight-nya berantakan. Mengklaim sebagai fine-tuning untuk 3.1, tetapi merilis LoRA untuk 3.0
    • Saat dijalankan dengan weight yang dirilis, pada awalnya hasil evaluasinya tidak memenuhi ekspektasi
    • Namun saat menggunakan endpoint yang di-host, evaluasinya mulai menunjukkan performa setara SOTA
  • Orang-orang menemukan cara cerdik untuk memeriksa model apa yang sebenarnya berjalan di endpoint tersebut
    • Token yang spesifik untuk tiap model dan sensor yang khas per model
    • Berdasarkan temuan mereka, mereka mengklaim bahwa itu bukan model fine-tuning buatan sendiri, melainkan pembungkus untuk Sonnet 3.5
    • Setelah tangkapan bahwa itu adalah Sonnet diposting di Twitter, isinya kemudian berubah
    • Lalu pengguna lain mengklaim menemukan bukti, dengan metode serupa, bahwa model yang di-host kemudian diubah menjadi GPT 4o
  • Hasilnya bercampur dan tidak konsisten, sehingga tidak jelas apa yang benar dan apa yang salah
  • Tweet rilis dari pembuat aslinya: https://twitter.com/mattshumer_/status/1831767014341538166
  • Utas tweet yang melacak bahwa sesuatu terus berubah melalui prompt: https://x.com/RealJosephus/status/1832904398831280448

1 komentar

 
GN⁺ 2024-09-10
Komentar Hacker News
  • Diumumkan bahwa performa model Llama 3.1 70B sangat unggul, tetapi kemudian muncul berbagai masalah

    • Bobot Lora for Llama 3.0 didistribusikan secara keliru
    • Evaluasi awal tidak memenuhi ekspektasi
    • Menunjukkan performa SOTA pada endpoint yang di-host
    • Berbagai metode digunakan untuk memastikan model itu sebenarnya model apa
    • Terungkap bahwa yang digunakan adalah model Sonnet 3.5
    • Setelah itu ditemukan bukti bahwa beralih ke model GPT 4o
    • Terjadi kebingungan dan pemborosan waktu
  • Ada yang berpendapat postingan ini seharusnya mendapat perhatian lebih besar

    • Reputasi seseorang yang dikenal sebagai tokoh besar di bidang AI menjadi rusak
    • Ada bukti seperti pemfilteran "claude", kesalahan tag, dan model yang mengakui bahwa dirinya adalah claude
    • Hal yang paling menentukan adalah perilaku model yang menjawab pertanyaan dalam bahasa Arab, yang tidak didukung pada versi Llama
  • Orang melakukan banyak hal demi ketenaran; jadi muncul pertanyaan apa tujuan akhir Schumer

  • Tweet asli dari penulis (akan segera dihapus)

    Saya senang mengumumkan Reflection 70B, model open source terbaik di dunia.
    Model ini dilatih menggunakan Reflection-Tuning, sehingga LLM dapat memperbaiki kesalahannya sendiri.
    Minggu depan 405B akan dirilis, dan diharapkan menjadi model terbaik di dunia.
    
  • Ada lelucon tentang seseorang yang namanya berima dengan "odd" dan dimulai dengan huruf ketiga (C*** Debussy)

  • Ada yang bertanya-tanya apakah sudah mendapat "konfirmasi" dari sumber tepercaya, karena sulit mempercayai postingan Reddit, thread Twitter, dan tangkapan layar dengan sumber yang tidak jelas