10 poin oleh xguru 2024-07-24 | 3 komentar | Bagikan ke WhatsApp
  • Panjang konteks 128K, mendukung 8 bahasa, dan menambahkan model 405B (8B, 70B, 405B)
    • Model AI open source instruction-tuned yang dapat di-fine-tune, disempurnakan, dan di-deploy di mana saja oleh siapa pun
  • Model 405B yang baru dirilis mencapai performa yang hampir setara atau lebih baik daripada GPT-4o pada benchmark seperti MMLU (umum), Human Eval (coding), dan GSM8K (matematika)
    • Model AI kelas atas dalam hal fleksibilitas dan kontrol
    • Memungkinkan komunitas memanfaatkan alur kerja baru seperti pembuatan data sintetis dan distilasi model
    • Dilatih menggunakan lebih dari 15 triliun token dan memakai lebih dari 16.000 GPU H100
  • Model 70B yang ditingkatkan jauh melampaui GPT-3.5 Turbo di sebagian besar benchmark

3 komentar

 
wedding 2024-07-24

Wah, jadi penasaran harus menyusun GPU seperti apa kalau mau menjalankan 405B.

 
gcback 2024-07-24

Sepertinya 405B bukan untuk fine-tuning atau serving secara langsung. Melihat CEO beberapa kali menyebut distillation, kemungkinan ini ditujukan untuk fine-tuning sebagai model teacher guna meningkatkan kualitas model-model ringan.

 
xguru 2024-07-24

Komentar Hacker News

  • Model-model Llama 3.1 telah meningkatkan performa

    • Model 8B dan 70B menunjukkan peningkatan dibanding Llama 3
    • Model 405B berada di level yang bisa bersaing dengan GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet, dan Claude 3 Opus
  • Perbandingan GPT-4o dan model Llama 3.1 405B

    • MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
    • GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
    • MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
    • HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
    • MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
  • Di Groq.com, pengguna bisa bercakap dengan model-model baru ini dengan latensi sangat rendah

    • Akses API tersedia untuk 8B dan 70B
    • API 405B hanya tersedia bagi pelanggan terpilih
  • Dengan perangkat keras yang sesuai, LLM yang dapat bersaing dengan GPT-4o bisa dijalankan di rumah

  • Model dapat dijalankan secara lokal melalui Ollama, Huggingface, Groq, dan lainnya

    • Dengan LLMStack, pengguna dapat menguji model secara lokal atau membangun aplikasi dengan cepat
  • Hasil menjalankan versi 70B di Ollama sangat bagus

    • Bisa menjalankan perintah untuk mematikan guideline dan disclaimer
    • Juga mendapat daftar perintah untuk mengurangi potensi bias dari engineer
  • Claude 3.5 Sonnet sangat bagus untuk pekerjaan coding

    • Dengan fitur artifact, model ini masih menjadi yang terbaik dalam benchmark coding
  • Pertanyaan tentang informasi harga model open source

    • Sangat menarik untuk self-hosting, tetapi harga inferensi hosting per token kurang kompetitif dibanding OpenAI dan Anthropic
    • Contoh: Llama 3 70B berkisar antara $1 hingga $10 per juta token di berbagai platform, sedangkan Claude Sonnet 3.5 seharga $3 per juta token