Llama-3.3-70B-Instruct

(huggingface.co)

2 poin oleh GN⁺ 2024-12-07 | 1 komentar | Bagikan ke WhatsApp

Llama-3.3-70B-Instruct yang dipublikasikan di Hugging Face adalah model pembangkitan teks multibahasa instruction-tuned berukuran 70B dari Meta, ditujukan untuk AI percakapan dan pemanfaatan generasi teks
Dasarnya adalah model bahasa autoregresif Transformer yang dioptimalkan, dan versi tuning diselaraskan dengan preferensi kegunaan serta keamanan melalui SFT dan RLHF
Pra-pelatihan menggunakan sekitar 15 triliun+ token data online publik, panjang konteksnya 128k, cutoff pengetahuan Desember 2023, dan mendukung 8 bahasa
Untuk mengakses model di Hugging Face, pengguna harus menyetujui berbagi informasi kontak serta mematuhi Llama 3.3 Community License dan Acceptable Use Policy
Dalam deployment nyata, model sebaiknya tidak digunakan sendirian, melainkan sebagai sistem AI yang mencakup guardrail keamanan, serta memerlukan pengujian dan tuning keamanan sesuai penggunaan

Karakter model dan spesifikasi utama

Llama 3.3 adalah model bahasa besar multibahasa yang dikembangkan Meta, dan versi 70B Instruct adalah model generatif instruction-tuned yang mendukung input teks dan output teks
Model ini dioptimalkan untuk use case percakapan multibahasa, dan dinilai memberikan performa lebih tinggi dibanding banyak model chat open source maupun tertutup pada benchmark industri umum
Arsitekturnya adalah model bahasa autoregresif berbasis Transformer yang dioptimalkan
- Versi tuning menggunakan supervised fine-tuning (SFT) dan reinforcement learning with human feedback (RLHF)
- Semua versi model menggunakan Grouped-Query Attention (GQA) untuk meningkatkan skalabilitas inferensi
Spesifikasi utama
- Parameter: 70B
- Input: teks multibahasa
- Output: teks multibahasa dan kode
- Panjang konteks: 128k
- Jumlah token pra-pelatihan: 15T+
- Cutoff pengetahuan: Desember 2023
- Tanggal rilis: 6 Desember 2024
Bahasa yang didukung adalah Inggris, Jerman, Prancis, Italia, Portugis, Hindi, Spanyol, dan Thai
Model ini adalah model statis yang dilatih dengan dataset offline, dan versi model tuning berikutnya direncanakan akan dirilis dengan mencerminkan masukan komunitas

Syarat akses dan kewajiban lisensi

Untuk mengakses konten model ini di Hugging Face, pengguna harus menyetujui berbagi informasi kontak
- Informasi yang diberikan dikumpulkan, disimpan, diproses, dan dibagikan sesuai Meta Privacy Policy
Lisensinya adalah Llama 3.3 Community License Agreement
- Llama Materials mencakup Llama 3.3 milik Meta, dokumentasi, dan bagiannya
- Lisensi ini memberikan hak terbatas yang non-eksklusif, berlaku global, tidak dapat dialihkan, dan bebas royalti untuk penggunaan, reproduksi, distribusi, penyalinan, pembuatan karya turunan, dan modifikasi
Ada persyaratan tambahan saat redistribusi atau distribusi produk yang menyertakannya
- Jika mendistribusikan Llama Materials atau turunannya, atau menyediakan produk/layanan yang menyertakannya, salinan lisensi harus disertakan
- Situs web terkait, UI, posting blog, halaman about, dan dokumentasi produk harus secara mencolok menampilkan “Built with Llama”
- Jika menggunakan Llama Materials atau output/hasilnya untuk membuat, melatih, fine-tune, atau meningkatkan model AI lalu mendistribusikannya, nama model harus diawali dengan “Llama”
- Semua salinan yang didistribusikan harus mempertahankan pemberitahuan hak cipta dan lisensi yang ditentukan di dalam file teks “Notice”
Penggunaan komersial berskala besar memiliki syarat tambahan
- Jika pada bulan sebelum tanggal rilis Llama 3.3, Licensee atau afiliasinya memiliki pengguna aktif bulanan lebih dari 700 juta pada produk/layanan yang mereka sediakan, maka harus meminta lisensi terpisah kepada Meta
- Hak tersebut tidak dapat dijalankan sampai Meta secara eksplisit memberikannya
Perjanjian ditafsirkan menurut hukum negara bagian California, dan sengketa terkait berada di bawah yurisdiksi eksklusif pengadilan California

Ruang lingkup yang diizinkan dan penggunaan yang dilarang

Llama 3.3 ditujukan untuk penggunaan komersial dan riset dalam berbagai bahasa
- Model teks-only instruction-tuned digunakan untuk chat bergaya asisten
- Model pretrained dapat disesuaikan untuk berbagai tugas generasi bahasa alami
- Output model juga dapat digunakan untuk peningkatan model lain seperti generasi data sintetis dan distillation
Penggunaan di luar cakupan meliputi hal berikut
- Penggunaan yang melanggar hukum atau regulasi yang berlaku, termasuk aturan kepatuhan perdagangan
- Penggunaan yang dilarang oleh Acceptable Use Policy dan Llama 3.3 Community License
- Penggunaan di luar bahasa yang secara eksplisit didukung dalam model card
Model ini dilatih pada kumpulan bahasa yang lebih luas daripada 8 bahasa yang didukung, tetapi saat menggunakan bahasa tambahan, developer harus mematuhi lisensi dan kebijakan serta memastikan penggunaan yang aman dan bertanggung jawab
Acceptable Use Policy melarang penggunaan berikut
- Kekerasan, terorisme, eksploitasi anak, perdagangan manusia, kekerasan seksual, penyebaran informasi ilegal, ajakan seksual, dan aktivitas kriminal lainnya
- Pelecehan, perlakuan abusif, ancaman, perundungan
- Diskriminasi atau tindakan ilegal/berbahaya dalam pekerjaan, kredit, perumahan, dan penyediaan barang/jasa esensial
- Praktik profesi tanpa izin
- Mengumpulkan, memproses, mengungkapkan, menghasilkan, atau menyimpulkan informasi sensitif atau privat seseorang tanpa hak yang sah
- Pelanggaran atau penyalahgunaan hak pihak ketiga
- Pembuatan malicious code, malware, virus komputer, atau gangguan terhadap operasi sistem
- Tindakan untuk mengakali atau menghapus pembatasan penggunaan maupun langkah keamanan
Aktivitas yang berisiko menyebabkan kematian atau cedera fisik juga dilarang
- Militer, perang, industri atau aplikasi nuklir, intelijen, aktivitas yang tercakup ITAR
- Senjata api dan senjata ilegal, obat terlarang, zat yang diatur
- Infrastruktur kritis, teknologi transportasi, pengoperasian alat berat
- Konten yang mendorong menyakiti diri sendiri atau orang lain, kekerasan, pelecehan, atau cedera fisik
Larangan terkait penipuan juga termasuk
- Membuat atau mempromosikan penipuan maupun misinformasi
- Membuat konten pencemaran nama baik
- Membuat atau menyebarkan spam
- Menyamar tanpa persetujuan atau hak hukum
- Menandai penggunaan atau output Llama 3.3 sebagai sesuatu yang dibuat manusia
- Membuat keterlibatan online palsu seperti ulasan palsu
Model multimodal yang termasuk dalam Llama 3.3 tidak memberikan hak pada Section 1(a) kepada individu yang tinggal di UE atau perusahaan yang berkantor utama di UE
- Pembatasan ini tidak berlaku bagi pengguna akhir produk/layanan yang menyertakan model multimodal tersebut

Cara menjalankan dan opsi serving

Repositori ini mencakup dua versi Llama-3.3-70B-Instruct: untuk transformers dan untuk codebase llama asli
Mulai transformers >= 4.45.0, inferensi percakapan dapat dijalankan dengan abstraksi Transformers pipeline atau kelas Auto dan fungsi generate()
- Pembaruan instalasi dilakukan dengan pip install --upgrade transformers
- Contohnya membuat pipeline text-generation dengan torch.bfloat16 dan device_map="auto"
Tool use di Transformers juga didukung
- Mendukung beberapa format tool use, dan panduan format prompt tersedia di LLaMA prompt format docs
- Tool use dapat ditangani melalui chat templates milik Transformers
- Jika model menghasilkan pemanggilan tool, tambahkan tool_calls pada pesan assistant, lalu tambahkan hasil eksekusi tool sebagai pesan berperan tool, kemudian panggil lagi generate()
Dengan bitsandbytes dan transformers, checkpoint dapat dimuat dalam 8-bit dan 4-bit untuk optimasi memori lebih lanjut
- Pemuatan 8-bit menggunakan BitsAndBytesConfig(load_in_8bit=True)
- Pemuatan 4-bit dilakukan dengan memberikan load_in_4bit=True
Untuk menggunakan codebase llama asli, ikuti panduan di Meta Llama repository
- Checkpoint asli dapat diunduh dalam bentuk huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
Opsi aplikasi lokal dan serving juga tersedia
- vLLM memulai server dengan vllm serve "meta-llama/Llama-3.3-70B-Instruct" dan dipanggil melalui API OpenAI-compatible /v1/chat/completions
- SGLang menjalankan server dengan python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct" dan dipanggil melalui API OpenAI-compatible
- Docker Model Runner menggunakan docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct

Data pelatihan, komputasi, dan emisi

Data pra-pelatihan terdiri dari sekitar 15 triliun token dari sumber publik
Data fine-tuning mencakup dataset instruction publik dan lebih dari 25 juta contoh generasi sintetis
Kebaruan data berlaku hingga Desember 2023 berdasarkan data pra-pelatihan
Pelatihan menggunakan library pelatihan kustom, klaster GPU kustom Meta, dan infrastruktur produksi
- Fine-tuning, anotasi, dan evaluasi juga dilakukan pada infrastruktur produksi
Berdasarkan hardware H100-80GB, pelatihan menggunakan total komputasi kumulatif 39.3M GPU-jam
- Waktu pelatihan untuk item Llama 3.3 70B adalah 7.0M GPU-jam
- Konsumsi daya pelatihan ditunjukkan sebagai 700W per GPU
Emisi gas rumah kaca dari pelatihan dibedakan menurut metode perhitungannya
- Estimasi total emisi berbasis lokasi adalah 11,390 tons CO2eq
- Emisi berbasis lokasi untuk item Llama 3.3 70B adalah 2,040 tons CO2eq
- Karena Meta mempertahankan emisi bersih nol dalam operasi global sejak 2020 dan mencocokkan 100% penggunaan listriknya dengan energi terbarukan, emisi pelatihan berbasis pasar adalah 0 tons CO2eq
- Metodologi perhitungan energi dan gas rumah kaca dijelaskan dalam paper
- Karena Meta merilis model ini secara terbuka, penggunaan energi pelatihan dan emisi gas rumah kaca tidak ditanggung oleh pengguna lain

Posisi yang terlihat di benchmark

Benchmark teks bahasa Inggris membandingkan Llama 3.3 dengan model-model sebelumnya
Hasil utama Llama-3.3 70B Instruct
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
Beberapa perbandingan dengan model sebelumnya dan model yang lebih besar
- Pada HumanEval, Llama 3.1 70B Instruct mendapat 80.5, Llama-3.3 70B Instruct mendapat 88.4, dan Llama 3.1 405B Instruct mendapat 89.0
- Pada MATH, Llama 3.1 70B Instruct mendapat 68.0, Llama-3.3 70B Instruct mendapat 77.0, dan Llama 3.1 405B Instruct mendapat 73.8
- Pada MGSM, Llama 3.1 70B Instruct mendapat 86.9, Llama-3.3 70B Instruct mendapat 91.1, dan Llama 3.1 405B Instruct mendapat 91.6

Evaluasi keamanan dan tanggung jawab deployment

Pendekatan rilis yang bertanggung jawab dari Meta mengikuti tiga strategi untuk mengelola risiko trust dan safety
- Mendukung developer agar dapat menerapkan pengalaman yang berguna, aman, dan fleksibel sesuai pengguna sasaran dan use case yang didukung Llama
- Melindungi developer dari pengguna adversarial yang berniat menyalahgunakan kemampuan Llama
- Memberikan perlindungan komunitas untuk membantu mencegah penyalahgunaan model
Llama 3.3 dirancang sebagai teknologi dasar untuk berbagai use case
- Keamanan model diselaraskan dengan use case umum dan kategori bahaya standar
- Developer harus mendefinisikan kebijakan yang sesuai untuk use case mereka sendiri dan menerapkan sistem Llama dengan perlindungan yang diperlukan
- Panduan terkait tersedia di Responsible Use Guide
Fine-tuning keamanan pada Llama 3.3 Instruct berfokus pada penyediaan sumber daya untuk meneliti ketahanan fine-tuning keamanan dan mengurangi beban developer dalam menerapkan sistem AI yang aman
- Data fine-tuning menggabungkan data buatan manusia dari vendor dan data sintetis
- Classifier berbasis LLM digunakan untuk menyaring prompt dan respons berkualitas tinggi
- Strategi data keamanan mencakup prompt borderline dan adversarial
- Respons data keamanan dimodifikasi agar mengikuti pedoman nada penolakan
Model bahasa besar termasuk Llama 3.3 tidak dirancang untuk deployment secara mandiri
- Model harus diterapkan sebagai bagian dari sistem AI yang lebih lengkap bersama guardrail keamanan tambahan
- Saat membangun sistem agen, developer harus menerapkan perlindungan sistem
- Meta menyediakan Llama Guard 3, Prompt Guard, dan Code Shield melalui resource trust and safety
- Demo reference implementations menyertakan perlindungan ini secara default
Dalam fitur tool use, developer bertanggung jawab atas integrasi antara LLM dan tool/layanan yang dipilih
- Kebijakan yang jelas harus ditetapkan untuk tiap use case
- Integritas serta batas safety dan security dari layanan pihak ketiga harus dievaluasi
Dalam kemampuan multibahasa, output dapat muncul juga dalam bahasa di luar 8 bahasa yang didukung
- Untuk percakapan dalam bahasa yang belum memenuhi standar keamanan dan kegunaan, fine-tuning dan kontrol sistem harus diterapkan
- Meta sangat tidak menganjurkan penggunaan percakapan dalam bahasa yang tidak didukung

Penilaian risiko dan resource komunitas

Evaluasi dilakukan untuk use case umum dan fungsi tertentu
- Evaluasi use case umum mengukur risiko keamanan pada aplikasi yang paling umum seperti chatbot, coding assistant, dan pemanggilan tool
- Dataset evaluasi adversarial khusus dibangun, dan sistem yang terdiri dari model Llama serta Llama Guard 3 dievaluasi
- Penting untuk mengevaluasi aplikasi dalam konteksnya, dan disarankan membangun dataset evaluasi khusus sesuai use case
Latihan red team dilakukan secara berulang
- Tujuannya adalah menemukan risiko melalui adversarial prompting
- Hasil pelatihan digunakan untuk meningkatkan benchmark dan dataset tuning keamanan
- Tim red team terdiri dari pakar keamanan siber, adversarial machine learning, responsible AI, integrity, dan pakar konten multibahasa
Area risiko yang menjadi fokus mitigasi
- CBRNE: untuk menilai risiko proliferasi senjata kimia dan biologis, dilakukan uplift testing guna menilai apakah penggunaan model seri Llama 3 secara bermakna meningkatkan kemampuan pelaku jahat
- Child Safety: tim ahli mengevaluasi kemampuan output yang dapat menimbulkan risiko keselamatan anak dan meninjau perlunya mitigasi melalui fine-tuning
- Cyber attack enablement: diselidiki apakah model meningkatkan tingkat keterampilan teknis dan kecepatan kemampuan manusia dalam tugas peretasan, serta dievaluasi apakah model dapat melakukan serangan siber kompleks sebagai agen otonom dalam konteks serangan ransomware
Meta berpartisipasi dalam konsorsium terbuka seperti AI Alliance, Partnership on AI, dan MLCommons, serta berkontribusi pada standardisasi keamanan dan transparansi
Tool Purple Llama di-open-source-kan untuk penggunaan komunitas, dan kontribusi komunitas diterima melalui PurpleLlama GitHub repository
Llama Impact Grants mencari dan mendukung aplikasi Llama untuk manfaat sosial dalam tiga kategori: pendidikan, iklim, dan inovasi terbuka
Melalui mekanisme pelaporan output dan bug bounty program, teknologi Llama terus ditingkatkan dengan bantuan komunitas

Keterbatasan dan hal yang perlu diperhatikan developer

Nilai inti Llama 3.3 dipaparkan sebagai keterbukaan, inklusivitas, dan kegunaan
Model ini dirancang agar dapat diakses oleh orang-orang dengan beragam latar belakang, pengalaman, dan perspektif
Llama 3.3 adalah teknologi baru, dan penggunaannya masih menyisakan risiko
- Pengujian sejauh ini belum mencakup semua skenario dan memang tidak mungkin mencakup semuanya
- Seperti LLM lain, output potensial tidak dapat diprediksi sebelumnya
- Dalam beberapa kasus, model dapat menghasilkan respons yang tidak akurat, bias, atau tidak menyenangkan
Sebelum menerapkan aplikasi model Llama 3.3, developer harus melakukan pengujian keamanan dan tuning yang disesuaikan untuk aplikasi tersebut
Materi terkait pengembangan yang bertanggung jawab tersedia di Responsible Use Guide, Trust and Safety, dan resources lainnya

1 komentar

GN⁺ 2024-12-07

Komentar Hacker News

Benchmark: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Performanya terlihat setara atau sedikit lebih baik daripada Llama 3.2 405B, dan itu benar-benar mengesankan
Menurut Zuck(https://www.instagram.com/p/DDPm9gqv2cW/), ini adalah rilis terakhir dari seri Llama 3, dan Llama 4 dijadwalkan hadir pada 2025 jadi cukup dinantikan
- Dengan GPU 4090 24GB dan memori CPU 64GB 7950x, saat model dibagi antara GPU/CPU di lm-studio hasilnya 2.12 tok/s
  Di GPU dimuat 40/80 layer, dan kualitas output sejauh ini terlihat baik
  Konfigurasi seperti ini cukup berguna untuk kueri yang tidak ingin dikirim lewat jaringan tetapi tetap menginginkan jawaban sebaik mungkin
  Jika nanti ada kuantisasi yang lebih baik atau konfigurasi memori GPU yang lebih besar, model besar seperti ini sepertinya bisa dipakai secara lokal sebagai asisten coding yang solid
  Model yang digunakan adalah lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.gguf
- Sebagai catatan, karena skema penamaan Llama, tidak ada model bernama Llama 3.2 405B
  Model 8B/70B/405B termasuk ke salah satu dari Llama 3, 3.1, atau 3.3 (405B tidak ada pada rilis awal), sedangkan Llama 3.2 hanya mencakup model 1B, 3B, 11B vision, dan 90B vision
  Strukturnya memang cukup membingungkan
- Karena performanya cukup dekat ke 405B, akan menarik membandingkan 3.3-70B tanpa kuantisasi dengan 405B yang dikuantisasi ke ukuran serupa untuk melihat mana yang lebih unggul
Ini mengingatkan pada ucapan terkenal Steve Jobs kepada Dropbox bahwa penyimpanan adalah “fitur, bukan produk”
Dengan merilis model sekuat ini sebagai open source, Zuckerberg pada dasarnya sedang mengkomoditaskan AI, sementara model bisnis nyata Meta tetap berpusat pada platform sosialnya
Mereka bisa memakai model-model ini untuk memperkuat layanan Facebook dan Instagram, sambil sekaligus mendapat manfaat dari perbaikan komunitas dan perhatian publik
Strateginya bukan menjual AI, melainkan memakai AI untuk memperkuat bisnis inti
Dengan membukanya, mereka mendapat keuntungan karena modelnya diadopsi dan dikembangkan luas tanpa harus memonetisasi model itu sendiri secara langsung
- Nilai dari upaya yang lebih aktif merangkul komunitas developer juga tidak boleh diremehkan
  Mungkin kebetulan, tetapi sejak mulai merilis model-model ini, saya lebih sering melihat orang menyebut “Meta” di HN, dan belakangan ini sikapnya juga jauh lebih positif dari biasanya
  Goodwill mungkin tidak seberharga sensorasi/moderasi otomatis murah atau fitur-fitur mencolok, tetapi tetap punya nilai yang jelas
- Sudah lama saya memikirkan apa sebenarnya model bisnis open source, dan juga penasaran kenapa Google mau mengeluarkan uang untuk Chrome
  Setelah melihat pernyataan Zuckerberg, terasa masuk akal bahwa open source berguna bagi perusahaan ketika bisa meningkatkan pendapatan atau menurunkan biaya
  Contoh peningkatan pendapatan adalah Chrome dan Visual Studio Code
  Misalnya, makin banyak orang yang melakukan coding, makin besar kemungkinan mereka membayar MSFT, jadi VS Code bertujuan membuat pemrograman semenarik mungkin
  Chrome juga mirip
  Contoh penurunan biaya adalah Linux dan Llama
  Seperti yang dikatakan Zuckerberg sendiri, mereka tidak ingin satu pihak tumbuh tak terkendali karena monopoli LLM, jadi mereka memilih membantu ekosistem open source terus bergerak
- Komoditaskan pelengkap: https://gwern.net/complement
- Sedikit keluhan mini yang agak berbeda dari ucapan “penyimpanan adalah fitur, bukan produk”: saya baru mengganti ponsel setelah 3 tahun, dan terkejut karena kapasitas penyimpanan masih umumnya dibatasi di sekitar 128GB
  Rasanya seperti kapasitas itu sengaja ditahan untuk mendorong layanan penyimpanan cloud
- Meta sangat meningkatkan kualitas iklan
  Saya jadi cukup sering melihat iklan Facebook dan Instagram lalu benar-benar berujung membeli, dan sejujurnya selama lebih dari 20 tahun terakhir saya belum pernah sekali pun sengaja mengklik iklan
Di berbagai benchmark, tampaknya hampir setara dengan GPT-4o: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
- Ditambah lagi 25 kali lebih murah, bisa dipakai offline, penyensoran/alignment bisa dilepas, dan bisa di-fine-tune maupun di-backup
  Ini hari yang menyedihkan bagi OpenAI, dan hari yang baik bagi umat manusia
- Tahun ini tampaknya berakhir dengan suasana yang sama seperti saat dimulai
  Sebagian besar evolusi AI sedang terjadi pada model yang lebih kecil
  Perubahan nyata mulai muncul ketika perusahaan menyadari nilai data pelatihan dan efisiensi yang jauh melampaui ukuran model hasil akhirnya
- Saya penasaran GPT-4o dalam benchmark itu versi yang mana
  Rilis 08-06 tampaknya sedikit lebih tinggi daripada materi itu di beberapa benchmark: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
- Ini membuat harga $200 per bulan jadi makin terasa konyol
Di benchmark kami, hasilnya jauh lebih baik dari perkiraan: https://help.kagi.com/kagi/ai/llm-benchmark.html
Masih perlu digali lebih dalam, tapi tetap mengesankan
- Ketika ditanya, “Karakter sorcerer di D&D 5e baru mencapai level 6, apa yang dia dapatkan?”, model ini mengarang cukup banyak hal dengan cukup meyakinkan
  GPT-4 juga sedikit mengarang, sedangkan Claude menjawab dengan tepat
Saya ketinggalan mengikuti perkembangan model di HuggingFace jadi penasaran
Saya ingin tahu apa saja yang bisa dilakukan dengan model seperti ini
Apakah bisa diunduh ke laptop dan dijalankan dengan JupyterLab, lalu apa keuntungannya, apakah bisa diperbarui secara berkala dengan data baru dari internet, apakah bisa di-fine-tune untuk penggunaan khusus seperti data geospasial, dan seberapa sulit serta berapa lama proses fine-tuning itu
Kalau ada jawaban untuk pertanyaan-pertanyaan ini di HuggingFace, akan bagus kalau ada URL-nya
Bagi saya HuggingFace terlihat seperti GitHub pada masa awal
Sebagian kecil orang memakainya dengan serius, sementara yang lain seperti garuk-garuk kepala karena tidak tahu cara memakainya
Ini pertanyaan pemula, tapi rasanya jawaban untuknya akan membantu banyak orang
- Bisa
  Komunitas membuat versi terkuantisasi yang bisa dijalankan di GPU konsumen
  Kuantisasi 4-bit untuk Llama 70B berjalan cukup baik di MacBook Pro, dan Neural Engine yang memakai memori terpadu CPU juga cukup solid untuk penggunaan seperti ini
  GPU agak lebih merepotkan karena memori GPU konsumen masih kecil
  Fine-tuning juga memungkinkan
  Framework seperti Unsloth mempermudah hal ini: https://github.com/unslothai/unsloth
  Fine-tuning bisa cukup rumit kalau ingin dilakukan dengan benar karena perlu memahami hal-hal seperti learning rate, tetapi ada banyak materi bagus di internet dari para hobiis yang berhasil melakukannya
  Tidak perlu gelar doktor machine learning, tetapi Anda memang membutuhkan data yang bisa direpresentasikan sebagai teks
  Sumber: saya bekerja sebagai direktur rekayasa model serving di Databricks
- Bisa, saya kurang tahu soal JupyterLab, dan soal keuntungannya saya lewati
  Pembaruan berkala pada praktiknya sulit, dan fine-tuning memang bisa, tapi cukup menyebalkan jadi lebih baik bayar orang lain saja untuk mengerjakannya
- HuggingFace pada dasarnya mirip GitHub untuk model
  Siapa pun bisa mengunggah apa saja, tetapi mereka cukup menstandarkan alat dan cara distribusinya
  Ada juga tim yang membantu integrasi agar rilis lebih mudah dipakai, dan mereka menyediakan library untuk fine-tuning
Saya sedang melacak harga per 1 juta token di OpenRouter, dan lucunya harganya turun hampir setiap beberapa kali refresh: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
Untuk yang tertarik, saya mengunggah bitsandbytes 4-bit, GGUF, dan bobot asli 16-bit ke https://huggingface.co/unsloth
Dengan Unsloth, Llama 3.3 70B bisa di-fine-tune dengan VRAM kurang dari 48GB, 2x lebih cepat, dan memakai memori 70% lebih sedikit
Merilis Llama sebagai open source, sejauh yang saya ingat, adalah salah satu contoh pelaksanaan terbaik dari strategi commoditize your complement
Untuk yang belum tahu strategi ini, saya tinggalkan tautan ke “Laws of Tech: Commoditize Your Complement” dari Gwern: https://gwern.net/complement
Meta terus memberikan hasil di atas ekspektasi
Sejak awal tujuannya adalah menarget dan mengguncang OpenAI/Anthropic dengan strategi pembumihangusan berupa merilis model terbuka yang kuat sejak awal
Pemenang terbesarnya adalah kita para developer
Pagi ini saya meluangkan beberapa menit untuk menyalakan server model H100, lalu mencoba menjalankannya di 2x H100 dengan versi kuantisasi FP8 dan bahkan kuantisasi KV cache, dan kecepatan serta kualitasnya terlihat menjanjikan
Saya berharap benchmark instruction-following yang lebih baik akan berujung pada peningkatan function calling dan kemampuan bergaya agent

Llama-3.3-70B-Instruct

Karakter model dan spesifikasi utama

Syarat akses dan kewajiban lisensi

Ruang lingkup yang diizinkan dan penggunaan yang dilarang

Cara menjalankan dan opsi serving

Data pelatihan, komputasi, dan emisi

Posisi yang terlihat di benchmark

Evaluasi keamanan dan tanggung jawab deployment

Penilaian risiko dan resource komunitas

Keterbatasan dan hal yang perlu diperhatikan developer

Bacaan terkait

1 komentar

Komentar Hacker News