Llama-3.3-70B-Instruct
(huggingface.co)- Llama-3.3-70B-Instruct yang dipublikasikan di Hugging Face adalah model pembangkitan teks multibahasa instruction-tuned berukuran 70B dari Meta, ditujukan untuk AI percakapan dan pemanfaatan generasi teks
- Dasarnya adalah model bahasa autoregresif Transformer yang dioptimalkan, dan versi tuning diselaraskan dengan preferensi kegunaan serta keamanan melalui SFT dan RLHF
- Pra-pelatihan menggunakan sekitar 15 triliun+ token data online publik, panjang konteksnya 128k, cutoff pengetahuan Desember 2023, dan mendukung 8 bahasa
- Untuk mengakses model di Hugging Face, pengguna harus menyetujui berbagi informasi kontak serta mematuhi Llama 3.3 Community License dan Acceptable Use Policy
- Dalam deployment nyata, model sebaiknya tidak digunakan sendirian, melainkan sebagai sistem AI yang mencakup guardrail keamanan, serta memerlukan pengujian dan tuning keamanan sesuai penggunaan
Karakter model dan spesifikasi utama
- Llama 3.3 adalah model bahasa besar multibahasa yang dikembangkan Meta, dan versi
70B Instructadalah model generatif instruction-tuned yang mendukung input teks dan output teks - Model ini dioptimalkan untuk use case percakapan multibahasa, dan dinilai memberikan performa lebih tinggi dibanding banyak model chat open source maupun tertutup pada benchmark industri umum
- Arsitekturnya adalah model bahasa autoregresif berbasis Transformer yang dioptimalkan
- Versi tuning menggunakan supervised fine-tuning (SFT) dan reinforcement learning with human feedback (RLHF)
- Semua versi model menggunakan Grouped-Query Attention (GQA) untuk meningkatkan skalabilitas inferensi
- Spesifikasi utama
- Parameter: 70B
- Input: teks multibahasa
- Output: teks multibahasa dan kode
- Panjang konteks: 128k
- Jumlah token pra-pelatihan: 15T+
- Cutoff pengetahuan: Desember 2023
- Tanggal rilis: 6 Desember 2024
- Bahasa yang didukung adalah Inggris, Jerman, Prancis, Italia, Portugis, Hindi, Spanyol, dan Thai
- Model ini adalah model statis yang dilatih dengan dataset offline, dan versi model tuning berikutnya direncanakan akan dirilis dengan mencerminkan masukan komunitas
Syarat akses dan kewajiban lisensi
- Untuk mengakses konten model ini di Hugging Face, pengguna harus menyetujui berbagi informasi kontak
- Informasi yang diberikan dikumpulkan, disimpan, diproses, dan dibagikan sesuai Meta Privacy Policy
- Lisensinya adalah Llama 3.3 Community License Agreement
- Llama Materials mencakup Llama 3.3 milik Meta, dokumentasi, dan bagiannya
- Lisensi ini memberikan hak terbatas yang non-eksklusif, berlaku global, tidak dapat dialihkan, dan bebas royalti untuk penggunaan, reproduksi, distribusi, penyalinan, pembuatan karya turunan, dan modifikasi
- Ada persyaratan tambahan saat redistribusi atau distribusi produk yang menyertakannya
- Jika mendistribusikan Llama Materials atau turunannya, atau menyediakan produk/layanan yang menyertakannya, salinan lisensi harus disertakan
- Situs web terkait, UI, posting blog, halaman about, dan dokumentasi produk harus secara mencolok menampilkan “Built with Llama”
- Jika menggunakan Llama Materials atau output/hasilnya untuk membuat, melatih, fine-tune, atau meningkatkan model AI lalu mendistribusikannya, nama model harus diawali dengan “Llama”
- Semua salinan yang didistribusikan harus mempertahankan pemberitahuan hak cipta dan lisensi yang ditentukan di dalam file teks “Notice”
- Penggunaan komersial berskala besar memiliki syarat tambahan
- Jika pada bulan sebelum tanggal rilis Llama 3.3, Licensee atau afiliasinya memiliki pengguna aktif bulanan lebih dari 700 juta pada produk/layanan yang mereka sediakan, maka harus meminta lisensi terpisah kepada Meta
- Hak tersebut tidak dapat dijalankan sampai Meta secara eksplisit memberikannya
- Perjanjian ditafsirkan menurut hukum negara bagian California, dan sengketa terkait berada di bawah yurisdiksi eksklusif pengadilan California
Ruang lingkup yang diizinkan dan penggunaan yang dilarang
- Llama 3.3 ditujukan untuk penggunaan komersial dan riset dalam berbagai bahasa
- Model teks-only instruction-tuned digunakan untuk chat bergaya asisten
- Model pretrained dapat disesuaikan untuk berbagai tugas generasi bahasa alami
- Output model juga dapat digunakan untuk peningkatan model lain seperti generasi data sintetis dan distillation
- Penggunaan di luar cakupan meliputi hal berikut
- Penggunaan yang melanggar hukum atau regulasi yang berlaku, termasuk aturan kepatuhan perdagangan
- Penggunaan yang dilarang oleh Acceptable Use Policy dan Llama 3.3 Community License
- Penggunaan di luar bahasa yang secara eksplisit didukung dalam model card
- Model ini dilatih pada kumpulan bahasa yang lebih luas daripada 8 bahasa yang didukung, tetapi saat menggunakan bahasa tambahan, developer harus mematuhi lisensi dan kebijakan serta memastikan penggunaan yang aman dan bertanggung jawab
- Acceptable Use Policy melarang penggunaan berikut
- Kekerasan, terorisme, eksploitasi anak, perdagangan manusia, kekerasan seksual, penyebaran informasi ilegal, ajakan seksual, dan aktivitas kriminal lainnya
- Pelecehan, perlakuan abusif, ancaman, perundungan
- Diskriminasi atau tindakan ilegal/berbahaya dalam pekerjaan, kredit, perumahan, dan penyediaan barang/jasa esensial
- Praktik profesi tanpa izin
- Mengumpulkan, memproses, mengungkapkan, menghasilkan, atau menyimpulkan informasi sensitif atau privat seseorang tanpa hak yang sah
- Pelanggaran atau penyalahgunaan hak pihak ketiga
- Pembuatan malicious code, malware, virus komputer, atau gangguan terhadap operasi sistem
- Tindakan untuk mengakali atau menghapus pembatasan penggunaan maupun langkah keamanan
- Aktivitas yang berisiko menyebabkan kematian atau cedera fisik juga dilarang
- Militer, perang, industri atau aplikasi nuklir, intelijen, aktivitas yang tercakup ITAR
- Senjata api dan senjata ilegal, obat terlarang, zat yang diatur
- Infrastruktur kritis, teknologi transportasi, pengoperasian alat berat
- Konten yang mendorong menyakiti diri sendiri atau orang lain, kekerasan, pelecehan, atau cedera fisik
- Larangan terkait penipuan juga termasuk
- Membuat atau mempromosikan penipuan maupun misinformasi
- Membuat konten pencemaran nama baik
- Membuat atau menyebarkan spam
- Menyamar tanpa persetujuan atau hak hukum
- Menandai penggunaan atau output Llama 3.3 sebagai sesuatu yang dibuat manusia
- Membuat keterlibatan online palsu seperti ulasan palsu
- Model multimodal yang termasuk dalam Llama 3.3 tidak memberikan hak pada Section 1(a) kepada individu yang tinggal di UE atau perusahaan yang berkantor utama di UE
- Pembatasan ini tidak berlaku bagi pengguna akhir produk/layanan yang menyertakan model multimodal tersebut
Cara menjalankan dan opsi serving
- Repositori ini mencakup dua versi Llama-3.3-70B-Instruct: untuk
transformersdan untuk codebasellamaasli - Mulai
transformers >= 4.45.0, inferensi percakapan dapat dijalankan dengan abstraksi Transformerspipelineatau kelas Auto dan fungsigenerate()- Pembaruan instalasi dilakukan dengan
pip install --upgrade transformers - Contohnya membuat pipeline
text-generationdengantorch.bfloat16dandevice_map="auto"
- Pembaruan instalasi dilakukan dengan
- Tool use di Transformers juga didukung
- Mendukung beberapa format tool use, dan panduan format prompt tersedia di LLaMA prompt format docs
- Tool use dapat ditangani melalui chat templates milik Transformers
- Jika model menghasilkan pemanggilan tool, tambahkan
tool_callspada pesan assistant, lalu tambahkan hasil eksekusi tool sebagai pesan berperantool, kemudian panggil lagigenerate()
- Dengan
bitsandbytesdantransformers, checkpoint dapat dimuat dalam 8-bit dan 4-bit untuk optimasi memori lebih lanjut- Pemuatan 8-bit menggunakan
BitsAndBytesConfig(load_in_8bit=True) - Pemuatan 4-bit dilakukan dengan memberikan
load_in_4bit=True
- Pemuatan 8-bit menggunakan
- Untuk menggunakan codebase
llamaasli, ikuti panduan di Meta Llama repository- Checkpoint asli dapat diunduh dalam bentuk
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
- Checkpoint asli dapat diunduh dalam bentuk
- Opsi aplikasi lokal dan serving juga tersedia
- vLLM memulai server dengan
vllm serve "meta-llama/Llama-3.3-70B-Instruct"dan dipanggil melalui API OpenAI-compatible/v1/chat/completions - SGLang menjalankan server dengan
python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct"dan dipanggil melalui API OpenAI-compatible - Docker Model Runner menggunakan
docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct
- vLLM memulai server dengan
Data pelatihan, komputasi, dan emisi
- Data pra-pelatihan terdiri dari sekitar 15 triliun token dari sumber publik
- Data fine-tuning mencakup dataset instruction publik dan lebih dari 25 juta contoh generasi sintetis
- Kebaruan data berlaku hingga Desember 2023 berdasarkan data pra-pelatihan
- Pelatihan menggunakan library pelatihan kustom, klaster GPU kustom Meta, dan infrastruktur produksi
- Fine-tuning, anotasi, dan evaluasi juga dilakukan pada infrastruktur produksi
- Berdasarkan hardware H100-80GB, pelatihan menggunakan total komputasi kumulatif 39.3M GPU-jam
- Waktu pelatihan untuk item Llama 3.3 70B adalah 7.0M GPU-jam
- Konsumsi daya pelatihan ditunjukkan sebagai 700W per GPU
- Emisi gas rumah kaca dari pelatihan dibedakan menurut metode perhitungannya
- Estimasi total emisi berbasis lokasi adalah 11,390 tons CO2eq
- Emisi berbasis lokasi untuk item Llama 3.3 70B adalah 2,040 tons CO2eq
- Karena Meta mempertahankan emisi bersih nol dalam operasi global sejak 2020 dan mencocokkan 100% penggunaan listriknya dengan energi terbarukan, emisi pelatihan berbasis pasar adalah 0 tons CO2eq
- Metodologi perhitungan energi dan gas rumah kaca dijelaskan dalam paper
- Karena Meta merilis model ini secara terbuka, penggunaan energi pelatihan dan emisi gas rumah kaca tidak ditanggung oleh pengguna lain
Posisi yang terlihat di benchmark
- Benchmark teks bahasa Inggris membandingkan Llama 3.3 dengan model-model sebelumnya
- Hasil utama Llama-3.3 70B Instruct
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
- Beberapa perbandingan dengan model sebelumnya dan model yang lebih besar
- Pada HumanEval, Llama 3.1 70B Instruct mendapat 80.5, Llama-3.3 70B Instruct mendapat 88.4, dan Llama 3.1 405B Instruct mendapat 89.0
- Pada MATH, Llama 3.1 70B Instruct mendapat 68.0, Llama-3.3 70B Instruct mendapat 77.0, dan Llama 3.1 405B Instruct mendapat 73.8
- Pada MGSM, Llama 3.1 70B Instruct mendapat 86.9, Llama-3.3 70B Instruct mendapat 91.1, dan Llama 3.1 405B Instruct mendapat 91.6
Evaluasi keamanan dan tanggung jawab deployment
- Pendekatan rilis yang bertanggung jawab dari Meta mengikuti tiga strategi untuk mengelola risiko trust dan safety
- Mendukung developer agar dapat menerapkan pengalaman yang berguna, aman, dan fleksibel sesuai pengguna sasaran dan use case yang didukung Llama
- Melindungi developer dari pengguna adversarial yang berniat menyalahgunakan kemampuan Llama
- Memberikan perlindungan komunitas untuk membantu mencegah penyalahgunaan model
- Llama 3.3 dirancang sebagai teknologi dasar untuk berbagai use case
- Keamanan model diselaraskan dengan use case umum dan kategori bahaya standar
- Developer harus mendefinisikan kebijakan yang sesuai untuk use case mereka sendiri dan menerapkan sistem Llama dengan perlindungan yang diperlukan
- Panduan terkait tersedia di Responsible Use Guide
- Fine-tuning keamanan pada Llama 3.3 Instruct berfokus pada penyediaan sumber daya untuk meneliti ketahanan fine-tuning keamanan dan mengurangi beban developer dalam menerapkan sistem AI yang aman
- Data fine-tuning menggabungkan data buatan manusia dari vendor dan data sintetis
- Classifier berbasis LLM digunakan untuk menyaring prompt dan respons berkualitas tinggi
- Strategi data keamanan mencakup prompt borderline dan adversarial
- Respons data keamanan dimodifikasi agar mengikuti pedoman nada penolakan
- Model bahasa besar termasuk Llama 3.3 tidak dirancang untuk deployment secara mandiri
- Model harus diterapkan sebagai bagian dari sistem AI yang lebih lengkap bersama guardrail keamanan tambahan
- Saat membangun sistem agen, developer harus menerapkan perlindungan sistem
- Meta menyediakan Llama Guard 3, Prompt Guard, dan Code Shield melalui resource trust and safety
- Demo reference implementations menyertakan perlindungan ini secara default
- Dalam fitur tool use, developer bertanggung jawab atas integrasi antara LLM dan tool/layanan yang dipilih
- Kebijakan yang jelas harus ditetapkan untuk tiap use case
- Integritas serta batas safety dan security dari layanan pihak ketiga harus dievaluasi
- Dalam kemampuan multibahasa, output dapat muncul juga dalam bahasa di luar 8 bahasa yang didukung
- Untuk percakapan dalam bahasa yang belum memenuhi standar keamanan dan kegunaan, fine-tuning dan kontrol sistem harus diterapkan
- Meta sangat tidak menganjurkan penggunaan percakapan dalam bahasa yang tidak didukung
Penilaian risiko dan resource komunitas
- Evaluasi dilakukan untuk use case umum dan fungsi tertentu
- Evaluasi use case umum mengukur risiko keamanan pada aplikasi yang paling umum seperti chatbot, coding assistant, dan pemanggilan tool
- Dataset evaluasi adversarial khusus dibangun, dan sistem yang terdiri dari model Llama serta Llama Guard 3 dievaluasi
- Penting untuk mengevaluasi aplikasi dalam konteksnya, dan disarankan membangun dataset evaluasi khusus sesuai use case
- Latihan red team dilakukan secara berulang
- Tujuannya adalah menemukan risiko melalui adversarial prompting
- Hasil pelatihan digunakan untuk meningkatkan benchmark dan dataset tuning keamanan
- Tim red team terdiri dari pakar keamanan siber, adversarial machine learning, responsible AI, integrity, dan pakar konten multibahasa
- Area risiko yang menjadi fokus mitigasi
- CBRNE: untuk menilai risiko proliferasi senjata kimia dan biologis, dilakukan uplift testing guna menilai apakah penggunaan model seri Llama 3 secara bermakna meningkatkan kemampuan pelaku jahat
- Child Safety: tim ahli mengevaluasi kemampuan output yang dapat menimbulkan risiko keselamatan anak dan meninjau perlunya mitigasi melalui fine-tuning
- Cyber attack enablement: diselidiki apakah model meningkatkan tingkat keterampilan teknis dan kecepatan kemampuan manusia dalam tugas peretasan, serta dievaluasi apakah model dapat melakukan serangan siber kompleks sebagai agen otonom dalam konteks serangan ransomware
- Meta berpartisipasi dalam konsorsium terbuka seperti AI Alliance, Partnership on AI, dan MLCommons, serta berkontribusi pada standardisasi keamanan dan transparansi
- Tool Purple Llama di-open-source-kan untuk penggunaan komunitas, dan kontribusi komunitas diterima melalui PurpleLlama GitHub repository
- Llama Impact Grants mencari dan mendukung aplikasi Llama untuk manfaat sosial dalam tiga kategori: pendidikan, iklim, dan inovasi terbuka
- Melalui mekanisme pelaporan output dan bug bounty program, teknologi Llama terus ditingkatkan dengan bantuan komunitas
Keterbatasan dan hal yang perlu diperhatikan developer
- Nilai inti Llama 3.3 dipaparkan sebagai keterbukaan, inklusivitas, dan kegunaan
- Model ini dirancang agar dapat diakses oleh orang-orang dengan beragam latar belakang, pengalaman, dan perspektif
- Llama 3.3 adalah teknologi baru, dan penggunaannya masih menyisakan risiko
- Pengujian sejauh ini belum mencakup semua skenario dan memang tidak mungkin mencakup semuanya
- Seperti LLM lain, output potensial tidak dapat diprediksi sebelumnya
- Dalam beberapa kasus, model dapat menghasilkan respons yang tidak akurat, bias, atau tidak menyenangkan
- Sebelum menerapkan aplikasi model Llama 3.3, developer harus melakukan pengujian keamanan dan tuning yang disesuaikan untuk aplikasi tersebut
- Materi terkait pengembangan yang bertanggung jawab tersedia di Responsible Use Guide, Trust and Safety, dan resources lainnya
1 komentar
Komentar Hacker News
Benchmark: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Performanya terlihat setara atau sedikit lebih baik daripada Llama 3.2 405B, dan itu benar-benar mengesankan
Menurut Zuck(https://www.instagram.com/p/DDPm9gqv2cW/), ini adalah rilis terakhir dari seri Llama 3, dan Llama 4 dijadwalkan hadir pada 2025 jadi cukup dinantikan
Di GPU dimuat 40/80 layer, dan kualitas output sejauh ini terlihat baik
Konfigurasi seperti ini cukup berguna untuk kueri yang tidak ingin dikirim lewat jaringan tetapi tetap menginginkan jawaban sebaik mungkin
Jika nanti ada kuantisasi yang lebih baik atau konfigurasi memori GPU yang lebih besar, model besar seperti ini sepertinya bisa dipakai secara lokal sebagai asisten coding yang solid
Model yang digunakan adalah
lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.ggufModel 8B/70B/405B termasuk ke salah satu dari Llama 3, 3.1, atau 3.3 (405B tidak ada pada rilis awal), sedangkan Llama 3.2 hanya mencakup model 1B, 3B, 11B vision, dan 90B vision
Strukturnya memang cukup membingungkan
Ini mengingatkan pada ucapan terkenal Steve Jobs kepada Dropbox bahwa penyimpanan adalah “fitur, bukan produk”
Dengan merilis model sekuat ini sebagai open source, Zuckerberg pada dasarnya sedang mengkomoditaskan AI, sementara model bisnis nyata Meta tetap berpusat pada platform sosialnya
Mereka bisa memakai model-model ini untuk memperkuat layanan Facebook dan Instagram, sambil sekaligus mendapat manfaat dari perbaikan komunitas dan perhatian publik
Strateginya bukan menjual AI, melainkan memakai AI untuk memperkuat bisnis inti
Dengan membukanya, mereka mendapat keuntungan karena modelnya diadopsi dan dikembangkan luas tanpa harus memonetisasi model itu sendiri secara langsung
Mungkin kebetulan, tetapi sejak mulai merilis model-model ini, saya lebih sering melihat orang menyebut “Meta” di HN, dan belakangan ini sikapnya juga jauh lebih positif dari biasanya
Goodwill mungkin tidak seberharga sensorasi/moderasi otomatis murah atau fitur-fitur mencolok, tetapi tetap punya nilai yang jelas
Setelah melihat pernyataan Zuckerberg, terasa masuk akal bahwa open source berguna bagi perusahaan ketika bisa meningkatkan pendapatan atau menurunkan biaya
Contoh peningkatan pendapatan adalah Chrome dan Visual Studio Code
Misalnya, makin banyak orang yang melakukan coding, makin besar kemungkinan mereka membayar MSFT, jadi VS Code bertujuan membuat pemrograman semenarik mungkin
Chrome juga mirip
Contoh penurunan biaya adalah Linux dan Llama
Seperti yang dikatakan Zuckerberg sendiri, mereka tidak ingin satu pihak tumbuh tak terkendali karena monopoli LLM, jadi mereka memilih membantu ekosistem open source terus bergerak
Rasanya seperti kapasitas itu sengaja ditahan untuk mendorong layanan penyimpanan cloud
Saya jadi cukup sering melihat iklan Facebook dan Instagram lalu benar-benar berujung membeli, dan sejujurnya selama lebih dari 20 tahun terakhir saya belum pernah sekali pun sengaja mengklik iklan
Di berbagai benchmark, tampaknya hampir setara dengan GPT-4o: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
Ini hari yang menyedihkan bagi OpenAI, dan hari yang baik bagi umat manusia
Sebagian besar evolusi AI sedang terjadi pada model yang lebih kecil
Perubahan nyata mulai muncul ketika perusahaan menyadari nilai data pelatihan dan efisiensi yang jauh melampaui ukuran model hasil akhirnya
Rilis 08-06 tampaknya sedikit lebih tinggi daripada materi itu di beberapa benchmark: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
Di benchmark kami, hasilnya jauh lebih baik dari perkiraan: https://help.kagi.com/kagi/ai/llm-benchmark.html
Masih perlu digali lebih dalam, tapi tetap mengesankan
GPT-4 juga sedikit mengarang, sedangkan Claude menjawab dengan tepat
Saya ketinggalan mengikuti perkembangan model di HuggingFace jadi penasaran
Saya ingin tahu apa saja yang bisa dilakukan dengan model seperti ini
Apakah bisa diunduh ke laptop dan dijalankan dengan JupyterLab, lalu apa keuntungannya, apakah bisa diperbarui secara berkala dengan data baru dari internet, apakah bisa di-fine-tune untuk penggunaan khusus seperti data geospasial, dan seberapa sulit serta berapa lama proses fine-tuning itu
Kalau ada jawaban untuk pertanyaan-pertanyaan ini di HuggingFace, akan bagus kalau ada URL-nya
Bagi saya HuggingFace terlihat seperti GitHub pada masa awal
Sebagian kecil orang memakainya dengan serius, sementara yang lain seperti garuk-garuk kepala karena tidak tahu cara memakainya
Ini pertanyaan pemula, tapi rasanya jawaban untuknya akan membantu banyak orang
Komunitas membuat versi terkuantisasi yang bisa dijalankan di GPU konsumen
Kuantisasi 4-bit untuk Llama 70B berjalan cukup baik di MacBook Pro, dan Neural Engine yang memakai memori terpadu CPU juga cukup solid untuk penggunaan seperti ini
GPU agak lebih merepotkan karena memori GPU konsumen masih kecil
Fine-tuning juga memungkinkan
Framework seperti Unsloth mempermudah hal ini: https://github.com/unslothai/unsloth
Fine-tuning bisa cukup rumit kalau ingin dilakukan dengan benar karena perlu memahami hal-hal seperti learning rate, tetapi ada banyak materi bagus di internet dari para hobiis yang berhasil melakukannya
Tidak perlu gelar doktor machine learning, tetapi Anda memang membutuhkan data yang bisa direpresentasikan sebagai teks
Sumber: saya bekerja sebagai direktur rekayasa model serving di Databricks
Pembaruan berkala pada praktiknya sulit, dan fine-tuning memang bisa, tapi cukup menyebalkan jadi lebih baik bayar orang lain saja untuk mengerjakannya
Siapa pun bisa mengunggah apa saja, tetapi mereka cukup menstandarkan alat dan cara distribusinya
Ada juga tim yang membantu integrasi agar rilis lebih mudah dipakai, dan mereka menyediakan library untuk fine-tuning
Saya sedang melacak harga per 1 juta token di OpenRouter, dan lucunya harganya turun hampir setiap beberapa kali refresh: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
Untuk yang tertarik, saya mengunggah bitsandbytes 4-bit, GGUF, dan bobot asli 16-bit ke https://huggingface.co/unsloth
Dengan Unsloth, Llama 3.3 70B bisa di-fine-tune dengan VRAM kurang dari 48GB, 2x lebih cepat, dan memakai memori 70% lebih sedikit
Merilis Llama sebagai open source, sejauh yang saya ingat, adalah salah satu contoh pelaksanaan terbaik dari strategi commoditize your complement
Untuk yang belum tahu strategi ini, saya tinggalkan tautan ke “Laws of Tech: Commoditize Your Complement” dari Gwern: https://gwern.net/complement
Meta terus memberikan hasil di atas ekspektasi
Sejak awal tujuannya adalah menarget dan mengguncang OpenAI/Anthropic dengan strategi pembumihangusan berupa merilis model terbuka yang kuat sejak awal
Pemenang terbesarnya adalah kita para developer
Pagi ini saya meluangkan beberapa menit untuk menyalakan server model H100, lalu mencoba menjalankannya di 2x H100 dengan versi kuantisasi FP8 dan bahkan kuantisasi KV cache, dan kecepatan serta kualitasnya terlihat menjanjikan
Saya berharap benchmark instruction-following yang lebih baik akan berujung pada peningkatan function calling dan kemampuan bergaya agent