Google Gemma 3 270M: Model Ringkas Diperkenalkan untuk AI yang Sangat Efisien
(developers.googleblog.com)- Gemma 3 270M adalah model ringan dengan 270 juta parameter, dilengkapi kemampuan mengikuti instruksi yang kuat dan fitur penataan teks
- Melalui kumpulan kosakata besar berukuran 256k token, model ini kuat dalam menangani token langka dan dirancang sebagai model berbasis fine-tuning yang disesuaikan untuk domain dan bahasa tertentu
- Efisiensi energi sangat tinggi; pada SoC Pixel 9 Pro, model terkuantisasi INT4 hanya menghabiskan 0,75% baterai untuk 25 sesi percakapan
- Cocok untuk strategi yang mengoperasikan banyak model kecil terspesialisasi alih-alih satu model umum berskala besar, sehingga sekaligus memperoleh kecepatan, biaya, dan akurasi
- Dioptimalkan untuk tugas tetap yang membutuhkan eksekusi on-device, eksperimen iteratif cepat, dan operasi berbiaya rendah, sehingga memungkinkan pembangunan beragam aplikasi AI
Ikhtisar Gemma 3 270M
- Model kecil terspesialisasi untuk fine-tuning yang baru diperkenalkan Google setelah Gemma 3 dan Gemma 3 QAT
- Dari 270M parameter, 170 juta dialokasikan untuk embedding dan 100 juta untuk blok transformer
- Kosakata besar berukuran 256k token memungkinkan penanganan token langka dan khusus
- Tersedia dalam versi pra-pelatihan (pretrained) dan yang telah disetel instruksi (instruction-tuned)
Fitur utama
- Struktur yang ringkas namun kuat: ideal untuk fine-tuning yang disesuaikan dengan domain/bahasa tertentu
- Efisiensi energi ekstrem: pada SoC Pixel 9 Pro, model INT4 hanya menggunakan 0,75% baterai untuk 25 sesi percakapan
- Kemampuan mengikuti instruksi: dioptimalkan untuk tugas berorientasi pekerjaan alih-alih percakapan umum, dan bahkan dalam kondisi dasar sudah mampu mengikuti instruksi
- Dukungan kuantisasi (QAT): meminimalkan penurunan performa pada presisi INT4, cocok untuk lingkungan dengan sumber daya terbatas
Filosofi ‘tepat guna’
- Menekankan pendekatan berpusat pada efisiensi dalam perancangan AI
- Model kecil memungkinkan respons cepat dan operasi berbiaya rendah
- Menunjukkan performa tinggi saat dispesialisasikan untuk tugas yang jelas seperti klasifikasi teks dan ekstraksi data
Contoh penerapan nyata
- Adaptive ML melakukan fine-tuning model Gemma 3 4B untuk moderasi konten multibahasa milik SK Telecom dan mencapai performa yang melampaui model proprietary berskala besar
- Model 270M memperluas pendekatan ini ke skala yang lebih kecil, sehingga memungkinkan pembuatan massal ‘model ahli’ untuk tiap kelompok tugas terspesialisasi
- Aplikasi Bedtime Story Generator berbasis web dari Hugging Face memungkinkan pembuatan konten real-time secara offline maupun di dalam browser web melalui Gemma 3 270M
Skenario penggunaan yang sesuai
- Pemrosesan tugas yang jelas dan dalam jumlah besar: ideal untuk tugas bidang tertentu seperti analisis sentimen, ekstraksi entitas, routing kueri, transformasi teks, kreasi, dan pemeriksaan kepatuhan
- Ekonomi dan kecepatan terbaik: dapat dijalankan dengan biaya sangat rendah pada infrastruktur ringan atau on-device, serta memberikan respons instan
- Pengembangan dan penerapan cepat: karena ukuran model kecil, eksperimen fine-tuning serta proses optimasi/pengujian dapat dilakukan dalam hitungan jam
- Perlindungan privasi: pemrosesan dapat dilakukan di perangkat tanpa pengiriman ke cloud, sehingga menguntungkan untuk menjaga informasi sensitif
- Operasi model terspesialisasi yang disesuaikan: memungkinkan pembangunan dan penerapan simultan berbagai model untuk tujuan berbeda tanpa beban anggaran besar
Fine-tuning dan deployment
- Model dapat diunduh dari Hugging Face, Ollama, Kaggle, LM Studio, Docker, dan lainnya
- Mendukung berbagai alat inferensi seperti Vertex AI, llama.cpp, Gemma.cpp, LiteRT, Keras, dan MLX
- Menyediakan panduan fine-tuning penuh berbasis Hugging Face, UnSloth, dan JAX
- Dapat dideploy secara fleksibel mulai dari lingkungan lokal hingga Google Cloud Run
Kesimpulan
- Gemma 3 270M adalah model dasar yang kecil tetapi kuat yang mempercepat pembangunan solusi AI yang dioptimalkan untuk tugas tertentu
- Pilihan ideal bagi pengembang yang ingin sekaligus mengejar biaya rendah, efisiensi tinggi, dan deployment cepat
3 komentar
Kalau bisa dibuat sebagai file
.task, saya bakal bebas mencobanya di smartphone Android..Karena ada file
.task(non-web) yang sudah dibuat seseorang, saya mencobanya di ponsel, dan jawabannya bagus: ringkas dan cepat.Tapi menurut saya
qwen3:0.6b(meskipun tentu ini mungkin lebih berat) tampaknya bekerja lebih baik.Komentar Hacker News
Saya ikut membuat model-model ini bersama tim yang luar biasa, dan karena tersedia untuk diunduh di seluruh ekosistem open model, saya sangat menyarankan semua orang untuk mencobanya. Kami merancangnya dengan target performa yang kuat dibanding ukurannya, dan agar siapa pun bisa dengan mudah melakukan fine-tuning sesuai use case masing-masing. Karena ukuran modelnya kecil, ia bisa dijalankan di beragam hardware, dan biaya fine-tuning-nya juga sangat murah. Anda bahkan bisa mencoba fine-tuning sendiri secara gratis di Colab dalam waktu kurang dari 5 menit. Untuk panduan memilih ukuran Gemma, silakan lihat video yang saya rekam sendiri yang memperkenalkan versi 1b ~ 27b, serta versi 270m yang baru ditambahkan tautan YouTube. Saya bekerja sebagai peneliti di Google, tetapi semua komentar di sini adalah pandangan pribadi saya. Saya akan berusaha membagikan sebanyak mungkin informasi dengan fokus pada pertanyaan teknis
Menurut saya model Gemma 3 benar-benar keren. Generasi bahasa Norwegia-nya juga lumayan, dan instruction following-nya umumnya bagus dalam kebanyakan kasus. Tapi tampaknya ada masalah yang terlihat terkait penyensoran, terutama pada topik serius model ini bertindak terlalu konservatif dan berbeda dari instruksi. Misalnya, saat diminta mengklasifikasikan apakah pesan percakapan dalam game tempat para pemain bisa saling membunuh merupakan ancaman nyata atau ancaman di dalam game, hasilnya tidak berjalan baik. Bahkan jika diberi instruksi untuk mengklasifikasikan sebagai terkait game saat konteksnya tidak jelas, model ini tetap cenderung bias ke arah keamanan. Kadang bahkan mengeluarkan hotline bantuan. Saya menduga ini efek dari pelatihan agar model bertindak aman, tapi penasaran apakah Anda tahu alasannya
Saya jadi teringat engineer Google keren yang saya temui di BSidesSF. Beliau menjawab pertanyaan dengan sangat tulus dan detail, dan saat saya klik videonya ternyata langsung Anda! Itu momen yang sangat menginspirasi, terima kasih
Saya penasaran apakah Anda bisa membagikan contoh nyata dari versi yang sudah di-fine-tune. Penjelasan saja juga cukup, tapi kalau ada demo atau bahkan model weight yang bisa diunduh (lebih bagus lagi kalau format GGUF), itu akan jadi yang terbaik
Ini benar-benar pekerjaan yang keren. Jarang ada model di kelas 270M parameter yang bisa seefisien ini. Pilihan arsitekturnya juga baru dan menarik. Saya penasaran apakah Anda bisa membagikan informasi pelatihan yang lebih detail. Parameter embedding-nya 170M, jadi saya ingin tahu bagaimana Anda menjaga matriks embedding tetap stabil selama pelatihan tanpa embedding collapse. Saya juga ingin tahu apakah ada materi yang membahas eksperimen internal atau trade-off performa terkait pembagian parameter (170m/100m). Terima kasih untuk seluruh seri model ini
Pekerjaan yang sangat mengesankan. Model ini terasa sangat bagus untuk tugas sekali jalan seperti peringkasan atau autocomplete. Sangat bagus juga bahwa versi quantized aware training dirilis sejak hari pertama, jadi modelnya menjadi lebih kecil
Percakapan saya dengan model 270M-F16 cukup mengesankan. Ketika saya bertanya, "Gunung tertinggi kedua di Bumi apa?", model ini terus menjawab "Everest". Saat ditanya "Kalau yang pertama?" jawabannya juga "Everest". "Yang ketiga?" "Yang keempat?" semuanya dijawab "Everest". Ketika saya bilang, "Bukankah tadi kamu bilang gunung tertinggi adalah Everest," responsnya adalah "Benar, senang". Bahkan ketika saya terus menanyakan gunung tertinggi kedua, model ini hanya mengulang jawaban "Everest". Pada akhirnya baru mengubah jawabannya saat saya meminta "daftar gunung peringkat 1~5": 1. Everest, 2. K2, 3. Sahel, 4. Fuji, 5. McKinley. Bahkan ketika saya berkata, "Jadi gunung tertinggi kedua adalah K2, kan?" model ini tetap menjawab "Everest". Model kecil seperti ini memang hebat, tapi rasanya benar-benar seperti berbicara dengan balita
Model ini punya sekitar 270M parameter, yaitu sekitar sepertiga dari 1B. Pada dasarnya ini hanya melakukan sedikit perkalian matriks, jadi kita tidak bisa berharap banyak pengetahuan, tata bahasa, atau konsistensi. Model di bawah 1B seperti ini adalah model khusus yang dioptimalkan untuk tujuan tertentu. Contohnya, cocok untuk mengubah teks masukan menjadi bentuk yang bisa digunakan program secara bermakna, seperti mengekstrak informasi dari ulasan pelanggan menjadi objek JSON. Model seperti ini akan memberi hasil bagus jika di-fine-tune sangat agresif terhadap data yang memang diharapkan. Pada akhirnya, kalau model 270MB bisa menghasilkan hasil yang diinginkan lewat fine-tuning, tidak ada alasan harus memakai model serbaguna 32GB
Menambahkan itu, sejak awal kami memang tidak menargetkan ketepatan fakta yang sempurna. Terlepas dari ukuran model, weight ini sudah fixed. Yang saya sarankan adalah menghubungkannya ke sistem RAG agar bergantung pada pengetahuan eksternal, atau melakukan fine-tuning sendiri hanya dengan fakta yang Anda inginkan. Ia juga cepat mempelajari pengetahuan baru
Menggunakan model 270M untuk tes pengetahuan ensiklopedis itu seperti melihat file JPG yang sangat terkompresi lalu berkomentar, "Kualitas gambarnya rusak ya"
Dari prompt-nya kelihatannya Anda sedang mencoba mengevaluasi pengetahuan, padahal model ini memang tidak dibuat untuk itu. Seperti disebut di blog post, model ini "menunjukkan performa unggul dari sisi akurasi, kecepatan, dan biaya pada tugas seperti klasifikasi teks atau ekstraksi data"
Untuk permintaan "buatkan itinerary 2 hari di Paris", model ini memberi jadwal perjalanan yang konkret per jam, mencakup atraksi terkenal di Paris, landmark, kunjungan museum, pengalaman kuliner beragam, jalan-jalan di kawasan Marais dan Latin Quarter, serta kunjungan ke Musée d'Orsay. Ia juga memberikan tips persiapan perjalanan dengan cukup teliti
Model ini benar-benar menyenangkan. Ukurannya sangat kecil, sekitar 241MB, sangat cepat, dan dengan bebas "berhalusinasi" tentang hampir semua hal. Misalnya, untuk permintaan "buatkan SVG pelikan yang naik sepeda", model ini justru menulis puisi (misalnya: 'Ini kucing, sayap besar dan ekor bahagia', 'Lampu sepeda bersinar terang', 'siap untuk berpetualang', dan sebagainya). Saya mengunggah hasil dari beberapa percobaan ke Gist. Ke depan saya berharap akan muncul model hasil fine-tuning yang bisa menghasilkan output berguna untuk tugas-tugas terpilih
Saya tertawa keras pada percobaan ini. Model ini menghasilkan sesuatu yang seperti puisi atau lagu, lalu menjelaskan bagaimana setiap baris tercermin dalam SVG, dan menutupnya dengan, "Kode SVG ini menyampaikan adegan dengan jelas dan visual"
Saya lihat Anda memakai ggufs dari ollamas. Secara default Anda akan mendapat model kuantisasi Q4_0, tetapi Anda bisa mendapatkan hasil yang lebih baik dengan
gemma3:270m-it-bf16atau ggufs dari unsloth dihf.co/unsloth/gemma-3-270m-it-GGUF:16Kadang model ini menghasilkan banyak token yang tidak berguna, tapi jumlah token yang dikeluarkannya benar-benar luar biasa banyak
Unduhan 241MB berarti butuh lebih dari 170 disket floppy
Untuk pertanyaan "Kapan Julius Caesar lahir?", jawabannya adalah "Julius Caesar lahir di Roma". Indah sekali :D (bukan untuk merendahkannya, maksudnya hanya bahwa akan perlu lebih banyak usaha untuk menjinakkannya)
Saya rasa Apple juga perlu membuat model seperti ini. Kalau tujuannya bukan mengganti kontrak pencarian dengan kontrak AI, aneh sekali Apple tampak nyaris tidak punya kehadiran. Tim Cook pernah bilang, "ini peluang yang harus kita ambil," tapi melihat langkah mereka belakangan ini, rasanya seperti kehilangan arah. Semangat Google
Ini komentar yang selalu muncul di setiap thread LLM di HN: orang bilang LLM masih bodoh dan tidak berguna. Saya tidak setuju dengan itu, tapi memang benar bahwa sampai sekarang belum ada perusahaan yang menemukan cara pemanfaatan AI yang sudah cukup terbukti bernilai untuk investasi jangka panjang. Apple punya sejarah masuk pasar terlambat (misalnya MP3, smartphone, smartwatch) lalu mengalahkan pesaing dengan produk inovatif
Model setingkat GPT2 sudah digunakan di autocomplete Apple tautan penjelasan detail
Kalau model "seperti ini" berarti SLM (small language model), maka benar bahwa Apple sudah lama melakukan riset terkait ini
Apple juga melakukannya. Bahkan ada dokumen resminya Foundation Models Doc. Jika memasang beta terbaru, Anda bahkan bisa memanggil API-nya langsung. Selain itu, untuk model yang berlaku di hampir semua perangkat, fine-tuning juga didukung secara resmi dokumen terkait
Apple tidak akan merilis model seperti ini. Seperti yang bisa dilihat dari komentar lain, performanya saat ini masih kurang. Sangat sulit menemukan model yang dalam penggunaan nyata bisa menghasilkan token dengan kecepatan yang layak, tanpa membuat perangkat panas, dan tanpa mengeluarkan omong kosong (saya sudah mencoba beberapa sendiri). Apple memang selalu tidak menyukai produk yang belum matang atau kualitasnya rendah, dan lebih memilih menunda rilis
Saya menggunakan DistilBERT untuk tugas klasifikasi tulisan wordpress. Datanya lebih dari 100 ribu, dan setelah fine-tuning hasilnya cukup untuk membuat laporan. Meski distribusinya tidak merata, itu masih bisa diatasi sampai batas tertentu dengan trik-trik tertentu. Ke depan saya akan mencoba menggantinya dengan model ini dan membandingkan performanya, lalu akan membagikan hasilnya jika ada perubahan
Saya penasaran apakah ada contoh realistis pengguna yang benar-benar melakukan fine-tuning pada model sekecil ini lalu memakainya di produksi
Saya pernah membuat reranker untuk sistem RAG dengan model kecil. Setelah candidate generation (vector search + BM25), business logic, dan filter ACL, model tiny ini dipakai untuk menyaring apakah potongan teks yang tersisa benar-benar relevan dengan kueri. Ini sempat masuk ke produksi, tetapi akhirnya modul tersebut dihapus karena ukuran konteks model makin besar dan ada masalah biaya serta kualitas. Meski begitu, memang sempat dijalankan untuk sementara waktu
Perusahaan kami melakukan scaling dengan menyaring memakai model kecil terlebih dahulu, lalu jika tingkat kepercayaannya tinggi, hasilnya diverifikasi dengan ChatGPT. Kami juga berencana menerapkan metode ini untuk deteksi bahasa. Model ML open source yang ada punya kelemahan pada bahasa campuran/panjang kalimat/domain tertentu (misalnya jika hanya dilatih pada terjemahan Alkitab, dan sebagainya)
Masih agak sulit memastikan akan dipakai untuk apa, tapi sepertinya cukup layak untuk hal seperti pembuatan tag. Encoder seukuran ini kadang malah jauh lebih unggul pada tugas-tugas spesifik lain
Kalau saya ingat dengan benar, Android (terutama Pixel) menggunakan model Gemma yang sudah di-fine-tune untuk hal-hal seperti asisten on-device
Untuk komentar di 9gag.com
Belakangan persaingan optimisasi model sangat ketat, jadi saya penasaran seberapa banyak parameter bisa dikurangi jika informasi bahasa/domain yang tidak perlu dibuang. Misalnya, kalau hanya mendukung bahasa Inggris, apakah dengan membuang bahasa Tionghoa atau bahasa-bahasa Eropa, model bisa menangani lebih banyak tugas dalam jumlah parameter yang sama
Pertanyaan ini memang persis inti yang paling kami pikirkan saat membuat model ini. Akan selalu ada trade-off tergantung pada "seberapa banyak tugas yang ingin ditangani dan seberapa baik hasil yang diinginkan". Anda perlu memilih data yang berbeda, strategi pelatihan yang berbeda, lalu mengukur performanya. Saya benar-benar menyarankan Anda melatih model pada kumpulan tugas Anda sendiri dan mengevaluasi trade-off performanya. Dengan mencoba sendiri seperti itu, Anda bisa langsung merasakan perubahan kemampuan LLM
Dalam praktiknya tidak sesederhana itu. Anda bisa melihat transfer learning
Saya benar-benar tidak menyangka pada tahun 2025 saya bisa menjalankan LLM yang diumumkan tahun ini di iPhone saya, dengan presisi penuh BF16. Di iPhone 16 Pro saya mendapat sekitar 80 token per detik
Tambahan untuk artikelnya, skor IFEval yang tepat untuk Gemma 3 270M adalah 51.2. Qwen 3 berada di titik (0.6, 59.2) pada scatter plot
Disebutkan bahwa pemilihan prompt sangat memengaruhi performa model ini. NER atau POS tagging terasa agak mengecewakan. Namun terjemahan bahasa non-Indo-Eropa (misalnya menerjemahkan bahasa Thai atau Indonesia ke bahasa Inggris) bekerja sangat mengejutkan dengan baik