Krea 2: Laporan teknis model gambar open-weight 12B

(krea.ai)

1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Krea 2 adalah model fondasi pembuat gambar yang menekankan eksplorasi kreatif alih-alih satu default yang sudah polished, dan merilis bobot model serta inferensi dengan permissive license
Proses pelatihannya berlanjut melalui pretraining → midtraining → SFT → preference optimization → RL, sementara kurasi data, caption, perluasan prompt, dan referensi style menyempurnakan distribusi output secara bertahap
Arsitekturnya dibangun di atas keluarga DiT yang sederhana, lalu menggabungkan GQA, gated sigmoid attention, SwiGLU, Qwen 3 VL, Qwen Image VAE, FLUX 2 VAE, dan lainnya untuk menyeimbangkan stabilitas serta efisiensi
Krea 2 masuk top 10 pada Artificial Analysis leaderboard untuk kategori text-to-image, dan mencatat peringkat 2 di antara model dari lab independen
Untuk pelatihan skala besar, mereka membangun sistem berbasis PyTorch, FSDP2, tensor parallelism, Kubernetes, Virtual Kubelet, Weka, dan PostgreSQL, serta meninjau MoE, sparse attention, native 2K–4K, NVFP4, dan Muon scaling sebagai langkah berikutnya

Model fondasi gambar untuk eksplorasi kreatif

Krea 2 adalah seri model fondasi pembuat gambar yang menargetkan keragaman estetika yang luas dan kontrol kreatif pengguna
Materi publik tersedia melalui Release page, Hugging Face weights/license, GitHub code/license, dan Krea Image tool
Bobot model dan inferensi dirilis dengan permissive license
Krea menilai bahwa model gambar berbasis diffusion dan flow-matching telah berkembang hingga mampu menghasilkan gambar resolusi tinggi, photorealism, struktur yang stabil, rendering teks yang padat, pengetahuan dunia yang luas, dan kepatuhan prompt yang detail, tetapi banyak sistem akhirnya menyempit ke estetika default yang sempit
Alih-alih mengoptimalkan satu default yang sudah polished, Krea 2 diarahkan sebagai medium generatif untuk menjelajahi beragam style, suasana, komposisi, dan arah visual
Krea 2 masuk top 10 pada Artificial Analysis leaderboard untuk kategori text-to-image, dan mencatat peringkat 2 di antara model dari lab independen

Strategi kurasi data dan caption

Tim Krea membangun dari nol infrastruktur data skala besar dan framework pelatihan terdistribusi untuk membuat pretraining dataset dengan broad world knowledge dan style coverage
Mereka menilai bahwa “good data mix” membutuhkan bukan hanya gambar berkualitas tinggi, tetapi juga keragaman dan cakupan domain yang luas
Pemfilteran berbasis aesthetic score dan image quality assessment dapat menciptakan implicit bias
- motion blur atau softness bisa menjadi pilihan artistik yang disengaja, tetapi dapat dinilai rendah sebagai blurry image
- jika caption menjelaskan gambar dengan akurat, gambar yang kurang diinginkan pun bisa membantu pembelajaran downstream
Dalam pretraining dataset, mereka memfilter duplicated samples, konsep yang over-represented, sampel yang VLM-nya gagal menangkap elemen penting, sampel yang memicu undesired biases dan artifacts, sampel dengan high visual complexity yang sulit dimodelkan secara stabil pada resolusi rendah, serta AI-generated samples
Krea 2 tidak menggunakan AI-generated images dalam campuran pretraining
- synthetic data dan distillation bisa menjadi jalan pintas untuk memperoleh capability
- mereka menilai bahkan sejumlah kecil AI-generated images dapat memasukkan bias ke distribusi output model dan secara efektif menetapkan upper bound kualitas model
- untuk menyaringnya, mereka merancang classifier in-house
Caption disusun dengan pendekatan multi-stage
- OCR model dijalankan pada target image untuk mengekstrak visible text
- hasil OCR dan metadata diberikan ke captioning model untuk membuat enriched caption yang mencakup extracted text dan world knowledge
- context-rich long-form caption kemudian direkonstruksi dengan LLM yang lebih murah ke dalam berbagai panjang dan format agar model terpapar pada beragam style prompt
Long prompt memberikan dense supervision sehingga menghasilkan konvergensi lebih cepat dan training loss lebih rendah, sambil tetap mempertahankan paparan short/medium prompt untuk penggunaan downstream

Data pelatihan per resolusi dan midtraining

data pretraining melalui tahap resolusi 256px, 512px, 1024px
- sebagian besar FLOPs dialokasikan ke tahap resolusi rendah untuk mempelajari kapabilitas inti secara efisien
- setelah itu, resolusi ditingkatkan untuk memberikan kapabilitas generasi dengan fidelitas tinggi
- pretraining resolusi rendah mempelajari basic text-image alignment dan struktur
dataset resolusi rendah berskala billions of images sehingga sangat bergantung pada filter berbasis CPU berbiaya rendah
- filter broken-file, resolution, dan aspect-ratio digunakan untuk menghapus gambar yang tidak sesuai
- filter Laplacian digunakan untuk menghapus gambar dengan tekstur ekstrem dan pola noise
- RGB entropy, rasio piksel putih/hitam, custom heuristics, dan classifier internal digunakan untuk mengurangi latar belakang warna datar dan artefak tepi
classifier internal dibangun dengan cara membuat system prompt untuk tugas filtering menggunakan VLM besar, menghasilkan pseudo-labeled dataset, lalu melatih classifier kecil berbasis DINOv3 atau SigLIP-2
- pada tahap resolusi rendah, model filtering yang membutuhkan GPU compute dijaga tetap di bawah 1B parameters demi efisiensi
deduplikasi resolusi rendah terutama menggunakan hash-based methods yang menggabungkan md5, phash, dan colorhash
- phash 8x8 dasar tidak mempertimbangkan warna sehingga false-positive rate tinggi
- untuk deduplikasi yang lebih robust, digunakan kombinasi phash 12x12 dan colorhash
seiring meningkatnya resolusi training, diperkenalkan filter image-quality dan aesthetic
- quality score hanya digunakan untuk menghapus gambar dengan kualitas sangat buruk, dan tidak digunakan untuk oversampling berbasis skor
- image-complexity score berbasis OCR dan text density digunakan untuk mengecualikan gambar yang sulit merepresentasikan teks dan konten secara bermakna pada resolusi rendah
dengan melatih sparse autoencoder di atas embedding SigLIP-2, dibuat sistem penandaan berbasis SAE yang dimanfaatkan untuk memfilter artefak visual yang jelas tanpa classifier eksplisit
berbeda dari pretraining, midtraining secara eksplisit memilih sumber gambar yang memberikan cakupan stilistika yang baik dan gambar berkualitas tinggi pada domain visual tertentu
- pretraining adalah proses bottom-up yang dimulai dari general pool
- midtraining adalah kurasi top-down yang lebih dulu memilih domain dan sumber
- tahap ini menjembatani secara halus distribusi general pretraining dan distribusi SFT berkualitas tinggi
semantic clustering dan retrieval-based strategies digunakan untuk memperkuat cakupan world knowledge
- hierarchical k-means clustering dijalankan dengan FAISS
- VLM memeriksa gambar di sekitar cluster centroid untuk memberi nama pada cluster dan menandainya bila perlu
- cluster yang ditandai melewati human review untuk menghapus cluster berkualitas rendah atau bermasalah
- di dalam leaf cluster yang tersisa, semantic deduplication dilakukan dengan similarity SigLIP
untuk cakupan named entity, PageRank dijalankan di English Wikipedia dengan Danker dan 90% article teratas berdasarkan peringkat dipertahankan
- subject yang tidak dapat direpresentasikan dihapus menggunakan metadata Wikidata
- untuk sekitar 5 million concepts yang tersisa, full-text search dijalankan pada caption seluruh dataset
- saat sampling, gambar dari caption yang menyebut rare concepts diprioritaskan

Pemilihan arsitektur dan ablation

Krea 2 mengembangkan arsitektur diffusion transformer (DiT) yang sederhana namun berkinerja baik melalui ablation
ablation arsitektur dievaluasi dalam empat kategori: stability, performance, efficiency, dan simplicity
- stability menilai pengurangan loss/gradient spike dan kestabilan pelatihan
- performance menilai kecepatan konvergensi serta apakah performa tetap terjaga pada resolusi tinggi dan horizon jangka panjang
- efficiency menilai apakah parameter count, FLOPs, memory, dan communication dapat dikurangi tanpa menurunkan quality
- simplicity memeriksa apakah model dapat disederhanakan tanpa merusak kategori lain
Banyak keputusan arsitektur dipengaruhi oleh tren adopsi di ranah LLM, dan mereka menilai kernel serta optimisasi dalam ekosistem LLM juga dapat dimanfaatkan pada diffusion model
Pilihan utama pada arsitektur final adalah sebagai berikut
- Attention menggunakan GQA with gated sigmoid attention
- MLP diubah dari GeLU MLP menjadi layer SwiGLU dengan 4x expansion factor
- Residual tetap menggunakan standard residual
- Text encoder menggunakan Qwen 3 VL
- Modulation diubah dari per-block MLP modulation menjadi light modulation with bias
- Autoencoder menggunakan Qwen Image VAE dan FLUX 2 VAE
- Block design menggunakan single stream transformer block
- Norm menggunakan zero-center RMSNorm dan QKNorm
- Positional encoding tetap menggunakan 3D Axial RoPE
GQA meningkatkan computational efficiency dengan hanya menimbulkan degradasi minimal
- MLA menunjukkan sedikit peningkatan dibanding GQA, tetapi tidak diadopsi karena additional computational overhead
- gated sigmoid attention tidak menunjukkan performance gain yang besar, tetapi memperlihatkan dynamics yang lebih stabil pada kurva loss dan gradient-norm
Di antara desain single-stream, dual-stream, dan hybrid-stream tidak ada perbedaan performa yang besar, dan meskipun hybrid-stream sedikit lebih baik, single-stream blocks dipakai demi kesederhanaan
per-block MLP modulation pada MMDiT dapat mencakup 20–30% dari total parameter count, sehingga Krea 2 menggantinya dengan per-block tunable bias term
Dalam eksperimen timestep conditioning, pada 256px sebanyak 4–16 timestep tokens cukup untuk menggantikan AdaLN, tetapi pada 512px dan 1024px performanya lebih buruk daripada baseline AdaLN
Positional encoding final adalah 3D axial RoPE yang mengalokasikan head dimensions ke frame, height, dan width
- RoPE indices untuk text tokens diatur ke nol
- partial RoPE menghasilkan zero-shot inference yang baik saat scale dari 256px ke 512px, tetapi setelah high-resolution training performa akhirnya lebih rendah daripada baseline
Autoencoder memulai baseline dari autoencoder FLUX.1-dev lalu membandingkannya dengan Qwen Image VAE, DC-AE, FLUX 2 VAE, dan autoencoder internal
- DC-AE dinilai memberi hard upper limit pada kemampuan resolusi detail halus karena reconstruction error
- Qwen Image VAE dan FLUX 2 VAE mempertahankan reconstruction quality yang sangat baik sekaligus memberi latent space dengan convergence yang jauh lebih cepat
- Model awal menggunakan autoencoder Qwen Image, dan model yang lebih besar mengadopsi FLUX 2 VAE
Untuk text encoder, mereka membandingkan T5-XXL, T5Gemma, umT5, Qwen 2.5 VL, dan Qwen 3 VL, lalu menggunakan Qwen 3 VL sebagai text encoder final
- VLM menyediakan ruang input yang lebih kaya yang mencakup text dan image, serta generalisasi multilingual yang lebih kuat
- Alih-alih hanya memakai last layer dari feature VLM, mereka memperkenalkan shallow attention layer yang mengagregasi hidden features dari seluruh layer
- Mereka menambahkan lightweight bidirectional transformer layers pada sumbu token untuk mengurangi autoregressive bias

Pipeline pelatihan, optimasi preferensi, RL

pipeline pelatihan menggunakan struktur multi-stage yang terinspirasi dari modern LLM training pipeline
pretraining membangun kapabilitas dasar seperti text-image alignment, text rendering, cakupan gaya, dan konsistensi struktural
- model final dilatih dengan standard rectified-flow loss dan v-parameterization
- pada epoch pertama stage 256px, iREPA digunakan untuk sangat mempercepat early stage convergence lalu dihapus
- pada stage 256px dan 512px, 8-bit training menunjukkan peningkatan kecepatan pelatihan 15–20% dibanding baseline bf16
- mulai 1024px hingga final RL stage, digunakan standard bf16 training
dalam high-resolution pretraining, adaptasi timeshift schedule yang bergantung pada resolusi sangat penting
- baik training maupun inference menggunakan shifted logit-normal sampling schedule
- seiring naiknya resolusi, shift ditingkatkan secara bertahap
- sweep hanya diterapkan pada training shift, sementara inference shift schedule dijaga konstan
selama pretraining digunakan warmup-stable-decay learning-rate schedule dan PMA diterapkan
- PMA mencapai performa yang sebanding dengan EMA sambil menghindari overhead memori signifikan dari EMA
optimizer menggunakan AdamW sebagai optimizer utama di seluruh pipeline
- Muon memang konvergen lebih cepat daripada AdamW pada langkah awal, tetapi pada horizon yang lebih panjang menunjukkan performa lebih rendah dan masalah stabilitas
- ketika first dan last linear layer MMDiT dikecualikan dari parameter Muon dan Nesterov momentum ditambahkan, hasilnya secara konsisten melampaui baseline AdamW pada resolusi rendah maupun tinggi
- pada pretraining run terbaru, Muon tidak diadopsi karena keterbatasan waktu, dan direncanakan akan diadopsi pada siklus pretraining berikutnya
pada stage SFT, dikurasi small dedicated set of highly aesthetic images
- tujuannya adalah membuat model lebih bias ke arah yang diinginkan secara estetis
- ini sangat membantu menyelesaikan masalah saturasi tinggi dan tekstur yang umum pada checkpoint sebelumnya
- setelah melatih domain-specific SFT checkpoints, dibuat generalist SFT checkpoint melalui model merging
optimasi preferensi adalah tahap pertama dari post-training stack dan terdiri dari pipeline dua tahap
- tahap 1 melakukan refinement awal melalui large-scale synthetic preference-pair generation pipeline
- mayoritas preference pairs mencakup setidaknya satu on-policy sample
- tahap 2 adalah calibration stage yang hanya menggunakan human annotations
- human annotations dikumpulkan oleh staf internal yang memahami strengths, weaknesses, dan quirks model
dalam PO, policy divergence muncul sebagai fenomena umum
- metode keluarga DPO mendorong pembesaran margin antara preferred sample likelihood dan dispreferred sample likelihood
- pada berbagai campuran preference dataset, diamati bahwa model memenuhi objective dengan menurunkan generation likelihood kedua sampel, tetapi dengan laju yang berbeda
- divergence menjauhkan model dari general pretraining distribution dan muncul sebagai high-frequency artifacts pada tahap akhir training
- untuk memitigasi hal ini, dirancang varian DPO bernama STPO
RL adalah tahap final dari pipeline pelatihan
- digunakan metode bergaya GRPO multi-reward
- reward models terdiri dari general aesthetic model, prompt-following reward, text-rendering reward, serta artifact and structure reward
- general aesthetic model diperoleh dengan melakukan finetuning open-source VLM menggunakan preference data yang dikumpulkan pada stage PO
prompt-specific rubric reward memecah prompt menjadi persyaratan yang dapat diverifikasi dan mengevaluasi apakah gambar yang dihasilkan memenuhinya
- ini memastikan pemenuhan fine-grained prompt constraints alih-alih mereduksi prompt following menjadi kualitas gambar generik
untuk mengurangi structural artifacts, dilatih dedicated artifact reward model
- kesalahan seperti jari berlebih, anggota tubuh yang cacat, dan teks yang terdistorsi jelas terlihat oleh manusia, tetapi sering luput dari general-purpose VLM judges
seluruh RL stage dilatih tanpa CFG
- ini dengan cepat memperbaiki conditional model distribution sehingga pada awal training, no-CFG samples menjadi jauh lebih dekat ke guided samples
- pada waktu inference, CFG tetap dapat diaktifkan sebagai control knob tambahan
setelah RL stage, disertakan optional timestep-distillation stage
- DMD, DMD2, Decoupled DMD, piFlow, dan APT dievaluasi, tetapi yang diadopsi adalah Trajectory Distribution Matching(TDM)
- TDM menerapkan DMD di seluruh timesteps untuk melakukan distribution matching pada level trajektori

Perluasan prompt dan referensi gaya

Saat pelatihan, model menggunakan caption yang kaya untuk menjelaskan detail visual gambar yang padat, tetapi input pengguna nyata cenderung pendek, ambigu, dan kebiasaan penulisannya juga beragam
prompt expander mengubah prompt pengguna yang sederhana atau kurang memadai menjadi arahan visual yang lebih kaya tanpa menimpa niat pengguna
- Dilatih di atas LLM open-source yang sudah ada dengan pipeline SFT dua tahap dan RL
- Tujuannya tidak hanya mencakup peningkatan kualitas gambar, tetapi juga creative variation dan controllable exploration
Data SFT dibuat dengan menghasilkan “caption pengguna” sintetis dari caption panjang
- Caption pengguna sintetis adalah prompt yang pendek, bersifat percakapan, dan semi-instruksional, yang dengan sengaja menghilangkan banyak detail visual dari caption target
- Dibuat data berpasangan dalam bentuk prompt pengguna yang kurang terdefinisi → caption yang diperluas dan ramah model
- Untuk mempertahankan kemampuan penalaran, jejak pemikiran sintetis juga dibuat
targeted distribution shaping juga diterapkan dalam jumlah kecil
- Citra yang kaya secara visual dan artistik di-oversample
- Untuk prompt yang perlu diperluas menjadi deskripsi fotorealistis, ditambahkan bias medium fotografi yang ringan
- Tujuannya bukan memaksakan house style, melainkan mencakup baik citra ekspresif yang diarahkan secara artistik maupun permintaan fotorealistis yang lugas
RL untuk prompt expander bertujuan menghasilkan perluasan yang meningkatkan kualitas gambar sambil tetap mempertahankan niat pengguna, alih-alih sekadar meniru caption target
- Dilatih dengan GDPO dan objective multi-reward
- Reward tingkat gambar mengukur kualitas dan preferensi dari hasil generasi
- Reward terverifikasi tingkat prompt memeriksa apakah perluasan tetap setia pada permintaan asli
- Pemeriksaan keamanan dan batasan digunakan sebagai gerbang untuk reward keseluruhan
Salah satu mode kegagalan prompt expander adalah keruntuhan keberagaman
- Ketika reward gambar mendominasi, model dapat mempelajari satu house style aman dengan reward tinggi
- Dengan menambahkan skor keberagaman embedding DINOv3 di atas grup prompt, sistem memberi reward pada keberagaman visual intra-grup bersama kualitas dan alignment
- Untuk mempertahankan variasi, reward keberagaman harus tetap aktif sepanjang pelatihan
Sistem referensi gaya dibangun di atas model dasar
- Pengguna dapat menghasilkan gambar dengan teks sambil menggunakan satu atau lebih gambar referensi untuk memandu gaya output
- Tujuan desainnya adalah pencampuran semantik yang mulus dari beberapa gaya, kontrol kontinu atas kekuatan tiap referensi gaya, dan kepatuhan state-of-the-art terhadap gaya yang kompleks
- Salah satu mode kegagalan yang umum adalah kebocoran konten dan subjek dari gambar gaya ke gambar final
- Tim merancang teknik self-supervised untuk melatih modul referensi gaya, lalu menambahkan langkah preference-optimization untuk menyelaraskan output lebih lanjut

Infrastruktur dan operasi pelatihan terdistribusi

Framework pelatihan terdistribusi Krea dibangun dari nol berbasis PyTorch, dan terutama menggunakan abstraksi DTensor serta fitur native torch yang didukung proyek torchtitan
- Sebagian besar run pra-pelatihan dan pasca-pelatihan menggunakan FSDP2 bersama paralelisasi tensor gaya Megatron-LM
- Pada konfigurasi dengan ukuran TP lebih besar dari 2, async-TP diaktifkan dengan flag torch.compile untuk memperoleh peningkatan kecepatan moderat dibanding TP naif
- Parameter autoencoder direplikasi ke semua perangkat, sementara hanya text encoder dan backbone utama MMDiT yang di-shard
- NVLinkSharp digunakan untuk koneksi intra-node, dan InfiniBand untuk koneksi antar-node
Untuk efisiensi pelatihan, digunakan model yang sedikit lebih lebar dengan hidden dimension yang lebih besar
- Saat hidden size membesar, intensitas komputasi tiap layer meningkat sehingga latensi lebih mudah disembunyikan dengan prefetching FSDP2
- Mengurangi jumlah layer menurunkan jumlah operasi all-gather dan reduce-scatter
- Perubahan ini secara signifikan mengurangi error terkait NCCL di seluruh run pra-pelatihan
- Ukuran perkalian matriks yang lebih besar membantu mengimbangi overhead quantization/dequantization pada pelatihan 8-bit
Pusat strategi optimisasi adalah torch.compile
- Untuk attention, secara default digunakan kernel cuDNN terbaru, dan bila perlu FlexAttention atau FlashAttention 3
- Pada resolusi rendah, digunakan selective activation checkpointing
- Pada resolusi tinggi, activation mulai mendominasi memori sehingga digunakan full activation checkpointing
Format dasar untuk data loading adalah Parquet
- Tiap row menyimpan referensi gambar, ukuran crop/resize, caption, dan metadata lainnya
- Pada run skala besar, row di-shuffle dan di-packing terlebih dahulu agar batch gambar dengan aspect ratio yang sama dapat dimuat bersama
- Berkat packing, latent dapat dienkode dalam satu pass autoencoder
Dalam pelatihan terdistribusi skala besar, kegagalan satu GPU atau straggler dapat menghentikan seluruh run
- Pada skala Krea, pendekatan mengoptimalkan MTBF dan MTTR lewat checkpointing yang cepat dan sering serta perbaikan startup time sudah memadai
Riset dijalankan pada satu klaster Kubernetes yang juga berbagi GPU dengan inference production
- Dirancang agar dapat mengambil alih seluruh pool GPU saat riset membutuhkannya
- Jika semua GPU klaster dialokasikan ke run pelatihan, workload inference Krea akan otomatis dimigrasikan ke tempat lain
- Sistem menangani traffic failover sehingga responsiveness production tetap terjaga meski tidak ada GPU lokal yang tersisa
Kueue merupakan elemen kunci dalam workload scheduling
- Kueue menyediakan sistem prioritas 2 tingkat yang menggabungkan Workload priority dan Kubernetes Pod priority
- Memungkinkan gang-scheduling yang diperlukan untuk pelatihan multi-node
- Primitive antrean seperti “borrowing”, “lending”, dan “reclamation” membantu memaksimalkan utilisasi
Virtual Kubelet digunakan untuk komponen yang melakukan scale inference di tempat lain saat semua GPU dialokasikan untuk riset
- Saat pod dijadwalkan ke node Kubernetes virtual, kode Krea mengubah pod specification menjadi bentuk yang kompatibel dengan provider target
- Jika terjadi kegagalan di sisi provider, status di kedua sisi direkonsiliasi
- Recovery diserahkan ke Kubernetes, dan sistem mendeteksi kegagalan lalu meneruskannya ke Kubernetes
Observability adalah area dengan pelajaran terbanyak dari pretraining skala besar
- Tanpa metric subsistem terkait GPU, PCIe, NVLink, dan InfiniBand, pelatihan pada skala ini tidak mungkin dilakukan
- Metric dikumpulkan dengan kombinasi DCGM dan DaemonSet kustom
- Jika GPU melewati 75–78°C, throttling mulai terjadi dan throughput keseluruhan turun sehingga instabilitas pelatihan meningkat
- DCGM_FI_PROF_PIPE_TENSOR_ACTIVE adalah indikator pilihan untuk menilai apakah pelatihan berjalan sesuai harapan
- Metric InfiniBand sangat penting untuk mendiagnosis fabric instability, link flapping, packet error, congestion, symbol error, dan throughput disparity
Scaling jumlah GPU terbukti sulit
- Run dengan kurang dari 128 GPU sangat stabil dan sering berjalan berhari-hari tanpa masalah
- Saat jumlah GPU ditambah, run mulai jauh lebih sering crash
- Pada skala yang sangat besar, tidak ada satu pun run yang berhasil diselesaikan melewati 24 jam
- Banyak crash tidak memiliki penyebab yang jelas dan muncul seperti timeout NCCL meski semua metric terlihat healthy
Salah satu kesalahan besar di awal adalah mengadopsi Ceph, yang kemudian diganti ke Weka
- Masalah terkait filesystem dan downtime turun drastis, dan performa juga membaik dengan besaran serupa
- Weka adalah elemen kunci yang memungkinkan aggressive checkpointing dalam pelatihan Krea 2
- Checkpoint selesai hanya dalam sekitar 30 detik, sehingga waktu yang hilang karena checkpointing kecil

Gudang data dan antrean kerja

Untuk pengumpulan dan kurasi data K2, dibangun custom warehousing and queueing system yang berpusat pada cluster server PostgreSQL
Setiap Krea tablet server disebut “krablet”
- Setiap krablet terdiri dari Postgres instance yang menyimpan satu data shard dan deployment server “funnel” yang membatch/mengantrikan mutation secara asinkron untuk mengurangi lock contention
Semua read diproksikan melalui deployment server “RPC” berskala besar
- Server RPC menggantikan traditional connection pooler seperti PgBouncer
- Setiap server RPC mempertahankan connection pool untuk semua shard database
Sistem krablet telah diskalakan hingga 208TB hanya untuk metadata, dan dapat menangani puluhan ribu transaksi UPSERT yang saling berebut per detik
- Menyediakan single source of truth untuk seluruh data riset
- Memungkinkan stream-processing layer menjadi sama dengan data layer
Workflow pemrosesan job yang umum adalah menggunakan table Postgres seperti antrean
- Worker OCR memproses row dengan contains_text IS NULL
- Worker embed memproses row dengan embedding_path IS NULL dan contains_text = FALSE
- Row di-claim dengan FOR UPDATE SKIP LOCKED dan column keluarga last_tried_at diperbarui
Model antrean ini memiliki perilaku retry yang berbeda dari Kafka atau Ray
- Saat gagal, row tidak di-drop atau dikirim ke dead-letter queue
- Row yang gagal diproses pun akan di-retry dari ujung antrean berkat atomic update last_tried_at
- Ini juga mencegah head-of-line blocking
Jumlah worker dapat disesuaikan secara dinamis
- Processing job dideploy dengan Kubernetes, dan dapat di-scale up/down sesuka hati tanpa data resharding
- Job dapat dijalankan dengan 1 worker atau 1000 worker
- Dengan Prometheus scaling metric, tiap bagian pipeline dapat diautoscale berdasarkan available work
Untuk kemudahan peneliti, disediakan system bernama “pluck”
- Menyediakan global map API yang cocok digunakan di notebook
- t.map mengembalikan handle yang bisa di-attach pengguna untuk melihat live progress
- UDF di-pickle dengan cloudpickle lalu dijalankan di worker remote
Untuk riset generasi berikutnya, mereka sedang membangun sistem penerus yang mempertahankan krablet dan queue semantics FOR UPDATE SKIP LOCKED, tetapi menyimpan data dalam LSM tree di atas object storage
- Mereka juga menyertakan tautan rekrutmen untuk supercomputing / distributed systems team yang akan mengerjakan hal terkait: https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072ad0f4c9

Arah ke depan

Di Krea 2, mereka memilih arsitektur dan optimizer yang relatif konservatif dengan memprioritaskan stabilitas dan iteration speed
Pada siklus pretraining berikutnya, mereka ingin menerapkan modern LLM transformer design ke diffusion transformer
- Arah yang dipertimbangkan mencakup MoE, native scale resolusi 2K–4K melalui sparse attention, pretraining NVFP4, dan Muon scaling
- Model saat ini dinilai undertrained, dan mereka melihat training yang lebih lama akan membantu
Saat ini pipeline training Krea 2 berakhir pada tahap multi-reward RL
- Krea telah memverifikasi secara internal dengan expert bahwa OPD dan MOPD adalah distillation method yang efektif untuk diffusion model
- Mereka berharap bisa segera membagikan lebih banyak hasil
Production diffusion model memerlukan susunan kompleks yang terdiri dari beberapa model yang saling bergantung
- Serving latent diffusion model biasanya memerlukan autoencoder, diffusion transformer, text encoder, dan model prompt-expansion
- Bergantung pada stack, module tambahan seperti model style-reference atau upscaler bisa ikut diperlukan
- Menjaga banyak komponen yang harus dilatih secara terpisah namun saling bergantung menyulitkan koordinasi research team
Krea berencana menyederhanakan arsitektur dan menyatukan beberapa komponen di bawah satu model tunggal pada siklus pretraining berikutnya
Krea 2 terutama berfokus pada image generation untuk creative exploration, dan ke depan ingin memperluas capability ke robust editing, image reference, dan native 2K/4K generation
Mereka menilai prompting bahasa alami tradisional saja tidak lagi cukup untuk mendukung seluruh rentang request pengguna
- Pada prompt pengguna, mereka mengamati beragam prompting style seperti natural language, tag, JSON terperinci, bounding box, instruction, visual guideline, dan Markdown
- Prompt expansion dapat menyelesaikan sebagian masalah, tetapi mereka menilai kemampuan model untuk memahami prompt semacam ini secara native juga harus menjadi core capability

1 komentar

GN⁺ 4 jam lalu

Opini Hacker News

Mereka merilis bobot model teks-ke-gambar terbaru, sekaligus menerbitkan tulisan yang membahas proses pelatihannya dengan cukup mendalam
Bahkan bagian yang biasanya jarang dijelaskan secara rinci, seperti pelatihan nyata dan infrastruktur data, juga cukup banyak dibahas, jadi sepertinya ada hal-hal yang menarik bagi orang yang tertarik pada area ini
- Ini laporan teknis yang sangat luas tentang model generasi gambar berbobot terbuka, jadi cukup mengesankan
  Sebagai orang yang terus mengikuti bidang ini, sangat menarik membaca eksperimen dan upaya di balik produk akhirnya, dan kalau mereka juga membuka sebagian alat fine-tuning agar komunitas bisa ikut bereksperimen, rasanya potensi model ini bisa didorong lebih jauh lagi
- Penasaran bagaimana Krea menangani konten seperti pornografi atau gore
  Saya sudah lama merasa frustrasi dengan kecenderungan model-model utama yang sangat menyingkirkan kategori konten seperti ini atas nama keamanan, bahkan dalam kasus yang legal
- Kalau melihat Ideogram4, Flux2, Qwen-Image, ZiT, sampai Krea, ada makin banyak perkembangan positif di sisi bobot terbuka
  Flux.1 Krea yang asli sudah masuk ke situs benchmark GenAI Showdown saya sejak Juli tahun lalu, dan di bidang ini rasanya itu seperti sudah sangat lama sekali. Saya juga ingin menguji model barunya dengan benar
Saya Diego Rodriguez, co-founder sekaligus CTO Krea. Kali ini kami merilis bobot dan juga laporan teknis yang cukup berbobot menurut standar industri saat ini
Laporannya membahas secara rinci kurasi data/captioning, arsitektur model, post-training, pipeline reinforcement learning, perluasan prompt, referensi gaya, dan infrastruktur
Bobotnya dibagi dua: Krea 2 Turbo adalah model yang mempercepat inferensi dengan mendistil panduan dan timestep, sedangkan Krea 2 RAW adalah model yang ditujukan untuk diutak-atik dan di-fine-tune
Menurut saya komunitas open LLM melakukan pekerjaan yang baik dengan merilis model dalam berbagai ukuran dan di berbagai tahap pipeline pelatihan, jadi kali ini kami juga merilis checkpoint tahap pelatihan menengah dan tahap post-training. Ini hal yang jarang di ranah gambar dan multimedia, jadi saya cukup bangga akan hal itu
Berdasarkan benchmark teks-ke-gambar dari Artificial Analysis, kualitas gambarnya ada di tingkat yang mirip dengan Nano Banana: https://artificialanalysis.ai/image/leaderboard/text-to-imag...
Kami juga melampirkan lisensi yang longgar untuk individu dan pelaku usaha kecil
Pengantar rilis OSS: https://www.krea.ai/krea-2-open-source / Model Huggingface: https://www.krea.ai/krea-2/huggingface / Repositori GitHub: https://www.krea.ai/krea-2/github / AMA Reddit: https://www.reddit.com/r/StableDiffusion/comments/1udnm0a/we... / Laporan teknis: https://www.krea.ai/blog/krea-2-technical-report
Hasilnya sudah keluar, dan terutama model Turbo benar-benar mengesankan kalau mempertimbangkan betapa cepatnya pada 8 step
Di antara model yang bisa di-host secara lokal, hanya Ideogram 4 yang mengunggulinya, tetapi model itu jauh lebih lambat. Bedanya menit versus detik
Memang tumbang pada “pembunuh model” yang biasa seperti bintang bersudut sembilan, Count Rugen, atau bumi datar yang terlalu penuh manusia, tetapi secara keseluruhan performanya melampaui kelasnya, mencetak skor tertinggi di antara model yang bisa di-host lokal, dan secara keseluruhan berada tepat di bawah Ideogram 4 dengan lolos 6 dari 15 pengujian
Tautan GenAI yang hanya membandingkan model yang bisa di-host lokal: https://genai-showdown.specr.net/?models=fd,hd,kd,qi,f2d,zt,...
- Lucu juga ini pertama kalinya saya mendengar ada pembunuh model untuk model teks-ke-gambar
  Menarik melihat metode pengujian sampai pada item-item yang aneh dan spesifik seperti ini
Senang melihat makin banyak model berbobot terbuka, dan saya juga sangat suka tulisan yang mendalam seperti ini
Pendekatan untuk menjaga manifold tetap lebar agar bisa menghasilkan banyak gaya juga bagus. Menurut saya itu lebih baik daripada menyesuaikan model agar hanya pas untuk beberapa preset gaya tertentu
Hanya saja, model komposisi gambar-ke-gambar/bergaya agen tingkat lanjut seperti Nano Banana 2 atau Images 2.0 sudah tampil sangat kuat, jadi sekarang rasanya agak seperti “bertarung di perang yang lalu”
Saya cukup ragu apakah pendekatan menyisipkan Qwen 3 VL secara silang bisa mendekati kemampuan gambar-ke-gambar pada level itu, dan gambar-ke-gambar yang kokoh sangat penting untuk editing, penyesuaian, konsistensi karakter, serta generalisasi dari apa yang sekarang digunakan untuk transfer gaya. Bagian transfer gaya juga tampak kurang dijelaskan
Mencapai level itu memang tidak akan mudah, tetapi menurut saya inilah garis depan berikutnya untuk model gambar. Ideogram tampaknya sedang membangun ke arah sana, tetapi di sisi bobot terbuka saya belum banyak melihatnya
- Saya paham sikap skeptisnya, tetapi secara internal model ini lebih sering dipakai daripada Nano Banana dalam berbagai kasus seperti moodboard. Fakta bahwa model ini 4 kali lebih murah daripada NBP juga membantu
  Workflow bergaya agen kompatibel dengan Krea 2, jadi saya kurang paham bagian itu. Kalau yang dimaksud adalah model editing, itu juga sedang kami siapkan
  Di benchmark teks-ke-gambar juga levelnya serupa, silakan lihat tautan Artificial Analysis yang saya kirim di komentar atas
  Anda juga tidak bisa melatih ulang Nano Banana atau ChatGPT agar memahami brand pelanggan, padahal justru itulah keluhan yang terus disampaikan pelanggan kami. Selain itu, karena ini open source, perbandingan 1:1 juga tidak mudah
- Model ini juga mendukung gambar-ke-gambar, jadi saya kurang tahu apa masalahnya dengan Qwen 3 VL
  Komentar bahwa transfer gaya tidak dijelaskan juga terasa samar. Kata “reference” muncul 11 kali di halaman itu, dan setelah saya baca, topik itu sebenarnya cukup banyak dibahas
Terima kasih karena Krea memungkinkan bobot model diunduh, tetapi dengan klausul lisensi seperti ini, ini bukan open source: https://huggingface.co/krea/Krea-2-Raw/blob/main/LICENSE.pdf
Penggunaan komersial hanya diizinkan jika total pendapatan tahunan seluruh perusahaan dalam 12 bulan terakhir di bawah 1 juta dolar AS; jika lebih dari itu, diperlukan lisensi enterprise terpisah
Selain itu, model Krea, turunannya, dan output-nya tidak boleh digunakan dengan cara yang melanggar hukum, kontrak, atau kebijakan penggunaan yang diizinkan terkait, dan saat mendistribusikannya harus menerapkan filter konten yang wajar untuk mendeteksi, mencegah, dan memitigasi pembuatan konten yang dilarang, berbahaya, atau ilegal
Kebijakan penggunaan yang diizinkan juga harus dipatuhi, dan halaman kebijakan https://www.krea.ai/krea-2-use-policy juga memuat ketentuan yang melarang upaya mengakali pengaman, pembatasan penggunaan, filter konten, atribusi sumber, dan watermarking yang diterapkan oleh Krea atau distributor
Sepertinya Turbo sudah punya versi konversi GGUF: https://huggingface.co/Abiray/Krea-2-Turbo-GGUF
- Versi RAW ada di sini: https://huggingface.co/vantagewithai/Krea-2-Raw-GGUF
Ada poin menarik di halaman lowongan
Bagi yang tahu seperti apa Mellanox gaya lama dulu, ini mungkin cocok selera: https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072a...
Model yang bagus, tetapi agak disayangkan mereka memakai Qwen VAE
- Jika ingin benar-benar mendorong realisme, Krea 2 Large di situs web dan API dilatih dengan FLUX 2 VAE
  Setelah mencoba keduanya, saya merasa Flux VAE memang sedikit lebih unggul dalam mempelajari tekstur yang realistis, tetapi bedanya tidak sebesar yang dibayangkan. Qwen VAE juga sangat bagus secara keseluruhan dalam eksperimen terkontrol dan kuat dalam mempelajari pembuatan berbagai gaya
- Ada juga yang bilang masalah ini bisa diatasi dengan memakai wan2.1 VAE sebagai gantinya
  Saya sendiri belum sempat mencobanya
Saya tidak sabar mencoba Krea 2. Saya memakai Z-Image Turbo setiap hari, dan untuk gambar realistis serta ilustrasi, ini sudah menggantikan langganan stok foto saya
Saya penasaran berapa biaya pelatihannya
- Kopinya jelas banyak
  Biaya pelatihan sulit diperkirakan dengan baik karena kami memakai klaster Kubernetes bersama yang juga menjalankan inferensi dan beban kerja riset
Saya penasaran orang memakai apa untuk self-hosting model seperti ini
Saya sudah mencoba ollama dan open-webui, tetapi keduanya sama sekali tidak mendukung pembuatan gambar
- Saya belum mencoba model ini, tetapi ComfyUI pasti akan mendukungnya, dan begitu terbiasa, antarmukanya juga lumayan enak
  Kalau bingung, mulai saja dengan menyalin dan menempel workflow terlebih dahulu
- Koboldcpp mendukung pembuatan gambar, tetapi dukungan Krea2 harus menunggu rilis berikutnya
  https://github.com/LostRuins/koboldcpp

Krea 2: Laporan teknis model gambar open-weight 12B

Model fondasi gambar untuk eksplorasi kreatif

Strategi kurasi data dan caption

Data pelatihan per resolusi dan midtraining

Pemilihan arsitektur dan ablation

Pipeline pelatihan, optimasi preferensi, RL

Perluasan prompt dan referensi gaya

Infrastruktur dan operasi pelatihan terdistribusi

Gudang data dan antrean kerja

Arah ke depan

Bacaan terkait

1 komentar

Opini Hacker News