Status Model Generatif

xguru · 2025-01-06T10:21:01+09:00

Sepanjang tahun 2024, ada kemajuan besar baik di bidang generasi teks maupun gambar Berbeda dengan masa awal ketika OpenAI melaju sendirian, pada akhir tahun lalu berbagai lab seperti Anthropic, DeepSeek, dan Qwen juga memperluas medan persaingan secara agresif Merangkum tren riset 2024~2025 dan secara singkat membahas bidang-bidang yang diharapkan ke depannya “Parit pertahanan yang dibangun hanya dengan sumber tertutup tidak akan bertahan lama OpenAI juga tidak akan mampu menghentikan pengejaran dari pihak lain Pada akhirnya, parit pertahanan yang sesungguhnya adalah membesarkan organisasi dan budaya kita, lalu membina talenta yang mampu berinovasi” ─ Liang Wenfeng, CEO of DeepSeek # Language Large Language Model (LLM) adalah inti dari gelombang AI saat ini, dan menjadi area dengan riset serta investasi terbanyak Pada 2024, ada kemajuan besar baik dalam performa model maupun paradigma scaling baru Architecture Arsitektur baru (Mamba, xLSTM, dll.) telah dicoba, tetapi setidaknya untuk saat ini decoder-only Transformer tampaknya akan tetap menjadi arus utama Dense Transformer Llama 3 adalah contoh representatif, dan Meta sedang mengoptimalkan vanilla Dense Transformer hingga batas ekstrem Bentuk yang disebut Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, dll.) pada praktiknya telah menjadi standar Pendekatan seperti Multi Latent Attention (MLA) dari DeepSeek kemungkinan akan mendapat lebih banyak perhatian, dan ada kemungkinan muncul teknik yang menggantikan atau memodifikasi RoPE Mixture-of-Experts Rumor bahwa GPT-4 adalah MoE raksasa menyebar luas, dan pendekatan ini kembali mencuat pada 2024 Di ranah open source, contoh representatifnya adalah Mixtral dari Mistral, DeepSeek v2·v3, dan lainnya MoE memiliki kelemahan karena tidak mudah untuk serving, tetapi DeepSeek sedang aktif menelitinya Ke depan, riset ke berbagai arah diperkirakan akan muncul seputar mekanisme routing, cara penerapan MoE di tiap layer, hingga interpretabilitas expert Tokenization Banyak yang berpendapat dibutuhkan inovasi untuk menggantikan Byte Pair Encoding, tetapi karena belum ada masalah besar, penggunaannya masih terus berlanjut Meta menarik perhatian dengan mengusulkan dua pendekatan: memproses CoT di latent space (byte-based) atau melatih Transformer pada unit byte Dalam Byte Latent Transformer (BLT), struktur Encoder/Decoder digunakan untuk memproses input byte Ada kekhawatiran bahwa kualitas byte decoder bisa menjadi bottleneck Reasoning Pada paruh kedua 2024, kemampuan penalaran model dalam matematika, sains, dan coding meningkat tajam (o1, o3, DeepSeek r1, dll.) Hal ini berkaitan dengan paradigma scaling baru yang disebut “inference-time compute” Model menghasilkan Chain of Thought yang sangat panjang, lalu memverifikasi dan memanfaatkannya sendiri Cara pembuatan o1 dan o3 dari OpenAI tidak dipublikasikan, tetapi besar kemungkinan mereka memanfaatkan pendekatan RL seperti pada paper “Let’s Verify Step by Step” Ke depan, diperkirakan Anthropic dan lab lain juga akan merilis reasoner serupa Ada minat besar pada apakah pendekatan ini akan melampaui fokus pada domain STEM dan diterapkan juga pada domain yang lebih luas, seperti penulisan kreatif Distillation Saat o1 dirilis, ada dugaan bahwa alasan OpenAI tidak mempublikasikan Chain of Thought adalah karena kasus pelatihan ulang menggunakan keluaran model (seperti DeepSeek v3) sangat berkontribusi pada peningkatan performa DeepSeek v3 tidak mereproduksi CoT panjang khas reasoner secara utuh, tetapi tampaknya membedakan mode secara internal dan melakukan penalaran saat dibutuhkan Apakah model kecil (seperti o1-mini) bisa mendekati performa model besar, atau apakah ada teknik distillation rahasia di dalamnya, juga menjadi topik riset yang menarik # Image Di bidang gambar, banyak lab kecil dan menengah ikut masuk sehingga inovasi bergerak cepat Saat ini model utama (Flux, Stable Diffusion 3, MidJourney, Sora, dll.) berbasis Diffusion Transformer, dengan framework Flow Matching sebagai arus utama Architecture Bentuk yang menggabungkan adaptive normalization dan struktur MM-DIT ke dalam Diffusion Transformer umum digunakan Upaya untuk mengganti text encoder dari CLIP ke LLM yang lebih ringkas tampaknya akan meningkat pada 2025 Framework Mulai terbentuk kecenderungan untuk lebih memilih pendekatan Flow Matching daripada pendekatan probabilistik tradisional Ada kemungkinan model AutoRegressive kembali menguat, dan paper Visual Autoregressive Modelling mendapat perhatian besar Teknik generasi gambar yang dirilis xAI juga diduga bersifat autoregressive, tetapi alasan spesifiknya belum diketahui # Multimodality OpenAI, Anthropic, dan lainnya sudah lama menyediakan kemampuan memasukkan gambar ke model, tetapi pada paruh pertama 2024 riset multimodal yang lebih terbuka menjadi lebih aktif Visual Language Models Berbagai VLM seperti Qwen dan PaliGemma bermunculan dan digunakan untuk image captioning maupun document parsing Struktur yang menghubungkan Vision Transformer dengan LLM yang telah dipra-latih telah menjadi standar Pada 2025, VLM semacam ini diperkirakan akan terintegrasi menjadi Omni-Models Omni-Modal Models OpenAI pernah menunjukkan kasus generasi gambar dengan GPT-4o, tetapi belum merilisnya secara penuh Chameleon dan lainnya mencoba model early fusion menggunakan image tokenizer + detokenizer Ada perdebatan pro dan kontra terhadap pendekatan yang memproses output non-teks sebagai discrete token Ada rumor bahwa Llama 4 sejak awal dilatih sebagai model omni-modal, sehingga memicu ekspektasi tinggi # Agents and Human-AI Interfaces Definisi “AI Agent” memang ambigu, tetapi di sini istilah agen digunakan untuk pendekatan yang memberi LLM hak menggunakan alat agar dapat mencapai tujuan sendiri Berdasarkan SWE-Bench, diperkirakan pada akhir 2025 debugging kode dan implementasi fitur akan dapat diotomatisasi sampai tingkat tertentu Namun, masih terlalu dini untuk sampai pada tingkat penggantian engineer, dan adopsi kemungkinan dimulai dari area dengan toleransi kesalahan yang lebih besar, seperti itinerary perjalanan atau pencarian informasi UI berbentuk editor seperti Cursor mungkin lebih cocok untuk pemanfaatan agen Pemanggilan agen memerlukan biaya token yang besar, sehingga belum jelas apakah agen otonom sepenuhnya akan efisien dari sisi biaya # 2025 Ucapan bahwa perkembangan AI sangat cepat sudah terdengar akrab, tetapi pada kenyataannya perubahan yang terjadi begitu besar hingga kecepatannya sendiri sulit diukur Tulisan ini hanya membahas secara singkat kondisi terkini yang berpusat pada teks dan gambar serta hal-hal yang dinantikan pada 2025. Di antara area yang belum sempat dibahas, bidang-bidang yang patut diperhatikan meliputi: Optimasi pelatihan (Muon, NanoGPT speedruns) Model video (menyelesaikan masalah konsistensi dan kecepatan inferensi) Quantization (quantization 1-bit, presisi di bawah FP8, dll.) Riset interpretabilitas model Evaluasi·benchmark (berharap evaluasi berbasis tugas nyata seperti SWE-Bench semakin banyak) Berharap ada lebih banyak kemajuan pada 2025

(nrehiew.github.io)

20 poin oleh xguru 2025-01-06 | 2 komentar | Bagikan ke WhatsApp

Sepanjang tahun 2024, ada kemajuan besar baik di bidang generasi teks maupun gambar
Berbeda dengan masa awal ketika OpenAI melaju sendirian, pada akhir tahun lalu berbagai lab seperti Anthropic, DeepSeek, dan Qwen juga memperluas medan persaingan secara agresif
Merangkum tren riset 2024~2025 dan secara singkat membahas bidang-bidang yang diharapkan ke depannya

“Parit pertahanan yang dibangun hanya dengan sumber tertutup tidak akan bertahan lama
OpenAI juga tidak akan mampu menghentikan pengejaran dari pihak lain
Pada akhirnya, parit pertahanan yang sesungguhnya adalah membesarkan organisasi dan budaya kita, lalu membina talenta yang mampu berinovasi”
─ Liang Wenfeng, CEO of DeepSeek

# Language

Large Language Model (LLM) adalah inti dari gelombang AI saat ini, dan menjadi area dengan riset serta investasi terbanyak
Pada 2024, ada kemajuan besar baik dalam performa model maupun paradigma scaling baru
Architecture
- Arsitektur baru (Mamba, xLSTM, dll.) telah dicoba, tetapi setidaknya untuk saat ini decoder-only Transformer tampaknya akan tetap menjadi arus utama
- Dense Transformer
  - Llama 3 adalah contoh representatif, dan Meta sedang mengoptimalkan vanilla Dense Transformer hingga batas ekstrem
  - Bentuk yang disebut Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, dll.) pada praktiknya telah menjadi standar
  - Pendekatan seperti Multi Latent Attention (MLA) dari DeepSeek kemungkinan akan mendapat lebih banyak perhatian, dan ada kemungkinan muncul teknik yang menggantikan atau memodifikasi RoPE
- Mixture-of-Experts
  - Rumor bahwa GPT-4 adalah MoE raksasa menyebar luas, dan pendekatan ini kembali mencuat pada 2024
  - Di ranah open source, contoh representatifnya adalah Mixtral dari Mistral, DeepSeek v2·v3, dan lainnya
  - MoE memiliki kelemahan karena tidak mudah untuk serving, tetapi DeepSeek sedang aktif menelitinya
  - Ke depan, riset ke berbagai arah diperkirakan akan muncul seputar mekanisme routing, cara penerapan MoE di tiap layer, hingga interpretabilitas expert
Tokenization
- Banyak yang berpendapat dibutuhkan inovasi untuk menggantikan Byte Pair Encoding, tetapi karena belum ada masalah besar, penggunaannya masih terus berlanjut
- Meta menarik perhatian dengan mengusulkan dua pendekatan: memproses CoT di latent space (byte-based) atau melatih Transformer pada unit byte
- Dalam Byte Latent Transformer (BLT), struktur Encoder/Decoder digunakan untuk memproses input byte
- Ada kekhawatiran bahwa kualitas byte decoder bisa menjadi bottleneck
Reasoning
- Pada paruh kedua 2024, kemampuan penalaran model dalam matematika, sains, dan coding meningkat tajam (o1, o3, DeepSeek r1, dll.)
- Hal ini berkaitan dengan paradigma scaling baru yang disebut “inference-time compute”
  - Model menghasilkan Chain of Thought yang sangat panjang, lalu memverifikasi dan memanfaatkannya sendiri
- Cara pembuatan o1 dan o3 dari OpenAI tidak dipublikasikan, tetapi besar kemungkinan mereka memanfaatkan pendekatan RL seperti pada paper “Let’s Verify Step by Step”
- Ke depan, diperkirakan Anthropic dan lab lain juga akan merilis reasoner serupa
- Ada minat besar pada apakah pendekatan ini akan melampaui fokus pada domain STEM dan diterapkan juga pada domain yang lebih luas, seperti penulisan kreatif
Distillation
- Saat o1 dirilis, ada dugaan bahwa alasan OpenAI tidak mempublikasikan Chain of Thought adalah karena kasus pelatihan ulang menggunakan keluaran model (seperti DeepSeek v3) sangat berkontribusi pada peningkatan performa
- DeepSeek v3 tidak mereproduksi CoT panjang khas reasoner secara utuh, tetapi tampaknya membedakan mode secara internal dan melakukan penalaran saat dibutuhkan
- Apakah model kecil (seperti o1-mini) bisa mendekati performa model besar, atau apakah ada teknik distillation rahasia di dalamnya, juga menjadi topik riset yang menarik

# Image

Di bidang gambar, banyak lab kecil dan menengah ikut masuk sehingga inovasi bergerak cepat
Saat ini model utama (Flux, Stable Diffusion 3, MidJourney, Sora, dll.) berbasis Diffusion Transformer, dengan framework Flow Matching sebagai arus utama
Architecture
- Bentuk yang menggabungkan adaptive normalization dan struktur MM-DIT ke dalam Diffusion Transformer umum digunakan
- Upaya untuk mengganti text encoder dari CLIP ke LLM yang lebih ringkas tampaknya akan meningkat pada 2025
Framework
- Mulai terbentuk kecenderungan untuk lebih memilih pendekatan Flow Matching daripada pendekatan probabilistik tradisional
- Ada kemungkinan model AutoRegressive kembali menguat, dan paper Visual Autoregressive Modelling mendapat perhatian besar
- Teknik generasi gambar yang dirilis xAI juga diduga bersifat autoregressive, tetapi alasan spesifiknya belum diketahui

# Multimodality

OpenAI, Anthropic, dan lainnya sudah lama menyediakan kemampuan memasukkan gambar ke model, tetapi pada paruh pertama 2024 riset multimodal yang lebih terbuka menjadi lebih aktif
Visual Language Models
- Berbagai VLM seperti Qwen dan PaliGemma bermunculan dan digunakan untuk image captioning maupun document parsing
- Struktur yang menghubungkan Vision Transformer dengan LLM yang telah dipra-latih telah menjadi standar
- Pada 2025, VLM semacam ini diperkirakan akan terintegrasi menjadi Omni-Models
Omni-Modal Models
- OpenAI pernah menunjukkan kasus generasi gambar dengan GPT-4o, tetapi belum merilisnya secara penuh
- Chameleon dan lainnya mencoba model early fusion menggunakan image tokenizer + detokenizer
- Ada perdebatan pro dan kontra terhadap pendekatan yang memproses output non-teks sebagai discrete token
- Ada rumor bahwa Llama 4 sejak awal dilatih sebagai model omni-modal, sehingga memicu ekspektasi tinggi

# Agents and Human-AI Interfaces

Definisi “AI Agent” memang ambigu, tetapi di sini istilah agen digunakan untuk pendekatan yang memberi LLM hak menggunakan alat agar dapat mencapai tujuan sendiri
Berdasarkan SWE-Bench, diperkirakan pada akhir 2025 debugging kode dan implementasi fitur akan dapat diotomatisasi sampai tingkat tertentu
Namun, masih terlalu dini untuk sampai pada tingkat penggantian engineer, dan adopsi kemungkinan dimulai dari area dengan toleransi kesalahan yang lebih besar, seperti itinerary perjalanan atau pencarian informasi
UI berbentuk editor seperti Cursor mungkin lebih cocok untuk pemanfaatan agen
Pemanggilan agen memerlukan biaya token yang besar, sehingga belum jelas apakah agen otonom sepenuhnya akan efisien dari sisi biaya

# 2025

Ucapan bahwa perkembangan AI sangat cepat sudah terdengar akrab, tetapi pada kenyataannya perubahan yang terjadi begitu besar hingga kecepatannya sendiri sulit diukur
Tulisan ini hanya membahas secara singkat kondisi terkini yang berpusat pada teks dan gambar serta hal-hal yang dinantikan pada 2025. Di antara area yang belum sempat dibahas, bidang-bidang yang patut diperhatikan meliputi:
- Optimasi pelatihan (Muon, NanoGPT speedruns)
- Model video (menyelesaikan masalah konsistensi dan kecepatan inferensi)
- Quantization (quantization 1-bit, presisi di bawah FP8, dll.)
- Riset interpretabilitas model
- Evaluasi·benchmark (berharap evaluasi berbasis tugas nyata seperti SWE-Bench semakin banyak)
Berharap ada lebih banyak kemajuan pada 2025

2 komentar

lonzino 2025-01-06

Terima kasih

zkdlfrlwl2 2025-01-06

Terima kasih atas rangkumannya yang rapi.