20 poin oleh xguru 2025-01-06 | 2 komentar | Bagikan ke WhatsApp
  • Sepanjang tahun 2024, ada kemajuan besar baik di bidang generasi teks maupun gambar
  • Berbeda dengan masa awal ketika OpenAI melaju sendirian, pada akhir tahun lalu berbagai lab seperti Anthropic, DeepSeek, dan Qwen juga memperluas medan persaingan secara agresif
  • Merangkum tren riset 2024~2025 dan secara singkat membahas bidang-bidang yang diharapkan ke depannya

    “Parit pertahanan yang dibangun hanya dengan sumber tertutup tidak akan bertahan lama
    OpenAI juga tidak akan mampu menghentikan pengejaran dari pihak lain
    Pada akhirnya, parit pertahanan yang sesungguhnya adalah membesarkan organisasi dan budaya kita, lalu membina talenta yang mampu berinovasi”
    ─ Liang Wenfeng, CEO of DeepSeek

# Language

  • Large Language Model (LLM) adalah inti dari gelombang AI saat ini, dan menjadi area dengan riset serta investasi terbanyak
  • Pada 2024, ada kemajuan besar baik dalam performa model maupun paradigma scaling baru
  • Architecture
    • Arsitektur baru (Mamba, xLSTM, dll.) telah dicoba, tetapi setidaknya untuk saat ini decoder-only Transformer tampaknya akan tetap menjadi arus utama
    • Dense Transformer
      • Llama 3 adalah contoh representatif, dan Meta sedang mengoptimalkan vanilla Dense Transformer hingga batas ekstrem
      • Bentuk yang disebut Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, dll.) pada praktiknya telah menjadi standar
      • Pendekatan seperti Multi Latent Attention (MLA) dari DeepSeek kemungkinan akan mendapat lebih banyak perhatian, dan ada kemungkinan muncul teknik yang menggantikan atau memodifikasi RoPE
    • Mixture-of-Experts
      • Rumor bahwa GPT-4 adalah MoE raksasa menyebar luas, dan pendekatan ini kembali mencuat pada 2024
      • Di ranah open source, contoh representatifnya adalah Mixtral dari Mistral, DeepSeek v2·v3, dan lainnya
      • MoE memiliki kelemahan karena tidak mudah untuk serving, tetapi DeepSeek sedang aktif menelitinya
      • Ke depan, riset ke berbagai arah diperkirakan akan muncul seputar mekanisme routing, cara penerapan MoE di tiap layer, hingga interpretabilitas expert
  • Tokenization
    • Banyak yang berpendapat dibutuhkan inovasi untuk menggantikan Byte Pair Encoding, tetapi karena belum ada masalah besar, penggunaannya masih terus berlanjut
    • Meta menarik perhatian dengan mengusulkan dua pendekatan: memproses CoT di latent space (byte-based) atau melatih Transformer pada unit byte
    • Dalam Byte Latent Transformer (BLT), struktur Encoder/Decoder digunakan untuk memproses input byte
    • Ada kekhawatiran bahwa kualitas byte decoder bisa menjadi bottleneck
  • Reasoning
    • Pada paruh kedua 2024, kemampuan penalaran model dalam matematika, sains, dan coding meningkat tajam (o1, o3, DeepSeek r1, dll.)
    • Hal ini berkaitan dengan paradigma scaling baru yang disebut “inference-time compute”
      • Model menghasilkan Chain of Thought yang sangat panjang, lalu memverifikasi dan memanfaatkannya sendiri
    • Cara pembuatan o1 dan o3 dari OpenAI tidak dipublikasikan, tetapi besar kemungkinan mereka memanfaatkan pendekatan RL seperti pada paper “Let’s Verify Step by Step”
    • Ke depan, diperkirakan Anthropic dan lab lain juga akan merilis reasoner serupa
    • Ada minat besar pada apakah pendekatan ini akan melampaui fokus pada domain STEM dan diterapkan juga pada domain yang lebih luas, seperti penulisan kreatif
  • Distillation
    • Saat o1 dirilis, ada dugaan bahwa alasan OpenAI tidak mempublikasikan Chain of Thought adalah karena kasus pelatihan ulang menggunakan keluaran model (seperti DeepSeek v3) sangat berkontribusi pada peningkatan performa
    • DeepSeek v3 tidak mereproduksi CoT panjang khas reasoner secara utuh, tetapi tampaknya membedakan mode secara internal dan melakukan penalaran saat dibutuhkan
    • Apakah model kecil (seperti o1-mini) bisa mendekati performa model besar, atau apakah ada teknik distillation rahasia di dalamnya, juga menjadi topik riset yang menarik

# Image

  • Di bidang gambar, banyak lab kecil dan menengah ikut masuk sehingga inovasi bergerak cepat
  • Saat ini model utama (Flux, Stable Diffusion 3, MidJourney, Sora, dll.) berbasis Diffusion Transformer, dengan framework Flow Matching sebagai arus utama
  • Architecture
    • Bentuk yang menggabungkan adaptive normalization dan struktur MM-DIT ke dalam Diffusion Transformer umum digunakan
    • Upaya untuk mengganti text encoder dari CLIP ke LLM yang lebih ringkas tampaknya akan meningkat pada 2025
  • Framework
    • Mulai terbentuk kecenderungan untuk lebih memilih pendekatan Flow Matching daripada pendekatan probabilistik tradisional
    • Ada kemungkinan model AutoRegressive kembali menguat, dan paper Visual Autoregressive Modelling mendapat perhatian besar
    • Teknik generasi gambar yang dirilis xAI juga diduga bersifat autoregressive, tetapi alasan spesifiknya belum diketahui

# Multimodality

  • OpenAI, Anthropic, dan lainnya sudah lama menyediakan kemampuan memasukkan gambar ke model, tetapi pada paruh pertama 2024 riset multimodal yang lebih terbuka menjadi lebih aktif
  • Visual Language Models
    • Berbagai VLM seperti Qwen dan PaliGemma bermunculan dan digunakan untuk image captioning maupun document parsing
    • Struktur yang menghubungkan Vision Transformer dengan LLM yang telah dipra-latih telah menjadi standar
    • Pada 2025, VLM semacam ini diperkirakan akan terintegrasi menjadi Omni-Models
  • Omni-Modal Models
    • OpenAI pernah menunjukkan kasus generasi gambar dengan GPT-4o, tetapi belum merilisnya secara penuh
    • Chameleon dan lainnya mencoba model early fusion menggunakan image tokenizer + detokenizer
    • Ada perdebatan pro dan kontra terhadap pendekatan yang memproses output non-teks sebagai discrete token
    • Ada rumor bahwa Llama 4 sejak awal dilatih sebagai model omni-modal, sehingga memicu ekspektasi tinggi

# Agents and Human-AI Interfaces

  • Definisi “AI Agent” memang ambigu, tetapi di sini istilah agen digunakan untuk pendekatan yang memberi LLM hak menggunakan alat agar dapat mencapai tujuan sendiri
  • Berdasarkan SWE-Bench, diperkirakan pada akhir 2025 debugging kode dan implementasi fitur akan dapat diotomatisasi sampai tingkat tertentu
  • Namun, masih terlalu dini untuk sampai pada tingkat penggantian engineer, dan adopsi kemungkinan dimulai dari area dengan toleransi kesalahan yang lebih besar, seperti itinerary perjalanan atau pencarian informasi
  • UI berbentuk editor seperti Cursor mungkin lebih cocok untuk pemanfaatan agen
  • Pemanggilan agen memerlukan biaya token yang besar, sehingga belum jelas apakah agen otonom sepenuhnya akan efisien dari sisi biaya

# 2025

  • Ucapan bahwa perkembangan AI sangat cepat sudah terdengar akrab, tetapi pada kenyataannya perubahan yang terjadi begitu besar hingga kecepatannya sendiri sulit diukur
  • Tulisan ini hanya membahas secara singkat kondisi terkini yang berpusat pada teks dan gambar serta hal-hal yang dinantikan pada 2025. Di antara area yang belum sempat dibahas, bidang-bidang yang patut diperhatikan meliputi:
    • Optimasi pelatihan (Muon, NanoGPT speedruns)
    • Model video (menyelesaikan masalah konsistensi dan kecepatan inferensi)
    • Quantization (quantization 1-bit, presisi di bawah FP8, dll.)
    • Riset interpretabilitas model
    • Evaluasi·benchmark (berharap evaluasi berbasis tugas nyata seperti SWE-Bench semakin banyak)
  • Berharap ada lebih banyak kemajuan pada 2025

2 komentar

 
lonzino 2025-01-06

Terima kasih

 
zkdlfrlwl2 2025-01-06

Terima kasih atas rangkumannya yang rapi.