Hal-Hal yang Saya Pelajari tentang LLM di 2024

(simonwillison.net)

22 poin oleh GN⁺ 2025-01-01 | 1 komentar | Bagikan ke WhatsApp

Ringkasan Simon Willison tentang seluruh perubahan terkait LLM pada 2024

Melampaui batas GPT-4 sepenuhnya
Beberapa model GPT-4 berjalan di laptop saya
Harga LLM anjlok, perubahan yang didorong persaingan dan efisiensi
Penyebaran visi multimodal, dengan audio dan video yang mulai muncul
Suara dan mode kamera langsung, fiksi ilmiah yang jadi nyata
Pembuatan aplikasi berbasis prompt, teknologi yang sudah menjadi keseharian
Akses gratis ke model terbaik, berakhir hanya dalam beberapa bulan
"Agent", konsep yang masih belum benar-benar terwujud
Pentingnya evaluasi (Evals)
Apple Intelligence mengecewakan, tetapi library MLX sangat unggul
Penskalaan inferensi dan kebangkitan model "Reasoning"
Apakah LLM terbaik saat ini dilatih di Tiongkok dengan biaya kurang dari $6 juta?
Dampak lingkungan membaik
Dampak lingkungan memburuk lebih jauh
2024, tahun dari "Slop"
Efek mengejutkan dari data pelatihan sintetis
2024, tahun ketika penggunaan LLM menjadi lebih sulit
Distribusi pengetahuan yang tidak merata
Kita membutuhkan kritik yang lebih baik terhadap LLM

# Melampaui batas GPT-4 sepenuhnya

Situasi pada 2023: GPT-4 dinilai sebagai model bahasa terbaik, dan laboratorium AI lain belum mampu melampauinya. Rahasia teknis yang dimiliki OpenAI menjadi sorotan.
Perubahan pada 2024: 18 organisasi merilis model yang mengungguli GPT-4. Saat ini ada 70 model yang terdaftar di papan peringkat Chatbot Arena yang melampaui GPT-4-0314 (dirilis pada Maret 2023).
Model utama dan perkembangan teknis
- Google Gemini 1.5 Pro: dirilis pada Februari 2024
  - Menyediakan output setara GPT-4 dan fitur-fitur baru
  - Mendukung panjang konteks input 1 juta token (kemudian 2 juta)
  - Memperkenalkan kemampuan input video
  - Dapat memproses input panjang untuk menyelesaikan masalah pemrograman dan menganalisis keseluruhan buku
  - Dibahas sebagai pengumuman penting dalam keynote Google I/O 2024
- Seri Anthropic Claude 3:
  - Claude 3 Opus: dirilis pada Maret 2024, menarik perhatian karena performanya yang tinggi
  - Claude 3.5 Sonnet: dirilis pada Juni, versi peningkatan diumumkan pada 22 Oktober
  - Bahkan setelah peningkatan, nomor versinya tetap 3.5, sehingga oleh para penggemarnya disebut Claude 3.6
Perluasan panjang konteks
- 2023: sebagian besar model mendukung 4.096~8.192 token. Claude 2.1 menjadi pengecualian dengan 200 ribu token
- 2024: model-model utama mendukung lebih dari 100 ribu token, dan seri Google Gemini mendukung hingga 2 juta token
- Dapat menangani data input panjang untuk menyelesaikan berbagai masalah
- Menguntungkan untuk menganalisis keseluruhan buku atau memecahkan masalah berdasarkan kode contoh
Model dan organisasi yang melampaui GPT-4
- Berdasarkan papan peringkat Chatbot Arena, organisasi yang memiliki model dengan performa lebih tinggi daripada GPT-4-0314 adalah:
  - Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI, dan 18 organisasi lainnya
- Di papan peringkat, GPT-4-0314 saat ini berada di kisaran peringkat 70

# Beberapa model GPT-4 berjalan di laptop saya

Perangkat yang digunakan: M2 MacBook Pro dengan RAM 64GB yang dirilis pada 2023. Perangkat ini berusia sekitar dua tahun, laptop yang sama yang pertama kali digunakan untuk menjalankan LLM pada Maret 2023.
Perubahan performa: Pada awalnya nyaris hanya bisa menjalankan model setingkat GPT-3, tetapi sekarang bahkan model setingkat GPT-4 pun bisa dijalankan.
- Qwen2.5-Coder-32B: model khusus coding dengan lisensi Apache 2.0, pada November 2024.
- Meta Llama 3.3 70B: model setara GPT-4 yang dirilis pada Desember 2024.
Mengapa ini penting: Mengejutkan bahwa model setingkat GPT-4 kini bisa berjalan di laptop, bukan hanya di server pusat data dengan GPU senilai lebih dari $40.000.
- Karena hampir seluruh RAM 64GB terpakai, sulit melakukan pekerjaan lain secara bersamaan.
- Hal ini dimungkinkan berkat peningkatan efisiensi model. Ini tampaknya merupakan hasil optimasi selama setahun terakhir.
- Masih diharapkan ada ruang untuk peningkatan efisiensi lebih jauh.
Model Meta Llama 3.2: Memang bukan setingkat GPT-4, tetapi model berukuran 1B dan 3B menunjukkan performa yang sangat baik meski ukurannya kecil.
- Llama 3.2 3B: dapat dijalankan lewat aplikasi iOS gratis MLC Chat.
- Ukurannya kurang dari 2GB, bisa berjalan di iPhone dan menghasilkan 20 token per detik.
- Contoh: saat diminta membuat "sinopsis film Natal Netflix tentang seorang jurnalis data yang jatuh cinta pada pembuat keramik lokal", model menghasilkan jawaban yang sederhana tetapi memadai.
  - Judul: "Love in the Clay"
  - Sinopsis: tokoh utama Jessica kembali ke kampung halamannya di Willow Creek dan cerita berkembang saat ia menyelidiki sejarah lokal serta dampak gentrifikasi.
- Hasilnya biasa saja, tetapi tetap menarik bahwa pekerjaan seperti ini bisa dilakukan bahkan di iPhone.

# Harga LLM anjlok, perubahan yang didorong persaingan dan efisiensi

Harga pada akhir 2023: Harga model utama OpenAI saat itu adalah sebagai berikut.
- GPT-4: $30/million input tokens
- GPT-4 Turbo: $10/mTok
- GPT-3.5 Turbo: $1/mTok
Perubahan harga pada 2024:
- OpenAI o1: $30/mTok, model termahal
- GPT-4o: $2.50/mTok (12 kali lebih murah dibanding GPT-4)
- GPT-4o Mini: $0.15/mTok (sekitar 7 kali lebih murah dibanding GPT-3.5 namun dengan performa lebih baik)
- Anthropic Claude 3 Haiku: $0.25/mTok (dirilis pada Maret, model termurah Anthropic)
- Google Gemini 1.5 Flash: $0.075/mTok
- Google Gemini 1.5 Flash 8B: $0.0375/mTok (27 kali lebih murah dibanding GPT-3.5 Turbo)
Faktor penurunan harga:
- Persaingan yang meningkat: semakin banyak penyedia model masuk ke pasar, sehingga persaingan harga makin ketat.
- Peningkatan efisiensi: optimasi pada proses pelatihan dan inferensi model menurunkan konsumsi energi.
  - Kekhawatiran terhadap biaya energi untuk menjalankan prompt individual berkurang.
Efisiensi dan biaya lingkungan:
- Peningkatan efisiensi energi mengurangi kekhawatiran lingkungan.
- Namun, dampak lingkungan dari pembangunan pusat data tetap menjadi masalah.
Perhitungan biaya penggunaan nyata:
- Menghitung biaya pembuatan deskripsi untuk pustaka foto pribadi (68.000 gambar) menggunakan Google Gemini 1.5 Flash 8B.
  - Setiap foto membutuhkan 260 input tokens dan 100 output tokens.
  - Total 17.680.000 input tokens * $0.0375/million = $0.66
  - Total 6.800.000 output tokens * $0.15/million = $1.02
  - Total biaya: 68.000 foto dapat diproses dengan $1.68.
Contoh deskripsi:
- Foto: dua kupu-kupu sedang makan di nampan merah di California Academy of Sciences.
- Deskripsi yang dihasilkan:
  - Foto dua kupu-kupu yang sedang memakan buah di atas nampan merah.
  - Bahkan warna dan pola kupu-kupu dijelaskan secara rinci.
- Biaya: sekitar 0,0024 sen, kurang dari 1/400 sen.
Salah satu perubahan terbesar pada 2024:
- Penurunan harga dan berkurangnya biaya energi memaksimalkan kegunaan LLM.

# Penyebaran visi multimodal, dengan audio dan video yang mulai muncul

Tren utama 2024: LLM multimodal (memproses beragam input selain teks seperti gambar, audio, dan video) menjadi hal yang umum.
- Contoh pada 2023:
  - OpenAI GPT-4 Vision: dirilis pada DevDay November 2023.
  - Google Gemini 1.0: diumumkan pada 7 Desember 2023.
- Peluncuran utama 2024:
  - Seri Anthropic Claude 3: dirilis pada Maret.
  - Google Gemini 1.5 Pro: dirilis pada April (mendukung pemrosesan gambar, audio, dan video).
  - Qwen2-VL: dirilis pada September.
  - Mistral Pixtral 12B: dirilis pada September.
  - Meta Llama 3.2: dirilis pada September (model vision 11B dan 90B).
  - Fitur input/output audio OpenAI: ditambahkan pada Oktober.
  - Hugging Face SmolVLM: dirilis pada November.
  - Model gambar dan video Amazon Nova: dirilis pada Desember.
Alat dan dukungan multimodal:
- Pada Oktober 2024, alat CLI LLM yang saya gunakan secara pribadi di-upgrade untuk mendukung model multimodal.
- Menambahkan plugin yang dapat memproses lampiran seperti gambar, audio, dan video.
Pentingnya model multimodal:
- Kritik bahwa peningkatan LLM telah melambat tampak mengabaikan kemajuan model multimodal.
- Menjalankan prompt dengan memanfaatkan gambar, audio, dan video adalah perkembangan menarik yang membuka kemungkinan penggunaan baru.

# Mode suara dan kamera live, fiksi ilmiah yang menjadi nyata

Munculnya mode suara awal:
- Pada September 2023, aplikasi mobile ChatGPT menambahkan fitur percakapan suara.
- Memanfaatkan model Whisper (Speech-to-Text) dan tts-1 (Text-to-Speech), tetapi model sebenarnya hanya memproses teks.
Mode suara GPT-4o:
- Dalam mode suara baru yang diumumkan pada 13 Mei 2024, model GPT-4o benar-benar multimodal dengan dukungan input audio dan output suara yang alami.
- Dalam demo digunakan suara yang mirip Scarlett Johansson, tetapi setelah kontroversi suara tersebut tidak dimasukkan ke produk komersial.
- Penundaan peluncuran mode suara menimbulkan kebingungan, tetapi pada Agustus–September diluncurkan bertahap sebagai mode ChatGPT Advanced Voice.
  - Pengalaman penggunaan: berbicara dengan mode suara saat berjalan-jalan sangat meningkatkan kualitas konten.
  - Eksperimen dengan OpenAI Audio API menunjukkan beragam kemampuan suara.
Karakteristik mode suara:
- Mode Advanced Voice dapat menghadirkan berbagai aksen.
- Contoh: meminta agar model berbicara dalam bahasa Spanyol dengan aksen Rusia yang kental seperti California brown pelican.
Model suara multimodal dari perusahaan lain:
- Google Gemini: mendukung input audio dan dapat melakukan percakapan suara mirip ChatGPT.
- Amazon Nova: mode suara diumumkan lebih dulu (dijadwalkan rilis pada Q1 2025).
- Google NotebookLM (dirilis September 2024): menghasilkan percakapan antara dua "pembawa acara podcast" berdasarkan isi input. Perintah khusus dari pengguna juga dimungkinkan.
Munculnya mode video live:
- Pada Desember 2024, fitur berbagi feed kamera ditambahkan ke mode suara ChatGPT.
- Memungkinkan percakapan tentang feed kamera secara real-time.
- Google Gemini juga menyediakan fitur serupa dalam bentuk pratinjau pada waktu yang sama.
Aksesibilitas API:
- OpenAI dan Google sama-sama menyediakan API untuk fitur-fitur ini.
- Pada Desember, OpenAI mengumumkan WebRTC API untuk menyederhanakan pengembangan aplikasi web berbasis suara.

# Pembuatan aplikasi berbasis prompt, teknologi yang sudah menjadi keseharian

Potensi GPT-4 pada 2023:
- Dengan memanfaatkan GPT-4, dimungkinkan membuat aplikasi interaktif lengkap dalam HTML, CSS, dan JavaScript.
- Alat seperti React juga dapat diintegrasikan melalui mekanisme build tambahan.
Pengenalan Claude Artifacts pada 2024:
- Fitur baru yang diperkenalkan di pertengahan pengumuman Anthropic Claude 3.5 Sonnet.
- Pengguna dapat membuat aplikasi on-demand yang bisa langsung dijalankan di dalam antarmuka Claude.
- Contoh: alat ekstraksi URL yang dibuat melalui Claude.
  - Jika URL dimasukkan, daftar hasil ekstraksi langsung ditampilkan.
- Dibagikan pengalaman membuat 14 alat kecil selama satu minggu dengan Claude Artifacts.
Pesaing menghadirkan fitur serupa:
- GitHub Spark: diumumkan pada Oktober 2024.
- Mistral Chat Canvas: ditambahkan pada November 2024.
- Steve Krause dari Val Town: mewujudkan modifikasi aplikasi real-time menggunakan model Cerebras dengan kecepatan pemrosesan 2.000 token per detik.
- Tim Chatbot Arena: pada Desember memperkenalkan leaderboard baru yang membuat aplikasi yang sama dengan dua model lalu melakukan voting.
Proyek saya sendiri:
- Dalam proyek Datasette, sedang dikembangkan penggunaan prompt untuk membuat widget khusus dan visualisasi data serta memungkinkan pekerjaan iteratif.
- Menerapkan pola serupa untuk menulis satu program Python dengan memanfaatkan uv.
Prospek 2025:
- Setelah masalah sandboxing browser teratasi, besar kemungkinan fitur ini akan menjadi bawaan di berbagai produk.

# Akses gratis ke model terbaik, berakhir hanya dalam beberapa bulan

Penyediaan gratis pada awal 2024:
- GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro—tiga model terbaik saat itu tersedia gratis bagi sebagian besar pengguna.
- OpenAI merilis GPT-4o secara gratis pada Mei 2024.
- Claude 3.5 Sonnet tersedia gratis bersamaan dengan perilisannya pada Juni.
- Sebelumnya pengguna gratis umumnya hanya bisa mengakses model setingkat GPT-3.5, tetapi selama periode ini mereka mendapat kesempatan merasakan kemampuan nyata LLM berperforma tinggi.
Berakhirnya akses gratis:
- OpenAI meluncurkan ChatGPT Pro dan akses gratis pun berakhir.
- ChatGPT Pro mematok biaya langganan $200 per bulan dan memberi akses ke model terkuat, o1 Pro.
Prospek masa depan:
- Ciri utama seri o1 adalah memberikan hasil yang lebih baik dengan memanfaatkan lebih banyak sumber daya komputasi.
- Karena struktur biaya seperti ini, kecil kemungkinan era akses gratis ke model terbaik akan kembali.

# "Agent", konsep yang masih belum menjadi kenyataan

Ketidakjelasan istilah:
- Istilah "agent" tidak memiliki satu definisi yang jelas, dan maknanya berbeda bagi tiap pengguna.
- Secara umum terbagi menjadi dua kategori:
  - agent seperti model agen perjalanan yang menjalankan tugas atas nama pengguna.
  - agent berbasis LLM yang mengakses alat, melakukan pekerjaan berulang, dan memecahkan masalah.
- Istilah "autonomy" juga sering digunakan, tetapi tanpa definisi yang jelas sehingga menambah kebingungan.
Keterbatasan konseptual:
- "Agent" masih bertahan sebagai konsep yang terasa seperti "akan segera hadir".
- Sebanyak 211 definisi dikumpulkan (melalui survei di Twitter) dan diringkas dengan model Gemini-exp-1206, tetapi tetap belum tercapai kesepakatan yang jelas.
Keraguan terhadap kegunaannya:
- Kepraktisan agent dibatasi oleh masalah kecenderungan LLM yang "mudah tertipu".
- Jika tidak dapat membedakan kebenaran dan fiksi, agen perjalanan, asisten digital, atau alat riset akan sulit membuat keputusan yang bermakna.
- Contoh: kasus Google Search yang salah merangkum film fiktif "Encanto 2" dari wiki fan fiction yang tidak nyata.
Prompt injection:
- Masalah yang berasal dari kecenderungan mudah tertipu ini telah dibahas sejak September 2022, tetapi pada 2024 masih belum ada kemajuan besar.
Kesimpulan:
- Gagasan populer tentang agent pada dasarnya tampak bergantung pada AGI itu sendiri.
- Pengembangan model yang dapat diandalkan tetap menjadi tugas yang sangat sulit.

# Pentingnya evaluasi (Evals)

Evaluasi muncul sebagai keterampilan inti:
- Pada 2024, menulis evaluasi otomatis (Evals) yang baik untuk sistem berbasis LLM menjadi keterampilan terpenting.
- Dengan perangkat evaluasi yang kuat, model baru bisa diadopsi dengan cepat, iterasi dapat dilakukan lebih baik, dan pengembangan fitur menjadi lebih andal.
Pendekatan Anthropic:
- Amanda Askell: rahasia prompt sistem yang baik adalah pengembangan berbasis pengujian.
  - "Bukan menulis prompt sistem lalu mencari pengujian, melainkan menulis pengujian lalu mencari prompt sistem yang bisa lolos dari pengujian itu."
- Pendekatan ini memainkan peran kunci dalam pengembangan Claude.
Kasus Vercel:
- Malte Ubl: pada awalnya mereka menggunakan pra-pemrosesan dan pascapemrosesan yang rumit untuk melindungi prompt.
  - Setelah itu mereka menyadari bahwa kesederhanaan prompt, evaluasi, model, dan UX jauh lebih penting, lalu mengubah arah.
  - "Prompt tanpa evaluasi seperti mesin rusak tanpa buku petunjuk."
Eksplorasi pribadi:
- Sedang meneliti pola terbaik untuk menerapkan evaluasi yang efektif.
- Sampai saat ini, pentingnya evaluasi sering ditekankan, tetapi masih kurang panduan bagus tentang cara menerapkannya secara konkret.
- Secara pribadi saya menggunakan benchmark "pelikan SVG yang mengendarai sepeda", tetapi itu bukan pengganti perangkat evaluasi yang benar-benar layak.

# Apple Intelligence mengecewakan, tetapi library MLX sangat unggul

Pengalaman penggunaan ML di Mac membaik:
- Mac dengan RAM 64GB secara teoretis cocok untuk menjalankan model karena CPU dan GPU bisa berbagi memori.
- Namun, karena model dan library lebih memprioritaskan NVIDIA CUDA, pengguna Mac selama ini menghadapi banyak keterbatasan.
Terobosan library MLX:
- MLX dari Apple (framework array untuk Apple Silicon) memungkinkan berbagai model yang kompatibel dengan MLX berjalan dengan performa sangat baik di Mac.
- mlx-lm Python: mendukung model yang kompatibel dengan MLX dan performanya sangat baik.
- mlx-community dari Hugging Face: menyediakan lebih dari 1.000 model yang telah dikonversi ke format yang dibutuhkan.
- Proyek mlx-vlm dari Prince Canuma: memungkinkan vision LLM berjalan di Apple Silicon.
  - Baru-baru ini digunakan untuk menjalankan Qwen QvQ.
Kekecewaan terhadap Apple Intelligence:
- Saat diumumkan pada Juni 2024, ini menimbulkan harapan karena berfokus pada aplikasi LLM yang mengutamakan privasi pengguna.
- Fitur yang benar-benar dirilis ternyata lemah dan tertinggal dibanding kemampuan LLM terdepan.
  - Contoh:
    - Ringkasan notifikasi yang salah merangkum headline berita.
    - Alat bantu menulis yang kurang berguna.
  - Meski begitu, Genmoji dinilai sebagai fitur yang lumayan menyenangkan.
Perubahan pandangan pengguna Mac:
- Berkat alat seperti MLX, kepuasan terhadap pilihan platform Mac meningkat drastis.
- Terutama karena lingkungan untuk menjalankan LLM di Apple Silicon kini jauh lebih baik.

# Munculnya model "reasoning" dengan inference scaling

Munculnya bentuk baru LLM:
- Pada kuartal keempat 2024, model o1 dari OpenAI (o1-preview, o1-mini) pertama kali diumumkan pada 12 September.
- Ini merupakan pengembangan lebih lanjut dari teknik chain-of-thought, yang dirancang agar model memecahkan masalah sambil "berpikir".
Karakteristik model o1:
- Model ini menggunakan "reasoning tokens" untuk menalar suatu masalah; proses ini tidak terlihat langsung oleh pengguna, tetapi ringkasannya bisa dilihat di UI ChatGPT.
- Kinerja dapat ditingkatkan bukan hanya dengan menambah komputasi saat pelatihan, tetapi juga dengan memanfaatkan lebih banyak komputasi saat inferensi.
Potensi penskalaan model:
- Untuk menangani masalah yang lebih sulit, model menggunakan sumber daya komputasi tambahan pada saat inferensi.
- Ini merupakan cara baru untuk memperluas arsitektur model LLM yang ada.
Model lanjutan o3:
- Diumumkan pada 20 Desember 2024 dan mencatat hasil yang mengesankan pada benchmark ARC-AGI.
- Kemungkinan membutuhkan biaya komputasi lebih dari $1,000,000.
- Dijadwalkan rilis pada Januari 2025. Karena biaya komputasinya sangat tinggi, pemanfaatan nyatanya kemungkinan terbatas.
Pengumuman model penting lainnya:
- Google: pada 19 Desember, merilis gemini-2.0-flash-thinking-exp.
- Alibaba: pada 28 November, mengumumkan model QwQ (lisensi Apache 2.0), yang bisa dijalankan secara lokal.
  - Pada 24 Desember, mengumumkan model reasoning vision QvQ, yang juga bisa dijalankan secara lokal.
- DeepSeek: pada 20 November, menyediakan model DeepSeek-R1-Lite-Preview melalui antarmuka chat.
Riset terkait dan prediksi:
- Anthropic dan Meta memang belum membuat pengumuman model resmi, tetapi kemungkinan besar sedang mengembangkan model inference scaling serupa.
- Pada Desember, Meta menerbitkan makalah terkait berjudul Training Large Language Models to Reason in a Continuous Latent Space.
- Bacaan tambahan: Is AI progress slowing down? dari Arvind Narayanan dan Sayash Kapoor direkomendasikan.

# Apakah LLM terbaik saat ini dilatih di Tiongkok dengan biaya kurang dari $6 juta?

Berita utama:
- Pada Hari Natal 2024, DeepSeek v3 dipublikasikan di Hugging Face (diunggah tanpa file README, lalu dokumentasi dan makalah ditambahkan keesokan harinya).
- Ini adalah model raksasa dengan 685B parameter, jauh lebih besar daripada Llama 3.1 405B milik Meta.
- Ini adalah model terbesar yang tersedia dengan lisensi terbuka.
Kinerja:
- Performa benchmark-nya setara dengan Claude 3.5 Sonnet.
- Di Chatbot Arena, model ini berada di peringkat 7, tepat di belakang Gemini 2.0 dan model 4o/o1 dari OpenAI.
- Ini adalah peringkat tertinggi di antara model berlisensi terbuka.
Biaya pelatihan:
- DeepSeek v3: sekitar $5,576,000 dengan 2,788,000 GPU-jam H800.
- Meta Llama 3.1 405B: menggunakan 30,840,000 GPU-jam, 11 kali lebih mahal daripada DeepSeek v3, tetapi performa benchmark-nya sedikit lebih rendah.
Dampak kontrol ekspor GPU ke Tiongkok:
- Kontrol ekspor GPU oleh AS tampaknya sangat mendorong optimalisasi pelatihan.
- Pelatihan DeepSeek v3 yang hemat biaya dipandang sebagai hasil dari optimalisasi tersebut.

# Dampak lingkungan membaik

Konsumsi energi menurun berkat efisiensi yang lebih baik:
- Seiring efisiensi model meningkat tajam, penggunaan energi dan dampak lingkungan dari menjalankan prompt telah turun drastis dalam beberapa tahun terakhir.
- OpenAI telah menurunkan biaya prompt 100 kali lipat dibanding era GPT-3.
- Penyedia model berbiaya rendah seperti Google Gemini dan Amazon Nova juga dapat mengoperasikan prompt tanpa rugi.
Dari sudut pandang pengguna individu:
- Konsumsi energi dari sebagian besar eksekusi prompt pada praktiknya sangat kecil.
- Dampak lingkungannya kemungkinan lebih rendah daripada berkendara jarak pendek atau menonton video YouTube.
Biaya pelatihan menurun:
- Biaya pelatihan DeepSeek v3 yang di bawah $6 juta menunjukkan bahwa biaya pelatihan kemungkinan akan terus turun.
- Pelatihan yang efisien kini dimungkinkan dengan sumber daya yang lebih sedikit.
Dibandingkan dengan model yang tidak efisien:
- Biaya energi untuk melatih model terbesar Llama 3 sebanding dengan beberapa penerbangan komersial penuh penumpang dari New York ke London.
- Namun, setelah pelatihan selesai, model itu bisa digunakan oleh jutaan orang tanpa biaya tambahan, sehingga dalam jangka panjang tetap efisien.

# Dampak lingkungan, makin memburuk

Persaingan pembangunan pusat data skala besar:
- Perusahaan-perusahaan besar seperti Google, Meta, Microsoft, dan Amazon sedang membangun pusat data dengan investasi miliaran dolar untuk memenuhi permintaan model di masa depan.
- Ekspansi infrastruktur ini berdampak besar pada jaringan listrik dan lingkungan.
- Ada juga pembahasan tentang pembangunan pembangkit listrik tenaga nuklir baru, tetapi ini bisa memakan waktu puluhan tahun.
Perdebatan soal kebutuhan infrastruktur:
- Biaya pelatihan DeepSeek v3 sebesar $6 juta dan turunnya harga LLM menunjukkan bahwa ekspansi ini mungkin tidak selalu diperlukan.
- Namun, hampir tidak ada eksekutif yang mau mengambil risiko “tidak membangun infrastruktur lalu nanti terbukti itu keputusan yang salah”.
Kemiripan historis:
- Ini bisa dibandingkan dengan masa pembangunan jaringan kereta api di seluruh dunia pada 1800-an.
- Saat itu juga melibatkan investasi besar dan dampak lingkungan, dengan banyak jalur yang tumpang tindih hingga menghasilkan pemborosan.
- Pada akhirnya memicu beberapa krisis keuangan besar:
  - Panic of 1873, Panic of 1893, Panic of 1901, dan Railway Mania di Inggris.
- Infrastruktur tetap tertinggal, tetapi disertai kebangkrutan besar-besaran dan kerusakan lingkungan.
Pelajaran untuk masa kini:
- Persaingan pusat data mungkin meninggalkan infrastruktur yang berguna, tetapi juga berisiko menyebabkan ekspansi yang tidak perlu dan kerusakan lingkungan.

# Tahun 2024, tahun "Slop"

Definisi "Slop":
- Istilah ini mulai menetap untuk merujuk pada konten buatan AI yang tidak diinginkan dan tidak ditinjau.
- Seperti halnya "spam" kemudian berarti email yang tidak diinginkan, "slop" juga dipakai luas hingga layak masuk kamus.
Asal-usul istilah:
- Diskusi ini berawal dari tweet @deepfates:
  - “Sedang menyaksikan secara langsung bagaimana 'slop' menjadi sebuah istilah.”
- Pada Mei 2024, konsep ini diperluas dan didefinisikan sebagai “konten buatan AI yang tidak diminta dan tidak ditinjau”.
Respons media:
- Wawancara tentang "slop" dikutip oleh NY Times dan Guardian:
  - “Kita membutuhkan istilah singkat untuk menggambarkan AI modern. ‘Abaikan email itu, itu spam.’ dan ‘Abaikan artikel itu, itu slop.’ keduanya adalah pelajaran yang berguna.”
Pentingnya slop:
- Berguna untuk mengekspresikan secara ringkas cara penyalahgunaan generative AI.
- Membantu mendorong penggunaan AI yang efisien dan bertanggung jawab.
Dampak budaya pada 2024:
- "Slop" sempat masuk nominasi Word of the Year versi Oxford, tetapi kalah dari "brain rot".

# Efek mengejutkan dari data pelatihan sintetis

Konsep "model collapse":
- Pertama kali disebut dalam paper Mei 2023 The Curse of Recursion, lalu mendapat perhatian lebih besar di Nature pada Juli 2024.
- Klaimnya: jika konten buatan AI membanjiri internet, model akan berulang kali belajar dari output-nya sendiri dan kualitasnya akan menurun.
- Kenyataannya: keruntuhan seperti itu tidak terjadi, dan justru pelatihan model dengan data sintetis makin menjadi hal umum.
Keunggulan data sintetis:
- Dijelaskan dalam Phi-4 technical report:
  - Data sintetis bukan sekadar pengganti data organik, tetapi memberikan manfaat langsung seperti:
    - Pembelajaran yang terstruktur dan bertahap:
      - Data organik sulit dipelajari karena hubungan antar-token kompleks dan tidak langsung.
      - Sebaliknya, data sintetis lebih mudah dipelajari pola penalarannya karena dihasilkan model bahasa berdasarkan token-token sebelumnya.
    - Proses pembelajarannya lebih sistematis dan dapat diprediksi.
Contoh model besar membantu model kecil:
- Model besar menghasilkan data sintetis untuk model yang lebih kecil:
  - DeepSeek v3: menggunakan data "penalaran" yang dihasilkan DeepSeek-R1.
  - Meta Llama 3.3 70B: di-fine-tune dengan lebih dari 25 juta contoh sintetis.
Pentingnya desain data:
- Desain data muncul sebagai faktor terpenting dalam pelatihan LLM.
- Pendekatan lama yang sekadar mengeruk seluruh data internet secara membabi buta untuk pelatihan sudah tidak lagi digunakan.

# Tahun 2024 ketika menggunakan LLM menjadi lebih sulit

LLM adalah alat yang kompleks:
- Dari luar terlihat sederhana, tetapi sebenarnya merupakan “alat untuk power user” yang membutuhkan pemahaman mendalam dan pengalaman.
- Digambarkan dengan analogi “alat serumit gergaji mesin yang disamarkan agar terlihat seperti pisau dapur”.
Masalah yang memburuk pada 2024:
- Model menjadi lebih kuat, tetapi tetap memiliki keterbatasan dan batasan lama.
- Berbagai sistem diperkenalkan, masing-masing mendukung alat yang berbeda-beda seperti Python, JavaScript, pencarian web, pembuatan gambar, dan lain-lain.
- Pengguna harus memahami kemampuan dan batasan tiap alat agar bisa memakainya secara efektif.
Kompleksitas yang meningkat antar-sistem:
- Contoh: di ChatGPT, Python bisa dijalankan dengan dua cara berbeda.
- Untuk membuat Claude Artifact yang berkomunikasi dengan API eksternal, diperlukan pemahaman tentang header HTTP CSP dan CORS.
- o1 dari OpenAI berjalan dengan fitur terbatas, sedangkan GPT-4o mendukung pencarian web dan code interpreter.
  - Pengguna harus memahami perbedaan kemampuan kedua model itu dalam UI ChatGPT yang sama.
Keterbatasan pengalaman pengguna:
- UI chat dasar LLM memberikan pengalaman seperti melempar pemula ke terminal Linux.
- Banyak pengguna mengembangkan model mental yang keliru tentang cara kerja dan kemampuan LLM.
  - Contoh: makin banyak kasus irasional yang memakai screenshot ChatGPT sebagai bukti dalam perdebatan.
Masalah ganda:
- Penyalahgunaan: pengguna salah mengira LLM sebagai alat serba bisa meskipun teknologi ini tidak sempurna.
- Penghindaran: bahkan orang yang paham pun sepenuhnya berhenti memakai LLM karena cacat-cacatnya.
- Untuk memanfaatkan LLM secara efektif, kemampuan bekerja sama dengan teknologi yang kuat namun tidak sempurna adalah hal yang esensial.
Perlunya konten edukasi:
- Edukasi pengguna itu penting, tetapi saat ini masih kurang.
- Alih-alih bergantung pada thread Twitter AI yang berlebihan, perlu dikembangkan materi edukasi yang lebih tepercaya.

# Distribusi pengetahuan yang tidak merata

Apa yang diketahui dan tidak diketahui:
- Sebagian besar orang tahu ChatGPT, tetapi sangat sedikit yang pernah mendengar tentang Claude.
- Kesenjangan pengetahuan antara orang yang aktif mengikuti bidang ini dan 99% sisanya sangat besar.
Kecepatan perubahan yang tinggi:
- Laju perubahan teknologi makin memperparah kesenjangan pengetahuan ini.
- Dalam sebulan terakhir, antarmuka live telah diperkenalkan:
  - Pengguna bisa menunjuk sesuatu dengan kamera ponsel sambil berbicara.
  - Ada juga opsi untuk membuatnya meniru peran Santa Claus.
- Bahkan orang yang mengaku penggemar teknologi pun sering kali belum mencoba fitur-fitur ini.
Dampak sosial dan kebutuhan yang muncul:
- Mengingat dampak teknologi ini terhadap masyarakat saat ini dan di masa depan, besarnya kesenjangan pengetahuan ini tidaklah sehat.
- Diperlukan lebih banyak upaya untuk memperbaikinya.

# Kita membutuhkan kritik yang lebih baik terhadap LLM

Sentimen negatif terhadap teknologi:
- Di beberapa komunitas seperti Mastodon, Bluesky, Lobste.rs, dan Hacker News, bahkan pendapat bahwa “LLM itu berguna” saja bisa memicu perdebatan.
- Alasan munculnya sentimen negatif terhadap teknologi:
  - Dampak terhadap lingkungan.
  - Masalah etika pada data pelatihan.
  - Kurangnya keandalan.
  - Contoh penggunaan yang negatif.
  - Potensi dampaknya terhadap pekerjaan.
Pentingnya kritik:
- LLM memang pantas dikritik, dan penting untuk membahas masalahnya, mencari solusinya, serta mengedukasi cara penggunaan yang bertanggung jawab.
- Tujuannya adalah membantu agar pemanfaatan positif lebih besar daripada dampak negatifnya.
Nilai dari sudut pandang skeptis:
- Hype yang berlebihan memperburuk masalah selama dua tahun terakhir:
  - Misinformasi dan ekspektasi yang dibesar-besarkan merajalela.
  - Keputusan yang keliru sering diambil.
- Pemikiran kritis sangat penting untuk memahami dan memanfaatkan teknologi ini dengan benar.
Percakapan dengan para pengambil keputusan:
- Sambil mengakui contoh penggunaan alat yang baik, kita juga harus menjelaskan cara menghindari jebakan yang tidak intuitif.
- Mengklaim bahwa tidak ada contoh penggunaan yang baik berarti mengabaikan potensi nilai dari teknologi ini.
Menyampaikan pesan yang tepat:
- Kritik yang sepotong-sepotong seperti “mesin plagiat yang merusak lingkungan dan selalu berbohong” tidak membantu menyelesaikan masalah.
- Untuk menemukan dan mewujudkan nilai sejati LLM, dibutuhkan panduan dan edukasi yang tidak selalu intuitif.
Peran yang bertanggung jawab:
- Orang-orang yang memahami teknologi ini memiliki tanggung jawab untuk membantu orang lain menggunakannya dengan benar.

1 komentar

GN⁺ 2025-01-01

Pendapat Hacker News

Banyak orang cenderung menganggap LLMs tidak berguna setelah memakai ChatGPT 4. Namun, Claude Sonnet 3.5 masih bisa berguna
- Kegunaan LLMs sangat bergantung pada kemampuan komunikasi pengguna
- Performa LLMs bisa dimaksimalkan lewat pertanyaan yang akurat dan penjelasan latar belakang yang jelas
- Berguna untuk menyelesaikan pekerjaan membosankan dengan cepat
Istilah "agen" tidak punya makna yang jelas sehingga menimbulkan kebingungan
- Kata populer "agentic" bisa terasa menjengkelkan
Ada kekhawatiran soal penurunan harga LLM
- Tier gratis Gemini masih menarik, tetapi sulit dipercaya
- Ada kekhawatiran harga bisa naik lagi pada paruh pertama 2025
Konsep "agen" masih belum didefinisikan dengan jelas
- Ada yang berpendapat bahwa "agen" sejati harus mencakup otonomi
Tidak setuju dengan klaim bahwa penggunaan LLMs menjadi lebih sulit
- Pilihannya memang bertambah banyak, tetapi penggunaannya sendiri tidak menjadi lebih sulit
- Untuk pemula, panduan yang diberikan masih sama
Menjadi lebih sulit untuk menilai apa yang "bagus"
- Manipulasi benchmark makin banyak sehingga membingungkan
- Ada niat untuk membangun framework pengujian pribadi
Ada orang yang berhenti memakai LLMs karena cacatnya
- Untuk memanfaatkan LLMs semaksimal mungkin, kita perlu belajar bekerja dengan teknologi yang tidak stabil namun kuat
Beberapa model GPT-4 bisa dijalankan bahkan di laptop
- Ini berarti pusat data berskala besar tidak selalu diperlukan
- Nilai OpenAI mungkin telah dibesar-besarkan
Tidak mengerti mengapa penggunaan 64GB DRAM oleh Apple dianggap istimewa
- Muncul pertanyaan bagaimana Apple mendapatkan pasokan DRAM meskipun pusat data menyerap sebagian besar kapasitas produksi RAM
Ada kebingungan tentang struktur biaya Google Gemini dan Amazon Nova
- Ada klaim bahwa layanannya ditawarkan dengan harga lebih rendah daripada biaya energi, dan ada juga klaim sebaliknya
Ada pendapat bahwa LLMs tidak berguna untuk pekerjaan sehari-hari
- Ada klaim bahwa model LLM baru hanyalah peningkatan yang dibesar-besarkan
Menyadari bahwa standar moralitas dan keunggulan di industri ini rendah
Ada pertanyaan tentang kondisi saat ini yang mendorong "penalaran" ke ruang laten/saraf
- Model yang berdialog dengan dirinya sendiri kurang terkait dengan keluaran akhir sehingga tidak efisien

Hal-Hal yang Saya Pelajari tentang LLM di 2024

# Melampaui batas GPT-4 sepenuhnya

# Beberapa model GPT-4 berjalan di laptop saya

# Harga LLM anjlok, perubahan yang didorong persaingan dan efisiensi

# Penyebaran visi multimodal, dengan audio dan video yang mulai muncul

# Mode suara dan kamera live, fiksi ilmiah yang menjadi nyata

# Pembuatan aplikasi berbasis prompt, teknologi yang sudah menjadi keseharian

# Akses gratis ke model terbaik, berakhir hanya dalam beberapa bulan

# "Agent", konsep yang masih belum menjadi kenyataan

# Pentingnya evaluasi (Evals)

# Apple Intelligence mengecewakan, tetapi library MLX sangat unggul

# Munculnya model "reasoning" dengan inference scaling

# Apakah LLM terbaik saat ini dilatih di Tiongkok dengan biaya kurang dari $6 juta?

# Dampak lingkungan membaik

# Dampak lingkungan, makin memburuk

# Tahun 2024, tahun "Slop"

# Efek mengejutkan dari data pelatihan sintetis

# Tahun 2024 ketika menggunakan LLM menjadi lebih sulit

# Distribusi pengetahuan yang tidak merata

# Kita membutuhkan kritik yang lebih baik terhadap LLM

Bacaan terkait

1 komentar

Pendapat Hacker News