22 poin oleh GN⁺ 2025-01-01 | 1 komentar | Bagikan ke WhatsApp

Ringkasan Simon Willison tentang seluruh perubahan terkait LLM pada 2024

  • Melampaui batas GPT-4 sepenuhnya
  • Beberapa model GPT-4 berjalan di laptop saya
  • Harga LLM anjlok, perubahan yang didorong persaingan dan efisiensi
  • Penyebaran visi multimodal, dengan audio dan video yang mulai muncul
  • Suara dan mode kamera langsung, fiksi ilmiah yang jadi nyata
  • Pembuatan aplikasi berbasis prompt, teknologi yang sudah menjadi keseharian
  • Akses gratis ke model terbaik, berakhir hanya dalam beberapa bulan
  • "Agent", konsep yang masih belum benar-benar terwujud
  • Pentingnya evaluasi (Evals)
  • Apple Intelligence mengecewakan, tetapi library MLX sangat unggul
  • Penskalaan inferensi dan kebangkitan model "Reasoning"
  • Apakah LLM terbaik saat ini dilatih di Tiongkok dengan biaya kurang dari $6 juta?
  • Dampak lingkungan membaik
  • Dampak lingkungan memburuk lebih jauh
  • 2024, tahun dari "Slop"
  • Efek mengejutkan dari data pelatihan sintetis
  • 2024, tahun ketika penggunaan LLM menjadi lebih sulit
  • Distribusi pengetahuan yang tidak merata
  • Kita membutuhkan kritik yang lebih baik terhadap LLM

# Melampaui batas GPT-4 sepenuhnya

  • Situasi pada 2023: GPT-4 dinilai sebagai model bahasa terbaik, dan laboratorium AI lain belum mampu melampauinya. Rahasia teknis yang dimiliki OpenAI menjadi sorotan.
  • Perubahan pada 2024: 18 organisasi merilis model yang mengungguli GPT-4. Saat ini ada 70 model yang terdaftar di papan peringkat Chatbot Arena yang melampaui GPT-4-0314 (dirilis pada Maret 2023).
  • Model utama dan perkembangan teknis
    • Google Gemini 1.5 Pro: dirilis pada Februari 2024
      • Menyediakan output setara GPT-4 dan fitur-fitur baru
      • Mendukung panjang konteks input 1 juta token (kemudian 2 juta)
      • Memperkenalkan kemampuan input video
      • Dapat memproses input panjang untuk menyelesaikan masalah pemrograman dan menganalisis keseluruhan buku
      • Dibahas sebagai pengumuman penting dalam keynote Google I/O 2024
    • Seri Anthropic Claude 3:
      • Claude 3 Opus: dirilis pada Maret 2024, menarik perhatian karena performanya yang tinggi
      • Claude 3.5 Sonnet: dirilis pada Juni, versi peningkatan diumumkan pada 22 Oktober
      • Bahkan setelah peningkatan, nomor versinya tetap 3.5, sehingga oleh para penggemarnya disebut Claude 3.6
  • Perluasan panjang konteks
    • 2023: sebagian besar model mendukung 4.096~8.192 token. Claude 2.1 menjadi pengecualian dengan 200 ribu token
    • 2024: model-model utama mendukung lebih dari 100 ribu token, dan seri Google Gemini mendukung hingga 2 juta token
    • Dapat menangani data input panjang untuk menyelesaikan berbagai masalah
    • Menguntungkan untuk menganalisis keseluruhan buku atau memecahkan masalah berdasarkan kode contoh
  • Model dan organisasi yang melampaui GPT-4
    • Berdasarkan papan peringkat Chatbot Arena, organisasi yang memiliki model dengan performa lebih tinggi daripada GPT-4-0314 adalah:
      • Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI, dan 18 organisasi lainnya
    • Di papan peringkat, GPT-4-0314 saat ini berada di kisaran peringkat 70

# Beberapa model GPT-4 berjalan di laptop saya

  • Perangkat yang digunakan: M2 MacBook Pro dengan RAM 64GB yang dirilis pada 2023. Perangkat ini berusia sekitar dua tahun, laptop yang sama yang pertama kali digunakan untuk menjalankan LLM pada Maret 2023.
  • Perubahan performa: Pada awalnya nyaris hanya bisa menjalankan model setingkat GPT-3, tetapi sekarang bahkan model setingkat GPT-4 pun bisa dijalankan.
    • Qwen2.5-Coder-32B: model khusus coding dengan lisensi Apache 2.0, pada November 2024.
    • Meta Llama 3.3 70B: model setara GPT-4 yang dirilis pada Desember 2024.
  • Mengapa ini penting: Mengejutkan bahwa model setingkat GPT-4 kini bisa berjalan di laptop, bukan hanya di server pusat data dengan GPU senilai lebih dari $40.000.
    • Karena hampir seluruh RAM 64GB terpakai, sulit melakukan pekerjaan lain secara bersamaan.
    • Hal ini dimungkinkan berkat peningkatan efisiensi model. Ini tampaknya merupakan hasil optimasi selama setahun terakhir.
    • Masih diharapkan ada ruang untuk peningkatan efisiensi lebih jauh.
  • Model Meta Llama 3.2: Memang bukan setingkat GPT-4, tetapi model berukuran 1B dan 3B menunjukkan performa yang sangat baik meski ukurannya kecil.
    • Llama 3.2 3B: dapat dijalankan lewat aplikasi iOS gratis MLC Chat.
    • Ukurannya kurang dari 2GB, bisa berjalan di iPhone dan menghasilkan 20 token per detik.
    • Contoh: saat diminta membuat "sinopsis film Natal Netflix tentang seorang jurnalis data yang jatuh cinta pada pembuat keramik lokal", model menghasilkan jawaban yang sederhana tetapi memadai.
      • Judul: "Love in the Clay"
      • Sinopsis: tokoh utama Jessica kembali ke kampung halamannya di Willow Creek dan cerita berkembang saat ia menyelidiki sejarah lokal serta dampak gentrifikasi.
    • Hasilnya biasa saja, tetapi tetap menarik bahwa pekerjaan seperti ini bisa dilakukan bahkan di iPhone.

# Harga LLM anjlok, perubahan yang didorong persaingan dan efisiensi

  • Harga pada akhir 2023: Harga model utama OpenAI saat itu adalah sebagai berikut.
    • GPT-4: $30/million input tokens
    • GPT-4 Turbo: $10/mTok
    • GPT-3.5 Turbo: $1/mTok
  • Perubahan harga pada 2024:
    • OpenAI o1: $30/mTok, model termahal
    • GPT-4o: $2.50/mTok (12 kali lebih murah dibanding GPT-4)
    • GPT-4o Mini: $0.15/mTok (sekitar 7 kali lebih murah dibanding GPT-3.5 namun dengan performa lebih baik)
    • Anthropic Claude 3 Haiku: $0.25/mTok (dirilis pada Maret, model termurah Anthropic)
    • Google Gemini 1.5 Flash: $0.075/mTok
    • Google Gemini 1.5 Flash 8B: $0.0375/mTok (27 kali lebih murah dibanding GPT-3.5 Turbo)
  • Faktor penurunan harga:
    • Persaingan yang meningkat: semakin banyak penyedia model masuk ke pasar, sehingga persaingan harga makin ketat.
    • Peningkatan efisiensi: optimasi pada proses pelatihan dan inferensi model menurunkan konsumsi energi.
      • Kekhawatiran terhadap biaya energi untuk menjalankan prompt individual berkurang.
  • Efisiensi dan biaya lingkungan:
    • Peningkatan efisiensi energi mengurangi kekhawatiran lingkungan.
    • Namun, dampak lingkungan dari pembangunan pusat data tetap menjadi masalah.
  • Perhitungan biaya penggunaan nyata:
    • Menghitung biaya pembuatan deskripsi untuk pustaka foto pribadi (68.000 gambar) menggunakan Google Gemini 1.5 Flash 8B.
      • Setiap foto membutuhkan 260 input tokens dan 100 output tokens.
      • Total 17.680.000 input tokens * $0.0375/million = $0.66
      • Total 6.800.000 output tokens * $0.15/million = $1.02
      • Total biaya: 68.000 foto dapat diproses dengan $1.68.
  • Contoh deskripsi:
    • Foto: dua kupu-kupu sedang makan di nampan merah di California Academy of Sciences.
    • Deskripsi yang dihasilkan:
      • Foto dua kupu-kupu yang sedang memakan buah di atas nampan merah.
      • Bahkan warna dan pola kupu-kupu dijelaskan secara rinci.
    • Biaya: sekitar 0,0024 sen, kurang dari 1/400 sen.
  • Salah satu perubahan terbesar pada 2024:
    • Penurunan harga dan berkurangnya biaya energi memaksimalkan kegunaan LLM.

# Penyebaran visi multimodal, dengan audio dan video yang mulai muncul

  • Tren utama 2024: LLM multimodal (memproses beragam input selain teks seperti gambar, audio, dan video) menjadi hal yang umum.
    • Contoh pada 2023:
      • OpenAI GPT-4 Vision: dirilis pada DevDay November 2023.
      • Google Gemini 1.0: diumumkan pada 7 Desember 2023.
    • Peluncuran utama 2024:
      • Seri Anthropic Claude 3: dirilis pada Maret.
      • Google Gemini 1.5 Pro: dirilis pada April (mendukung pemrosesan gambar, audio, dan video).
      • Qwen2-VL: dirilis pada September.
      • Mistral Pixtral 12B: dirilis pada September.
      • Meta Llama 3.2: dirilis pada September (model vision 11B dan 90B).
      • Fitur input/output audio OpenAI: ditambahkan pada Oktober.
      • Hugging Face SmolVLM: dirilis pada November.
      • Model gambar dan video Amazon Nova: dirilis pada Desember.
  • Alat dan dukungan multimodal:
    • Pada Oktober 2024, alat CLI LLM yang saya gunakan secara pribadi di-upgrade untuk mendukung model multimodal.
    • Menambahkan plugin yang dapat memproses lampiran seperti gambar, audio, dan video.
  • Pentingnya model multimodal:
    • Kritik bahwa peningkatan LLM telah melambat tampak mengabaikan kemajuan model multimodal.
    • Menjalankan prompt dengan memanfaatkan gambar, audio, dan video adalah perkembangan menarik yang membuka kemungkinan penggunaan baru.

# Mode suara dan kamera live, fiksi ilmiah yang menjadi nyata

  • Munculnya mode suara awal:
    • Pada September 2023, aplikasi mobile ChatGPT menambahkan fitur percakapan suara.
    • Memanfaatkan model Whisper (Speech-to-Text) dan tts-1 (Text-to-Speech), tetapi model sebenarnya hanya memproses teks.
  • Mode suara GPT-4o:
    • Dalam mode suara baru yang diumumkan pada 13 Mei 2024, model GPT-4o benar-benar multimodal dengan dukungan input audio dan output suara yang alami.
    • Dalam demo digunakan suara yang mirip Scarlett Johansson, tetapi setelah kontroversi suara tersebut tidak dimasukkan ke produk komersial.
    • Penundaan peluncuran mode suara menimbulkan kebingungan, tetapi pada Agustus–September diluncurkan bertahap sebagai mode ChatGPT Advanced Voice.
      • Pengalaman penggunaan: berbicara dengan mode suara saat berjalan-jalan sangat meningkatkan kualitas konten.
      • Eksperimen dengan OpenAI Audio API menunjukkan beragam kemampuan suara.
  • Karakteristik mode suara:
    • Mode Advanced Voice dapat menghadirkan berbagai aksen.
    • Contoh: meminta agar model berbicara dalam bahasa Spanyol dengan aksen Rusia yang kental seperti California brown pelican.
  • Model suara multimodal dari perusahaan lain:
    • Google Gemini: mendukung input audio dan dapat melakukan percakapan suara mirip ChatGPT.
    • Amazon Nova: mode suara diumumkan lebih dulu (dijadwalkan rilis pada Q1 2025).
    • Google NotebookLM (dirilis September 2024): menghasilkan percakapan antara dua "pembawa acara podcast" berdasarkan isi input. Perintah khusus dari pengguna juga dimungkinkan.
  • Munculnya mode video live:
    • Pada Desember 2024, fitur berbagi feed kamera ditambahkan ke mode suara ChatGPT.
    • Memungkinkan percakapan tentang feed kamera secara real-time.
    • Google Gemini juga menyediakan fitur serupa dalam bentuk pratinjau pada waktu yang sama.
  • Aksesibilitas API:
    • OpenAI dan Google sama-sama menyediakan API untuk fitur-fitur ini.
    • Pada Desember, OpenAI mengumumkan WebRTC API untuk menyederhanakan pengembangan aplikasi web berbasis suara.

# Pembuatan aplikasi berbasis prompt, teknologi yang sudah menjadi keseharian

  • Potensi GPT-4 pada 2023:
    • Dengan memanfaatkan GPT-4, dimungkinkan membuat aplikasi interaktif lengkap dalam HTML, CSS, dan JavaScript.
    • Alat seperti React juga dapat diintegrasikan melalui mekanisme build tambahan.
  • Pengenalan Claude Artifacts pada 2024:
    • Fitur baru yang diperkenalkan di pertengahan pengumuman Anthropic Claude 3.5 Sonnet.
    • Pengguna dapat membuat aplikasi on-demand yang bisa langsung dijalankan di dalam antarmuka Claude.
    • Contoh: alat ekstraksi URL yang dibuat melalui Claude.
      • Jika URL dimasukkan, daftar hasil ekstraksi langsung ditampilkan.
    • Dibagikan pengalaman membuat 14 alat kecil selama satu minggu dengan Claude Artifacts.
  • Pesaing menghadirkan fitur serupa:
    • GitHub Spark: diumumkan pada Oktober 2024.
    • Mistral Chat Canvas: ditambahkan pada November 2024.
    • Steve Krause dari Val Town: mewujudkan modifikasi aplikasi real-time menggunakan model Cerebras dengan kecepatan pemrosesan 2.000 token per detik.
    • Tim Chatbot Arena: pada Desember memperkenalkan leaderboard baru yang membuat aplikasi yang sama dengan dua model lalu melakukan voting.
  • Proyek saya sendiri:
    • Dalam proyek Datasette, sedang dikembangkan penggunaan prompt untuk membuat widget khusus dan visualisasi data serta memungkinkan pekerjaan iteratif.
    • Menerapkan pola serupa untuk menulis satu program Python dengan memanfaatkan uv.
  • Prospek 2025:
    • Setelah masalah sandboxing browser teratasi, besar kemungkinan fitur ini akan menjadi bawaan di berbagai produk.

# Akses gratis ke model terbaik, berakhir hanya dalam beberapa bulan

  • Penyediaan gratis pada awal 2024:
    • GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro—tiga model terbaik saat itu tersedia gratis bagi sebagian besar pengguna.
    • OpenAI merilis GPT-4o secara gratis pada Mei 2024.
    • Claude 3.5 Sonnet tersedia gratis bersamaan dengan perilisannya pada Juni.
    • Sebelumnya pengguna gratis umumnya hanya bisa mengakses model setingkat GPT-3.5, tetapi selama periode ini mereka mendapat kesempatan merasakan kemampuan nyata LLM berperforma tinggi.
  • Berakhirnya akses gratis:
    • OpenAI meluncurkan ChatGPT Pro dan akses gratis pun berakhir.
    • ChatGPT Pro mematok biaya langganan $200 per bulan dan memberi akses ke model terkuat, o1 Pro.
  • Prospek masa depan:
    • Ciri utama seri o1 adalah memberikan hasil yang lebih baik dengan memanfaatkan lebih banyak sumber daya komputasi.
    • Karena struktur biaya seperti ini, kecil kemungkinan era akses gratis ke model terbaik akan kembali.

# "Agent", konsep yang masih belum menjadi kenyataan

  • Ketidakjelasan istilah:
    • Istilah "agent" tidak memiliki satu definisi yang jelas, dan maknanya berbeda bagi tiap pengguna.
    • Secara umum terbagi menjadi dua kategori:
      • agent seperti model agen perjalanan yang menjalankan tugas atas nama pengguna.
      • agent berbasis LLM yang mengakses alat, melakukan pekerjaan berulang, dan memecahkan masalah.
    • Istilah "autonomy" juga sering digunakan, tetapi tanpa definisi yang jelas sehingga menambah kebingungan.
  • Keterbatasan konseptual:
    • "Agent" masih bertahan sebagai konsep yang terasa seperti "akan segera hadir".
    • Sebanyak 211 definisi dikumpulkan (melalui survei di Twitter) dan diringkas dengan model Gemini-exp-1206, tetapi tetap belum tercapai kesepakatan yang jelas.
  • Keraguan terhadap kegunaannya:
    • Kepraktisan agent dibatasi oleh masalah kecenderungan LLM yang "mudah tertipu".
    • Jika tidak dapat membedakan kebenaran dan fiksi, agen perjalanan, asisten digital, atau alat riset akan sulit membuat keputusan yang bermakna.
    • Contoh: kasus Google Search yang salah merangkum film fiktif "Encanto 2" dari wiki fan fiction yang tidak nyata.
  • Prompt injection:
    • Masalah yang berasal dari kecenderungan mudah tertipu ini telah dibahas sejak September 2022, tetapi pada 2024 masih belum ada kemajuan besar.
  • Kesimpulan:
    • Gagasan populer tentang agent pada dasarnya tampak bergantung pada AGI itu sendiri.
    • Pengembangan model yang dapat diandalkan tetap menjadi tugas yang sangat sulit.

# Pentingnya evaluasi (Evals)

  • Evaluasi muncul sebagai keterampilan inti:
    • Pada 2024, menulis evaluasi otomatis (Evals) yang baik untuk sistem berbasis LLM menjadi keterampilan terpenting.
    • Dengan perangkat evaluasi yang kuat, model baru bisa diadopsi dengan cepat, iterasi dapat dilakukan lebih baik, dan pengembangan fitur menjadi lebih andal.
  • Pendekatan Anthropic:
    • Amanda Askell: rahasia prompt sistem yang baik adalah pengembangan berbasis pengujian.
      • "Bukan menulis prompt sistem lalu mencari pengujian, melainkan menulis pengujian lalu mencari prompt sistem yang bisa lolos dari pengujian itu."
    • Pendekatan ini memainkan peran kunci dalam pengembangan Claude.
  • Kasus Vercel:
    • Malte Ubl: pada awalnya mereka menggunakan pra-pemrosesan dan pascapemrosesan yang rumit untuk melindungi prompt.
      • Setelah itu mereka menyadari bahwa kesederhanaan prompt, evaluasi, model, dan UX jauh lebih penting, lalu mengubah arah.
      • "Prompt tanpa evaluasi seperti mesin rusak tanpa buku petunjuk."
  • Eksplorasi pribadi:
    • Sedang meneliti pola terbaik untuk menerapkan evaluasi yang efektif.
    • Sampai saat ini, pentingnya evaluasi sering ditekankan, tetapi masih kurang panduan bagus tentang cara menerapkannya secara konkret.
    • Secara pribadi saya menggunakan benchmark "pelikan SVG yang mengendarai sepeda", tetapi itu bukan pengganti perangkat evaluasi yang benar-benar layak.

# Apple Intelligence mengecewakan, tetapi library MLX sangat unggul

  • Pengalaman penggunaan ML di Mac membaik:
    • Mac dengan RAM 64GB secara teoretis cocok untuk menjalankan model karena CPU dan GPU bisa berbagi memori.
    • Namun, karena model dan library lebih memprioritaskan NVIDIA CUDA, pengguna Mac selama ini menghadapi banyak keterbatasan.
  • Terobosan library MLX:
    • MLX dari Apple (framework array untuk Apple Silicon) memungkinkan berbagai model yang kompatibel dengan MLX berjalan dengan performa sangat baik di Mac.
    • mlx-lm Python: mendukung model yang kompatibel dengan MLX dan performanya sangat baik.
    • mlx-community dari Hugging Face: menyediakan lebih dari 1.000 model yang telah dikonversi ke format yang dibutuhkan.
    • Proyek mlx-vlm dari Prince Canuma: memungkinkan vision LLM berjalan di Apple Silicon.
      • Baru-baru ini digunakan untuk menjalankan Qwen QvQ.
  • Kekecewaan terhadap Apple Intelligence:
    • Saat diumumkan pada Juni 2024, ini menimbulkan harapan karena berfokus pada aplikasi LLM yang mengutamakan privasi pengguna.
    • Fitur yang benar-benar dirilis ternyata lemah dan tertinggal dibanding kemampuan LLM terdepan.
      • Contoh:
        • Ringkasan notifikasi yang salah merangkum headline berita.
        • Alat bantu menulis yang kurang berguna.
      • Meski begitu, Genmoji dinilai sebagai fitur yang lumayan menyenangkan.
  • Perubahan pandangan pengguna Mac:
    • Berkat alat seperti MLX, kepuasan terhadap pilihan platform Mac meningkat drastis.
    • Terutama karena lingkungan untuk menjalankan LLM di Apple Silicon kini jauh lebih baik.

# Munculnya model "reasoning" dengan inference scaling

  • Munculnya bentuk baru LLM:
    • Pada kuartal keempat 2024, model o1 dari OpenAI (o1-preview, o1-mini) pertama kali diumumkan pada 12 September.
    • Ini merupakan pengembangan lebih lanjut dari teknik chain-of-thought, yang dirancang agar model memecahkan masalah sambil "berpikir".
  • Karakteristik model o1:
    • Model ini menggunakan "reasoning tokens" untuk menalar suatu masalah; proses ini tidak terlihat langsung oleh pengguna, tetapi ringkasannya bisa dilihat di UI ChatGPT.
    • Kinerja dapat ditingkatkan bukan hanya dengan menambah komputasi saat pelatihan, tetapi juga dengan memanfaatkan lebih banyak komputasi saat inferensi.
  • Potensi penskalaan model:
    • Untuk menangani masalah yang lebih sulit, model menggunakan sumber daya komputasi tambahan pada saat inferensi.
    • Ini merupakan cara baru untuk memperluas arsitektur model LLM yang ada.
  • Model lanjutan o3:
    • Diumumkan pada 20 Desember 2024 dan mencatat hasil yang mengesankan pada benchmark ARC-AGI.
    • Kemungkinan membutuhkan biaya komputasi lebih dari $1,000,000.
    • Dijadwalkan rilis pada Januari 2025. Karena biaya komputasinya sangat tinggi, pemanfaatan nyatanya kemungkinan terbatas.
  • Pengumuman model penting lainnya:
    • Google: pada 19 Desember, merilis gemini-2.0-flash-thinking-exp.
    • Alibaba: pada 28 November, mengumumkan model QwQ (lisensi Apache 2.0), yang bisa dijalankan secara lokal.
      • Pada 24 Desember, mengumumkan model reasoning vision QvQ, yang juga bisa dijalankan secara lokal.
    • DeepSeek: pada 20 November, menyediakan model DeepSeek-R1-Lite-Preview melalui antarmuka chat.
  • Riset terkait dan prediksi:
    • Anthropic dan Meta memang belum membuat pengumuman model resmi, tetapi kemungkinan besar sedang mengembangkan model inference scaling serupa.
    • Pada Desember, Meta menerbitkan makalah terkait berjudul Training Large Language Models to Reason in a Continuous Latent Space.
    • Bacaan tambahan: Is AI progress slowing down? dari Arvind Narayanan dan Sayash Kapoor direkomendasikan.

# Apakah LLM terbaik saat ini dilatih di Tiongkok dengan biaya kurang dari $6 juta?

  • Berita utama:
    • Pada Hari Natal 2024, DeepSeek v3 dipublikasikan di Hugging Face (diunggah tanpa file README, lalu dokumentasi dan makalah ditambahkan keesokan harinya).
    • Ini adalah model raksasa dengan 685B parameter, jauh lebih besar daripada Llama 3.1 405B milik Meta.
    • Ini adalah model terbesar yang tersedia dengan lisensi terbuka.
  • Kinerja:
    • Performa benchmark-nya setara dengan Claude 3.5 Sonnet.
    • Di Chatbot Arena, model ini berada di peringkat 7, tepat di belakang Gemini 2.0 dan model 4o/o1 dari OpenAI.
    • Ini adalah peringkat tertinggi di antara model berlisensi terbuka.
  • Biaya pelatihan:
    • DeepSeek v3: sekitar $5,576,000 dengan 2,788,000 GPU-jam H800.
    • Meta Llama 3.1 405B: menggunakan 30,840,000 GPU-jam, 11 kali lebih mahal daripada DeepSeek v3, tetapi performa benchmark-nya sedikit lebih rendah.
  • Dampak kontrol ekspor GPU ke Tiongkok:
    • Kontrol ekspor GPU oleh AS tampaknya sangat mendorong optimalisasi pelatihan.
    • Pelatihan DeepSeek v3 yang hemat biaya dipandang sebagai hasil dari optimalisasi tersebut.

# Dampak lingkungan membaik

  • Konsumsi energi menurun berkat efisiensi yang lebih baik:
    • Seiring efisiensi model meningkat tajam, penggunaan energi dan dampak lingkungan dari menjalankan prompt telah turun drastis dalam beberapa tahun terakhir.
    • OpenAI telah menurunkan biaya prompt 100 kali lipat dibanding era GPT-3.
    • Penyedia model berbiaya rendah seperti Google Gemini dan Amazon Nova juga dapat mengoperasikan prompt tanpa rugi.
  • Dari sudut pandang pengguna individu:
    • Konsumsi energi dari sebagian besar eksekusi prompt pada praktiknya sangat kecil.
    • Dampak lingkungannya kemungkinan lebih rendah daripada berkendara jarak pendek atau menonton video YouTube.
  • Biaya pelatihan menurun:
    • Biaya pelatihan DeepSeek v3 yang di bawah $6 juta menunjukkan bahwa biaya pelatihan kemungkinan akan terus turun.
    • Pelatihan yang efisien kini dimungkinkan dengan sumber daya yang lebih sedikit.
  • Dibandingkan dengan model yang tidak efisien:
    • Biaya energi untuk melatih model terbesar Llama 3 sebanding dengan beberapa penerbangan komersial penuh penumpang dari New York ke London.
    • Namun, setelah pelatihan selesai, model itu bisa digunakan oleh jutaan orang tanpa biaya tambahan, sehingga dalam jangka panjang tetap efisien.

# Dampak lingkungan, makin memburuk

  • Persaingan pembangunan pusat data skala besar:
    • Perusahaan-perusahaan besar seperti Google, Meta, Microsoft, dan Amazon sedang membangun pusat data dengan investasi miliaran dolar untuk memenuhi permintaan model di masa depan.
    • Ekspansi infrastruktur ini berdampak besar pada jaringan listrik dan lingkungan.
    • Ada juga pembahasan tentang pembangunan pembangkit listrik tenaga nuklir baru, tetapi ini bisa memakan waktu puluhan tahun.
  • Perdebatan soal kebutuhan infrastruktur:
    • Biaya pelatihan DeepSeek v3 sebesar $6 juta dan turunnya harga LLM menunjukkan bahwa ekspansi ini mungkin tidak selalu diperlukan.
    • Namun, hampir tidak ada eksekutif yang mau mengambil risiko “tidak membangun infrastruktur lalu nanti terbukti itu keputusan yang salah”.
  • Kemiripan historis:
    • Ini bisa dibandingkan dengan masa pembangunan jaringan kereta api di seluruh dunia pada 1800-an.
    • Saat itu juga melibatkan investasi besar dan dampak lingkungan, dengan banyak jalur yang tumpang tindih hingga menghasilkan pemborosan.
    • Pada akhirnya memicu beberapa krisis keuangan besar:
      • Panic of 1873, Panic of 1893, Panic of 1901, dan Railway Mania di Inggris.
    • Infrastruktur tetap tertinggal, tetapi disertai kebangkrutan besar-besaran dan kerusakan lingkungan.
  • Pelajaran untuk masa kini:
    • Persaingan pusat data mungkin meninggalkan infrastruktur yang berguna, tetapi juga berisiko menyebabkan ekspansi yang tidak perlu dan kerusakan lingkungan.

# Tahun 2024, tahun "Slop"

  • Definisi "Slop":
    • Istilah ini mulai menetap untuk merujuk pada konten buatan AI yang tidak diinginkan dan tidak ditinjau.
    • Seperti halnya "spam" kemudian berarti email yang tidak diinginkan, "slop" juga dipakai luas hingga layak masuk kamus.
  • Asal-usul istilah:
    • Diskusi ini berawal dari tweet @deepfates:
      • “Sedang menyaksikan secara langsung bagaimana 'slop' menjadi sebuah istilah.”
    • Pada Mei 2024, konsep ini diperluas dan didefinisikan sebagai “konten buatan AI yang tidak diminta dan tidak ditinjau”.
  • Respons media:
    • Wawancara tentang "slop" dikutip oleh NY Times dan Guardian:
      • “Kita membutuhkan istilah singkat untuk menggambarkan AI modern. ‘Abaikan email itu, itu spam.’ dan ‘Abaikan artikel itu, itu slop.’ keduanya adalah pelajaran yang berguna.”
  • Pentingnya slop:
    • Berguna untuk mengekspresikan secara ringkas cara penyalahgunaan generative AI.
    • Membantu mendorong penggunaan AI yang efisien dan bertanggung jawab.
  • Dampak budaya pada 2024:
    • "Slop" sempat masuk nominasi Word of the Year versi Oxford, tetapi kalah dari "brain rot".

# Efek mengejutkan dari data pelatihan sintetis

  • Konsep "model collapse":
    • Pertama kali disebut dalam paper Mei 2023 The Curse of Recursion, lalu mendapat perhatian lebih besar di Nature pada Juli 2024.
    • Klaimnya: jika konten buatan AI membanjiri internet, model akan berulang kali belajar dari output-nya sendiri dan kualitasnya akan menurun.
    • Kenyataannya: keruntuhan seperti itu tidak terjadi, dan justru pelatihan model dengan data sintetis makin menjadi hal umum.
  • Keunggulan data sintetis:
    • Dijelaskan dalam Phi-4 technical report:
      • Data sintetis bukan sekadar pengganti data organik, tetapi memberikan manfaat langsung seperti:
        • Pembelajaran yang terstruktur dan bertahap:
          • Data organik sulit dipelajari karena hubungan antar-token kompleks dan tidak langsung.
          • Sebaliknya, data sintetis lebih mudah dipelajari pola penalarannya karena dihasilkan model bahasa berdasarkan token-token sebelumnya.
        • Proses pembelajarannya lebih sistematis dan dapat diprediksi.
  • Contoh model besar membantu model kecil:
    • Model besar menghasilkan data sintetis untuk model yang lebih kecil:
      • DeepSeek v3: menggunakan data "penalaran" yang dihasilkan DeepSeek-R1.
      • Meta Llama 3.3 70B: di-fine-tune dengan lebih dari 25 juta contoh sintetis.
  • Pentingnya desain data:
    • Desain data muncul sebagai faktor terpenting dalam pelatihan LLM.
    • Pendekatan lama yang sekadar mengeruk seluruh data internet secara membabi buta untuk pelatihan sudah tidak lagi digunakan.

# Tahun 2024 ketika menggunakan LLM menjadi lebih sulit

  • LLM adalah alat yang kompleks:
    • Dari luar terlihat sederhana, tetapi sebenarnya merupakan “alat untuk power user” yang membutuhkan pemahaman mendalam dan pengalaman.
    • Digambarkan dengan analogi “alat serumit gergaji mesin yang disamarkan agar terlihat seperti pisau dapur”.
  • Masalah yang memburuk pada 2024:
    • Model menjadi lebih kuat, tetapi tetap memiliki keterbatasan dan batasan lama.
    • Berbagai sistem diperkenalkan, masing-masing mendukung alat yang berbeda-beda seperti Python, JavaScript, pencarian web, pembuatan gambar, dan lain-lain.
    • Pengguna harus memahami kemampuan dan batasan tiap alat agar bisa memakainya secara efektif.
  • Kompleksitas yang meningkat antar-sistem:
    • Contoh: di ChatGPT, Python bisa dijalankan dengan dua cara berbeda.
    • Untuk membuat Claude Artifact yang berkomunikasi dengan API eksternal, diperlukan pemahaman tentang header HTTP CSP dan CORS.
    • o1 dari OpenAI berjalan dengan fitur terbatas, sedangkan GPT-4o mendukung pencarian web dan code interpreter.
      • Pengguna harus memahami perbedaan kemampuan kedua model itu dalam UI ChatGPT yang sama.
  • Keterbatasan pengalaman pengguna:
    • UI chat dasar LLM memberikan pengalaman seperti melempar pemula ke terminal Linux.
    • Banyak pengguna mengembangkan model mental yang keliru tentang cara kerja dan kemampuan LLM.
      • Contoh: makin banyak kasus irasional yang memakai screenshot ChatGPT sebagai bukti dalam perdebatan.
  • Masalah ganda:
    • Penyalahgunaan: pengguna salah mengira LLM sebagai alat serba bisa meskipun teknologi ini tidak sempurna.
    • Penghindaran: bahkan orang yang paham pun sepenuhnya berhenti memakai LLM karena cacat-cacatnya.
    • Untuk memanfaatkan LLM secara efektif, kemampuan bekerja sama dengan teknologi yang kuat namun tidak sempurna adalah hal yang esensial.
  • Perlunya konten edukasi:
    • Edukasi pengguna itu penting, tetapi saat ini masih kurang.
    • Alih-alih bergantung pada thread Twitter AI yang berlebihan, perlu dikembangkan materi edukasi yang lebih tepercaya.

# Distribusi pengetahuan yang tidak merata

  • Apa yang diketahui dan tidak diketahui:
    • Sebagian besar orang tahu ChatGPT, tetapi sangat sedikit yang pernah mendengar tentang Claude.
    • Kesenjangan pengetahuan antara orang yang aktif mengikuti bidang ini dan 99% sisanya sangat besar.
  • Kecepatan perubahan yang tinggi:
    • Laju perubahan teknologi makin memperparah kesenjangan pengetahuan ini.
    • Dalam sebulan terakhir, antarmuka live telah diperkenalkan:
      • Pengguna bisa menunjuk sesuatu dengan kamera ponsel sambil berbicara.
      • Ada juga opsi untuk membuatnya meniru peran Santa Claus.
    • Bahkan orang yang mengaku penggemar teknologi pun sering kali belum mencoba fitur-fitur ini.
  • Dampak sosial dan kebutuhan yang muncul:
    • Mengingat dampak teknologi ini terhadap masyarakat saat ini dan di masa depan, besarnya kesenjangan pengetahuan ini tidaklah sehat.
    • Diperlukan lebih banyak upaya untuk memperbaikinya.

# Kita membutuhkan kritik yang lebih baik terhadap LLM

  • Sentimen negatif terhadap teknologi:
    • Di beberapa komunitas seperti Mastodon, Bluesky, Lobste.rs, dan Hacker News, bahkan pendapat bahwa “LLM itu berguna” saja bisa memicu perdebatan.
    • Alasan munculnya sentimen negatif terhadap teknologi:
      • Dampak terhadap lingkungan.
      • Masalah etika pada data pelatihan.
      • Kurangnya keandalan.
      • Contoh penggunaan yang negatif.
      • Potensi dampaknya terhadap pekerjaan.
  • Pentingnya kritik:
    • LLM memang pantas dikritik, dan penting untuk membahas masalahnya, mencari solusinya, serta mengedukasi cara penggunaan yang bertanggung jawab.
    • Tujuannya adalah membantu agar pemanfaatan positif lebih besar daripada dampak negatifnya.
  • Nilai dari sudut pandang skeptis:
    • Hype yang berlebihan memperburuk masalah selama dua tahun terakhir:
      • Misinformasi dan ekspektasi yang dibesar-besarkan merajalela.
      • Keputusan yang keliru sering diambil.
    • Pemikiran kritis sangat penting untuk memahami dan memanfaatkan teknologi ini dengan benar.
  • Percakapan dengan para pengambil keputusan:
    • Sambil mengakui contoh penggunaan alat yang baik, kita juga harus menjelaskan cara menghindari jebakan yang tidak intuitif.
    • Mengklaim bahwa tidak ada contoh penggunaan yang baik berarti mengabaikan potensi nilai dari teknologi ini.
  • Menyampaikan pesan yang tepat:
    • Kritik yang sepotong-sepotong seperti “mesin plagiat yang merusak lingkungan dan selalu berbohong” tidak membantu menyelesaikan masalah.
    • Untuk menemukan dan mewujudkan nilai sejati LLM, dibutuhkan panduan dan edukasi yang tidak selalu intuitif.
  • Peran yang bertanggung jawab:
    • Orang-orang yang memahami teknologi ini memiliki tanggung jawab untuk membantu orang lain menggunakannya dengan benar.

1 komentar

 
GN⁺ 2025-01-01
Pendapat Hacker News
  • Banyak orang cenderung menganggap LLMs tidak berguna setelah memakai ChatGPT 4. Namun, Claude Sonnet 3.5 masih bisa berguna

    • Kegunaan LLMs sangat bergantung pada kemampuan komunikasi pengguna
    • Performa LLMs bisa dimaksimalkan lewat pertanyaan yang akurat dan penjelasan latar belakang yang jelas
    • Berguna untuk menyelesaikan pekerjaan membosankan dengan cepat
  • Istilah "agen" tidak punya makna yang jelas sehingga menimbulkan kebingungan

    • Kata populer "agentic" bisa terasa menjengkelkan
  • Ada kekhawatiran soal penurunan harga LLM

    • Tier gratis Gemini masih menarik, tetapi sulit dipercaya
    • Ada kekhawatiran harga bisa naik lagi pada paruh pertama 2025
  • Konsep "agen" masih belum didefinisikan dengan jelas

    • Ada yang berpendapat bahwa "agen" sejati harus mencakup otonomi
  • Tidak setuju dengan klaim bahwa penggunaan LLMs menjadi lebih sulit

    • Pilihannya memang bertambah banyak, tetapi penggunaannya sendiri tidak menjadi lebih sulit
    • Untuk pemula, panduan yang diberikan masih sama
  • Menjadi lebih sulit untuk menilai apa yang "bagus"

    • Manipulasi benchmark makin banyak sehingga membingungkan
    • Ada niat untuk membangun framework pengujian pribadi
  • Ada orang yang berhenti memakai LLMs karena cacatnya

    • Untuk memanfaatkan LLMs semaksimal mungkin, kita perlu belajar bekerja dengan teknologi yang tidak stabil namun kuat
  • Beberapa model GPT-4 bisa dijalankan bahkan di laptop

    • Ini berarti pusat data berskala besar tidak selalu diperlukan
    • Nilai OpenAI mungkin telah dibesar-besarkan
  • Tidak mengerti mengapa penggunaan 64GB DRAM oleh Apple dianggap istimewa

    • Muncul pertanyaan bagaimana Apple mendapatkan pasokan DRAM meskipun pusat data menyerap sebagian besar kapasitas produksi RAM
  • Ada kebingungan tentang struktur biaya Google Gemini dan Amazon Nova

    • Ada klaim bahwa layanannya ditawarkan dengan harga lebih rendah daripada biaya energi, dan ada juga klaim sebaliknya
  • Ada pendapat bahwa LLMs tidak berguna untuk pekerjaan sehari-hari

    • Ada klaim bahwa model LLM baru hanyalah peningkatan yang dibesar-besarkan
  • Menyadari bahwa standar moralitas dan keunggulan di industri ini rendah

  • Ada pertanyaan tentang kondisi saat ini yang mendorong "penalaran" ke ruang laten/saraf

    • Model yang berdialog dengan dirinya sendiri kurang terkait dengan keluaran akhir sehingga tidak efisien