8 poin oleh GN⁺ 2025-03-28 | 2 komentar | Bagikan ke WhatsApp

> "I genuinely don't understand why some people are still bullish about LLMs."

  • Menggunakan berbagai LLM seperti GPT, Grok, Gemini, dan Mistral setiap hari
  • Menggunakannya dengan harapan bisa menghemat waktu untuk pencarian informasi dan peringkasan, tetapi mereka masih sering mengarang sumber, kutipan, tautan, dan sebagainya
  • Saat tautan diklik, sering muncul error 404, atau kalimat yang dikutip ternyata tidak benar-benar ada saat dicari
  • Bahkan ketika mengutip makalah ilmiah, setelah ditelusuri sering kali ternyata tidak ada

Ada beberapa perbaikan, tetapi keandalannya masih rendah

  • Akurasi sedikit membaik dibanding masa lalu berkat penggunaan teknik DeepSearch atau Chain of Thought
  • Menurut perkiraan pribadi, DeepResearch milik GPT-4o saat ini yang paling bisa diandalkan
  • Grok tidak terlalu baik dalam memberikan tautan referensi meskipun diminta, dan bahkan tautan tweet pun sering tidak terhubung dengan benar
  • Gemini bahkan lebih buruk; alih-alih menemukan sumber, ia hanya memberi instruksi agar pengguna mencarinya sendiri

Berguna untuk perhitungan sederhana atau mencari konstanta, tetapi akurasi tetap bermasalah

  • Untuk konversi satuan atau konstanta fisika, hasilnya bisa diberikan dengan cepat sehingga menghemat waktu
  • Tetapi untuk perhitungan sederhana seperti estimasi skala, model ini sering membuat kesalahan
  • Muncul pertanyaan apakah tugas seperti ini memang memerlukan LLM dengan lebih dari 100 juta parameter

Hasil yang mengecewakan bahkan dalam peringkasan dokumen

  • Pernah mengunggah dokumen PDF dan meminta ringkasan, tetapi dokumen yang jelas-jelas bertuliskan tahun 2025 di header justru disalahartikan sebagai dokumen tahun 2023
  • Kesalahan seperti ini terasa sangat jauh dari perilaku yang bisa disebut "cerdas"

Grafik pengetahuan juga bukan solusi

  • Banyak orang berharap grafik pengetahuan akan menyelesaikan masalah LLM, tetapi kenyataannya tidak demikian
  • Masih sangat sering muncul kalimat yang secara logis konsisten tetapi sama sekali tidak berhubungan dengan kenyataan
  • Sekalipun grafik pengetahuan dapat mencegah kesalahan logika, kalimat yang tidak berkaitan dengan fakta tetap bisa terus dihasilkan

Kekhawatiran tentang penilaian pasar yang berlebihan

  • Perusahaan-perusahaan terus membesar-besarkan LLM, dan ini merupakan faktor risiko
  • Jika muncul bentuk model AI yang benar-benar baru dan melampaui LLM, ada kemungkinan nilai perusahaan-perusahaan yang berpusat pada LLM saat ini akan turun tajam
  • Jika hari itu tiba, pasar saham diperkirakan akan mengalami guncangan besar

2 komentar

 
hhcrux 2025-03-30

Saya juga punya pemikiran serupa sekitar tahun lalu, tetapi setelah melihat kecepatan perkembangannya, saya justru menjadi optimistis.

 
GN⁺ 2025-03-28
Komentar Hacker News
  • LLM adalah teknologi yang menakjubkan, memungkinkan hal-hal yang sudah lama diimpikan. Ia bisa memahami dan bercakap-cakap meski ada salah eja atau pertanyaan yang kurang rapi, menghasilkan gambar keren, dan membantu menulis kode. Namun, sebagian orang mengeluh karena ini bukan superintelijen sempurna. Kecepatan kemajuan teknologinya sangat mencengangkan. Ada juga yang mengeluh bahwa "ia tidak bisa menulis kode seperti insinyur senior dengan pengalaman 20 tahun"

  • Pengalaman saat terutama menggunakan Claude sangat berbeda. Saya tidak mencoba tugas-tugas yang kemungkinan besar tidak dikuasai LLM. Orang yang memakai AI terbagi menjadi mereka yang mencari kegagalan dan mereka yang mencari keberhasilan. Untuk tugas scripting sederhana, LLM hampir sempurna. Jika Anda menemukan cara agar AI bekerja untuk Anda, ini bisa menjadi alat yang sangat kuat

  • Kegunaan LLM masih kurang. Ia belum bagus dalam memberikan kutipan atau sumber. Fakta bahwa komputer tidak bisa menemukan fakta secara akurat justru bertentangan dengan kekuatan tradisional komputer

  • Banyak orang menggunakan LLM dengan cara yang salah. Belakangan ini ada banyak diskusi tentang apakah model bahasa paling cocok untuk transkripsi suara. Sepuluh tahun lalu tidak ada transkripsi mesin real-time, tetapi sekarang itu mungkin dan terus berkembang. Terlepas dari kesalahan model AI, transkripsi mesin berguna dalam banyak situasi

  • Saya ragu apakah perlu mendengarkan pendapat Sabine. LLM dapat melakukan pemodelan urutan dan tugas prediksi. Jika suatu masalah bisa direduksi menjadi pemodelan urutan, LLM dapat mengerjakannya

  • Kesamaan dari kritik terhadap LLM adalah bahwa ia tidak sempurna. Saya sering memakai ChatGPT untuk riset akademik. Kadang ia mengarang referensi, tetapi tetap membantu menemukan makalah penelitian penting. Memverifikasi akurasi itu mudah, sedangkan menemukan pengetahuan itu sulit. Pada akhirnya, ini memberi dampak positif yang besar

  • Banyak orang mencampuradukkan kekuatan teknologi dengan gelembung yang sedang kita tinggali. Saya mengirim jutaan permintaan ke AI dan mendapatkan yang saya butuhkan. Teknologinya terus berkembang, dan biayanya juga berubah. Ada kecenderungan untuk mengira AI bisa melakukan hal-hal yang sebenarnya tidak bisa dilakukannya

  • Saya banyak menggunakan Claude dan membuat program untuk pertanyaan terkait kesehatan. Kemampuan untuk menjelaskan pertanyaan kompleks secara logis dan merevisi analisis sangat berharga. Dibandingkan dokter, tanggung jawab tetap ada pada pengguna

  • Banyak orang tidak mahir menangani alat yang "tidak sempurna". LLM adalah alat yang peluang keberhasilannya tidak 100%, sehingga butuh pendekatan yang berbeda. Jika dibayangkan sebagai oracle probabilistik, kegunaannya akan berbeda tergantung pada peluang keberhasilannya

  • Saya punya banyak teman yang tidak pandai bergaul dengan orang lain, tetapi saya bisa akrab dengan siapa saja. AI juga begitu; tidak sempurna, tetapi merupakan alat yang menakjubkan. Kelebihan AI jauh melampaui kesalahannya. Mempelajari cara berinteraksi dengan AI dan manusia adalah keterampilan terbesar yang dibutuhkan di abad ke-21