1 poin oleh lattice 2 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

(Teks asli ada di URL)

Argumennya adalah bahwa bagi builder, pertanyaan "model apa yang paling bagus saat ini?" jauh kurang praktis dibanding "faktor apa yang menjadi lebih penting minggu ini?".
Katalog model, benchmark, dan timeline AGI terlalu berskala besar sehingga tidak cocok untuk pengambilan keputusan builder.

3 keterbatasan katalog model:

① Umurnya pendek karena nama-nama teratas bisa berubah hanya dalam satu kuartal
② Ada ketidakcocokan satuan antara skor benchmark dan workflow operasional nyata
③ Tidak mampu menjelaskan jarak antara "pandai melakukannya" dan "bisa dipercaya menanganinya sampai selesai"

Perlu melihat makna dari frontier AI.

Builder perlu memisahkan batas antara "pekerjaan yang bisa diselesaikan AI sampai tuntas" dan "pekerjaan yang tetap harus diintervensi manusia di tengah proses" ke dalam 4 aspek berikut.

  1. Cakupan tugas (Task Scope): bukan sekadar panjang konteks, tetapi "dengan tingkat keandalan seperti apa AI bisa menuntaskan pekerjaan yang membutuhkan 10 menit/1 jam/setengah hari bagi manusia". Merangkum 5 berita vs. menyeleksi sinyal selama seminggu → hingga draf newsletter adalah tugas yang sama sekali berbeda.

  2. Efisiensi (Efficiency): efisiensi pembelajaran setingkat manusia. "Apakah ia bisa mempelajari konteks domain kita hanya dari beberapa contoh dan mengikutinya secara stabil?"
    Hambatan terbesar ada pada dokumen kerja berbahasa Korea, regulasi lokal, dan proses internal.

  3. Biaya per output (Cost per Output): bukan harga token, melainkan "total biaya untuk satu unit output yang layak diberikan ke pelanggan". Menjumlahkan biaya input+output+panggilan API+retry+review manusia+rollback. Altman secara eksplisit menyatakan bahwa biaya AI setara kelas yang sama turun 10x setiap 12 bulan (Three Observations, 2025).

  4. Keandalan pemanggilan tool (Tool Calling Reliability): bukan sekali berhasil dalam demo, tetapi "apakah tetap tidak rusak saat dijalankan berulang kali, termasuk pada kasus gagal".
    Saat AI sedang beralih dari tool untuk menjawab ke tool untuk mengeksekusi pekerjaan, inilah hambatan terbesar saat ini.

Pertanyaan yang lebih esensial daripada timeline AGI: "Bahkan jika AGI tiba, apakah produk saya tetap bernilai?" Wrapper model sederhana akan kehilangan diferensiasi ketika model berubah.
Produk yang menumpuk struktur data, loop verifikasi, layer pemanggilan tool, dan pengumpulan kasus gagal akan tetap bertahan di era AGI.

Peluang unik builder domestik: Claude/ChatGPT/Gemini sudah terbuka untuk semua orang, sehingga tidak mungkin lagi membedakan diri hanya dengan "lebih dulu memakai model bagus".

Model akan makin setara, tetapi konteks tidak akan menjadi setara.

Konteks kerja berbahasa Korea, data per fungsi kerja, dan reinterpretasi lokal atas sinyal global adalah titik diferensiasinya.

Referensi: METR(Measuring AI Ability to Complete Long Tasks), ARC Prize, Stanford HAI AI Index 2026, Anthropic Finance Agents, Dario Amodei(Machines of Loving Grace), Leopold Aschenbrenner(Situational Awareness)

Belum ada komentar.

Belum ada komentar.