5 poin oleh GN⁺ 2026-02-06 | 1 komentar | Bagikan ke WhatsApp
  • Untuk startup AI, sebelum product-market fit (PMF), sangat penting untuk memastikan model-market fit (MMF), yaitu apakah kemampuan model saat ini benar-benar dapat menyelesaikan kebutuhan pasar
  • Setelah rilis GPT-4, pasar legal AI tumbuh eksplosif, dan setelah rilis Claude 3.5 Sonnet, coding assistant menjadi bagian nyata dari workflow, yang merupakan contoh representatif pencapaian MMF
  • Bidang seperti pembuktian matematis, analisis keuangan berisiko tinggi, dan penemuan obat otonom memiliki permintaan pasar, tetapi kemampuan model belum melewati ambang kritis, sehingga MMF belum ada
  • Jika Human-in-the-loop bukan sekadar sarana pendukung, melainkan manusia harus melakukan pekerjaan inti alih-alih hanya melengkapi, maka itu dapat ditafsirkan sebagai tidak adanya MMF
  • Inti strategi AI adalah mengenali urutan MMF → PMF → sukses, lalu menilai dengan dingin kapan dan apa yang harus dibangun

Kerangka Marc Andreessen dan variabel baru

  • Pada 2007, Marc Andreessen menerbitkan esai yang menyatakan bahwa di antara tiga elemen startup (tim, produk, pasar), pasar adalah yang paling penting
    • Pasar yang hebat akan menarik produk keluar dari startup, dan produknya tidak harus luar biasa, cukup berfungsi pada dasarnya
  • Setelah 19 tahun, muncul variabel baru yang menentukan apakah pasar benar-benar bisa menarik sesuatu: model
  • Dalam startup AI, sebelum product-market fit, ada prasyarat: apakah kemampuan model saat ini dapat melakukan pekerjaan yang diminta pasar
  • Jika MMF ada, kerangka Andreessen bekerja dan pasar menarik produk; jika tidak, UX, strategi GTM, dan engineering sebaik apa pun tidak akan mampu mendorong adopsi pelanggan

Contoh ledakan pasar saat MMF terbuka

  • Legal AI: GPT-4 (Maret 2023)

    • Sebelum GPT-4, legal tech AI gagal melakukan scaling, dan alat review dokumen membutuhkan pengawasan manusia yang lebih besar daripada penghematan yang dihasilkannya
    • Model transformer sebelumnya seperti BERT kuat untuk tugas klasifikasi seperti klasifikasi dokumen atau identifikasi jenis kontrak, tetapi tidak mampu melakukan generasi dan penalaran yang krusial dalam pekerjaan hukum
      • Model bisa mengklasifikasikan kontrak sebagai “employment” atau “NDA”, tetapi tidak bisa menulis brief yang konsisten tentang mengapa klausul non-compete tidak dapat ditegakkan menurut hukum California
    • Dalam 18 bulan setelah GPT-4 dirilis, startup Silicon Valley menggalang ratusan juta dolar, Thomson Reuters mengakuisisi Casetext seharga 650 juta dolar, dan puluhan startup legal AI baru bermunculan
    • Pasar legal AI menghasilkan lebih banyak unicorn hanya dalam 12 bulan dibanding seluruh 10 tahun sebelumnya
    • Permintaan pasar tetap sama; yang berubah hanya fakta bahwa kemampuan model telah melewati ambang kritis
  • Coding: Claude 3.5 Sonnet (Juni 2024)

    • Coding assistant seperti GitHub Copilot sudah ada sebelumnya, tetapi ada perbedaan jelas antara autocomplete yang kadang membantu dan AI yang benar-benar memahami codebase
    • Saat menggunakan Cursor sebelum Claude 3.5 Sonnet, pengalaman itu tetap berada di level demo menarik dan belum menjadi workflow harian
    • Setelah Sonnet dirilis, dalam waktu seminggu menjadi mustahil bekerja tanpa Cursor, berubah menjadi pengalaman pair programming dengan entitas yang memahami seluruh codebase
    • Pertumbuhan Cursor yang vertikal bukan disebabkan inovasi fitur, melainkan karena model dasar telah melewati ambang penggunaan nyata
  • Analisis pola

    • Intinya adalah ada atau tidaknya MMF, dan startup yang menang bukan selalu yang pertama, melainkan tim yang sudah siap ketika kemampuan model melewati ambang kritis
    • Baik di bidang coding maupun legal, tidak ada incumbent lama yang menang; selalu pemain baru yang menguasai pasar
    • Startup legal AI yang kini memimpin telah lebih dulu mengumpulkan selama berbulan-bulan pengetahuan tentang workflow nyata pengacara, format output yang dibutuhkan, persyaratan regulasi, dan cara associate melakukan riset
    • Penentu kemenangan bukan siapa yang lebih dulu mulai, melainkan siapa yang paling cepat mencapai PMF setelah MMF terbentuk

Masalah yang muncul saat MMF tidak ada

  • Pembuktian matematis

    • Para matematikawan menginginkan AI yang bisa membuktikan teorema baru, dan lembaga riset, kontraktor pertahanan, serta perusahaan teknologi bersedia membayar jutaan dolar untuk penalaran matematis yang sesungguhnya
    • Bahkan model paling maju pun belum bisa melakukan ini secara konsisten, dan masih terbatas pada verifikasi pembuktian yang sudah diketahui, bantuan langkah mekanis, atau memberi insight pada masalah terbatas
    • Pembuatan pembuktian baru untuk masalah terbuka masih belum mungkin; meski ada peningkatan bertahap di tiap generasi seperti GPT-5, o1, dan o3, belum sampai tahap untuk mengharapkan pembuktian rigor atas conjecture terbuka
  • Keuangan berisiko tinggi

    • Bank investasi dan hedge fund sangat menginginkan AI yang dapat melakukan analisis keuangan komprehensif, dan satu transaksi sukses atau deal M&A saja bisa menghasilkan fee ratusan juta dolar
    • Namun, pada tugas inti AI masih menunjukkan kinerja yang sangat rendah secara mengejutkan
      • Saat menangani model keuangan yang kompleks, bahkan output Excel pun sulit dipercaya
      • Membaca dokumen 200 halaman lalu menggabungkan analisis kuantitatif dan insight kualitatif adalah tantangan terbesar bagi AI
    • Analis manusia membaca earning call, pengungkapan regulasi, dan laporan industri lalu mensintesiskannya ke dalam model spreadsheet untuk mengambil keputusan investasi, tetapi AI hanya mampu menangani sebagian dari workflow ini
    • Alasan manusia tetap berada dalam loop bukan sekadar untuk pengawasan, melainkan karena masih dibutuhkan sebagai pengambil keputusan inti
  • Kesenjangan benchmark

    • Hasil perbandingan benchmark Vals.ai menunjukkan kesenjangan performa yang sangat mencolok antara vertical yang memiliki MMF dan yang tidak
    • LegalBench (tugas penalaran hukum): model terbaik mencapai akurasi 87%, Gemini 3 Pro memimpin dengan 87.04%, dan banyak model mencatat di atas 85%
      • Dengan review ringan saja, pengacara dapat mempercayai outputnya pada tingkat kualitas produksi
    • Finance Agent (tugas inti analis keuangan): model terbaik hanya 56.55% akurasi, GPT-5.1 nyaris saja melewati separuh, dan Claude Sonnet 4.5 extended thinking berada di 55.32%
    • Dengan selisih sekitar 30 poin, MMF ada di bidang hukum tetapi belum ada di bidang keuangan
    • Produk legal AI bisa diluncurkan hari ini, tetapi produk AI keuangan yang benar-benar melakukan pekerjaan analis mungkin akan segera mungkin, namun belum bisa saat ini
  • Penemuan obat otonom

    • Industri farmasi menginvestasikan miliaran dolar ke penemuan obat berbasis AI, dan satu obat sukses saja bisa bernilai puluhan miliar dolar
    • AI berkontribusi dalam mempercepat tahap-tahap individual seperti identifikasi molekul kandidat, prediksi struktur protein (terobosan AlphaFold), dan optimasi desain uji klinis
    • Namun, penemuan obat otonom end-to-end yang cukup untuk membenarkan valuasi saat ini masih belum ada
    • Manusia tetap berada dalam loop bukan karena pilihan desain workflow, melainkan karena AI belum benar-benar bisa melakukan pekerjaan itu

Cara mengidentifikasi ketiadaan MMF

  • Sinyal paling dapat diandalkan untuk menilai ketiadaan MMF adalah melihat peran human-in-the-loop ditempatkan sebagai apa
  • Saat MMF ada, human-in-the-loop berfungsi sebagai fitur, menjaga kualitas, membangun kepercayaan, dan menangani edge case
    • AI melakukan pekerjaan inti, manusia memberi pengawasan dan persetujuan
  • Saat MMF tidak ada, human-in-the-loop lebih mirip kruk yang menutupi fakta bahwa AI tidak bisa melakukan pekerjaan inti
    • Manusia bukan sekadar augmentasi, tetapi pelengkap utama, dan jika manusia dihilangkan produk langsung gagal berfungsi
  • Ukuran sederhananya: jika semua koreksi manusia dihapus dari workflow ini, apakah pelanggan masih mau membayar
    • Jika tidak, maka MMF tidak ada, dan yang tersisa hanyalah demo

Dilema strategis: membangun untuk sekarang atau untuk masa depan?

  • Argumen untuk menunggu

    • Membangun startup saat MMF belum ada pada dasarnya berarti bertaruh pada peningkatan model yang ada di roadmap pihak lain
    • Kapan kemampuan itu akan tiba berada di luar kendali, dan sementara Anthropic serta OpenAI yang memutuskan, runway terus terkuras
    • Bahkan penilaian tentang kemampuan yang dibutuhkan itu sendiri bisa saja salah
      • Kesenjangan antara akurasi 80% dan 99% yang dibutuhkan sebuah vertical mungkin baru tertutup lima tahun lagi, atau mungkin tidak pernah tertutup dengan cara yang dibayangkan
    • Jika percaya pada AGI, model pada akhirnya mungkin akan bisa melakukan hampir semua hal, tetapi inti persoalannya bukan kemungkinan, melainkan timing
      • Bukan soal apakah AI bisa menyelesaikan masalahnya, tetapi apakah startup bisa bertahan hidup sampai saat itu, yang pada akhirnya adalah masalah runway
  • Argumen untuk memulai lebih awal

    • Ada kontra-argumen yang sering disampaikan di Y Combinator, dan argumennya cukup meyakinkan
    • Pada saat MMF terbuka, yang dibutuhkan bukan hanya kemampuan model
      • data pipeline yang spesifik domain
      • relasi dengan regulator
      • kepercayaan pelanggan yang dibangun selama bertahun-tahun
      • workflow yang terintegrasi secara mendalam
      • pemahaman tentang cara para ahli benar-benar bekerja
    • Startup legal tidak sekadar menempelkan GPT-4, tetapi sudah membangun scaffolding lebih dulu sehingga saat modelnya muncul mereka langsung siap mengeksekusi
    • Tim yang paling dekat dengan masalah memiliki pengaruh langsung terhadap kriteria evaluasi model, arah fine-tuning, dan cara deployment
      • Mereka tidak pasif menunggu kemampuan datang, tetapi ikut menentukan apa yang dianggap sebagai kemampuan di vertical tersebut
  • Solusinya

    • Pertanyaan intinya bukan apakah harus mulai lebih awal, melainkan seberapa awal, dan apa yang harus dibangun sambil menunggu
    • Area paling berisiko adalah zona tengah
      • ketika MMF tampaknya baru akan tercapai dalam 24–36 bulan
      • terasa cukup dekat, tetapi masih cukup jauh untuk menghabiskan beberapa putaran pendanaan
    • Di zona ini, keyakinan dan runway menentukan segalanya
      • jika bertaruh pada MMF yang baru datang lebih dari dua tahun lagi, maka pasar yang ditunggu harus sangat besar
    • Healthcare dan layanan keuangan adalah pasar bernilai triliunan dolar yang saat ini hasilnya masih campuran tetapi Anthropic dan OpenAI bertaruh habis-habisan di sana
      • Karena upside potensialnya besar, positioning sejak dini menjadi rasional
    • Rumus penilaiannya sederhana
      expected value = probabilitas MMF tiba × ukuran pasar × pangsa yang diharapkan

Cara mengukur MMF

  • Product-market fit terkenal sulit diukur secara presisi, dan Andreessen menjelaskannya secara kualitatif
    • “Saat PMF belum terjadi, Anda selalu bisa merasakannya, dan saat itu terjadi, Anda juga selalu bisa merasakannya
  • MMF juga pada dasarnya merupakan konsep intuitif, tetapi bisa dijabarkan dengan kriteria yang lebih jelas
  • Uji MMF

    • Pertanyaan inti: jika model menerima input yang sama dengan pakar manusia, bisakah ia menghasilkan output yang cukup bernilai untuk dibayar pelanggan tanpa koreksi manusia yang besar
    • Tiga komponennya
      • 1. Input yang sama
        • Model menggunakan dokumen, data, dan konteks yang sama seperti yang diterima manusia
        • Tidak diperbolehkan pra-pemrosesan ajaib yang tidak mungkin disediakan dalam workflow nyata
      • 2. Output yang layak dibayar pelanggan
        • Bukan demo atau proof of concept, melainkan hasil berkualitas produksi yang benar-benar menyelesaikan masalah nyata
      • 3. Tanpa koreksi manusia yang besar
        • Manusia boleh meninjau, mengedit, dan menyetujui, tetapi jika 50% output harus ditulis ulang, sulit mengatakan model benar-benar yang melakukan pekerjaannya
  • Kesenjangan 80/99

    • Di vertical yang tidak teregulasi, akurasi 80% kadang sudah cukup
      • AI yang membuat draft marketing copy tetap bisa menciptakan nilai meski manusia mengeditnya besar-besaran
    • Di vertical teregulasi (keuangan, hukum, healthcare), akurasi 80% pada praktiknya nyaris tidak berguna
      • Alat review kontrak yang melewatkan 20% klausul inti tidak membantu pengacara, tetapi menciptakan liability
      • Diagnosis medis yang salah satu dari lima kali bukanlah produk, melainkan risiko gugatan
    • Kesenjangan antara akurasi 80% dan 99% dalam praktik kerja nyata sering kali nyaris tak terhingga
      • Ini adalah perbedaan penentu antara “demo yang menjanjikan” dan “sistem produksi”
    • Banyak startup AI terjebak di kesenjangan ini, menggalang dana dengan demo sambil menunggu kemampuan yang akan membuat produknya benar-benar bekerja

Ambang agentic

  • Frontier kemampuan kedua yang sering diabaikan dalam kebanyakan pembahasan MMF adalah kemampuan untuk bekerja secara otonom dalam jangka panjang
  • Contoh kasus MMF yang saat ini sudah terbentuk (review dokumen hukum, bantuan coding) pada dasarnya adalah pekerjaan dengan horizon pendek
    • masukkan prompt, hasilkan output, lakukan beberapa pemanggilan tool, lalu dapatkan hasil berguna dalam hitungan detik atau menit
  • Namun, pekerjaan pengetahuan yang paling bernilai tidak berjalan seperti ini
    • Analis keuangan tidak sekadar menjawab satu pertanyaan, tetapi membangun model selama berhari-hari, melakukan stress test asumsi, dan mensintesis informasi dari puluhan sumber
    • Konsultan strategi tidak hanya membuat satu slide, tetapi mengulang riset selama berminggu-minggu, wawancara, dan analisis
    • Peneliti penemuan obat tidak menjalankan satu eksperimen, tetapi merancang dan mengeksekusi kampanye selama berbulan-bulan
  • Workflow seperti ini menuntut kemampuan yang belum bisa dilakukan model secara andal, dan inti dari kemampuan itu adalah operasi otonom yang berkelanjutan
  • Ambang agentic bukan sekadar soal “apakah model bisa menggunakan tool”
    • Persistensi: bisakah ia mempertahankan tujuan dan konteks selama berjam-jam atau berhari-hari
    • Pemulihan: bisakah ia mengenali kegagalan, mendiagnosis penyebabnya, lalu mencoba pendekatan lain
    • Koordinasi: bisakah ia memecah tujuan kompleks menjadi sub-tugas dan mengeksekusinya secara berurutan
    • Penilaian: bisakah ia membedakan kapan harus terus maju dan kapan harus berhenti lalu meminta arahan manusia
  • Agen saat ini mampu menangani pekerjaan berdurasi menit, tetapi generasi agen berikutnya harus mampu menangani pekerjaan berdurasi hari
    • Ini bukan sekadar peningkatan performa bertahap, melainkan perubahan fase pada kemampuan itu sendiri
  • Inilah alasan bidang keuangan belum memiliki MMF meski model dinilai “membaca dokumen dengan baik”
    • Membaca 10-K adalah tugas 30 detik, tetapi membangun tesis investasi adalah workflow berhari-hari
    • Pengumpulan data, pembangunan model, pengujian skenario, dan sintesis kesimpulan harus dijaga dengan penalaran yang konsisten sepanjang proses
  • Gelombang berikutnya dari terbukanya MMF akan dimulai bukan hanya oleh model yang lebih pintar, tetapi oleh model yang bisa bekerja secara otonom pada tugas yang sama selama berhari-hari

Poin struktural utama

  • Inti wawasan Andreessen adalah bahwa pasar lebih penting daripada tim atau produk karena pasar yang hebat akan menarik produk keluar dari startup
  • Konsekuensi yang tak terelakkan dalam AI adalah bahwa prasyarat agar tarikan gravitasi itu mulai bekerja adalah kemampuan model
  • Sebesar apa pun pasar dan sekuat apa pun kebutuhannya, pasar tidak bisa menarik produk yang tidak berfungsi
    • Dalam AI, ukuran “tidak berfungsi” ditentukan bukan oleh engineering atau desain, melainkan oleh model itu sendiri
    • Anda bisa memiliki antarmuka terindah, workflow paling elegan, dan data pipeline paling canggih, tetapi jika model dasar tidak bisa melakukan pekerjaan inti, semuanya tidak berarti
  • Jika urutan MMF → PMF → sukses dilompati, maka tahap kedua tidak mungkin terbentuk
  • Bagi founder, ini berarti harus membedakan dengan kejujuran tanpa kompromi antara sejauh mana kemampuan saat ini benar-benar sudah sampai, dan di mana mereka berharap kemampuan itu berada
  • Bagi investor, ini berarti harus menilai bukan hanya ukuran pasar dan kualitas tim, tetapi juga kesenjangan antara kemampuan model saat ini dan tuntutan pasar
  • Bagi semua orang yang membangun AI, pertanyaan yang tersisa bukan apakah pasar menginginkannya, melainkan apakah model benar-benar bisa memberikannya
  • Itulah satu-satunya hal yang penting

1 komentar

 
xguru 2026-02-06

Software Survival 3.0 – Apa yang harus dibuat agar bisa bertahan hidup
Beberapa hari terakhir, tulisan tentang bagaimana cara bertahan hidup cukup sering terlihat.