- Untuk startup AI, sebelum product-market fit (PMF), sangat penting untuk memastikan model-market fit (MMF), yaitu apakah kemampuan model saat ini benar-benar dapat menyelesaikan kebutuhan pasar
- Setelah rilis GPT-4, pasar legal AI tumbuh eksplosif, dan setelah rilis Claude 3.5 Sonnet, coding assistant menjadi bagian nyata dari workflow, yang merupakan contoh representatif pencapaian MMF
- Bidang seperti pembuktian matematis, analisis keuangan berisiko tinggi, dan penemuan obat otonom memiliki permintaan pasar, tetapi kemampuan model belum melewati ambang kritis, sehingga MMF belum ada
- Jika Human-in-the-loop bukan sekadar sarana pendukung, melainkan manusia harus melakukan pekerjaan inti alih-alih hanya melengkapi, maka itu dapat ditafsirkan sebagai tidak adanya MMF
- Inti strategi AI adalah mengenali urutan MMF → PMF → sukses, lalu menilai dengan dingin kapan dan apa yang harus dibangun
Kerangka Marc Andreessen dan variabel baru
- Pada 2007, Marc Andreessen menerbitkan esai yang menyatakan bahwa di antara tiga elemen startup (tim, produk, pasar), pasar adalah yang paling penting
- Pasar yang hebat akan menarik produk keluar dari startup, dan produknya tidak harus luar biasa, cukup berfungsi pada dasarnya
- Setelah 19 tahun, muncul variabel baru yang menentukan apakah pasar benar-benar bisa menarik sesuatu: model
- Dalam startup AI, sebelum product-market fit, ada prasyarat: apakah kemampuan model saat ini dapat melakukan pekerjaan yang diminta pasar
- Jika MMF ada, kerangka Andreessen bekerja dan pasar menarik produk; jika tidak, UX, strategi GTM, dan engineering sebaik apa pun tidak akan mampu mendorong adopsi pelanggan
Contoh ledakan pasar saat MMF terbuka
-
Legal AI: GPT-4 (Maret 2023)
- Sebelum GPT-4, legal tech AI gagal melakukan scaling, dan alat review dokumen membutuhkan pengawasan manusia yang lebih besar daripada penghematan yang dihasilkannya
- Model transformer sebelumnya seperti BERT kuat untuk tugas klasifikasi seperti klasifikasi dokumen atau identifikasi jenis kontrak, tetapi tidak mampu melakukan generasi dan penalaran yang krusial dalam pekerjaan hukum
- Model bisa mengklasifikasikan kontrak sebagai “employment” atau “NDA”, tetapi tidak bisa menulis brief yang konsisten tentang mengapa klausul non-compete tidak dapat ditegakkan menurut hukum California
- Dalam 18 bulan setelah GPT-4 dirilis, startup Silicon Valley menggalang ratusan juta dolar, Thomson Reuters mengakuisisi Casetext seharga 650 juta dolar, dan puluhan startup legal AI baru bermunculan
- Pasar legal AI menghasilkan lebih banyak unicorn hanya dalam 12 bulan dibanding seluruh 10 tahun sebelumnya
- Permintaan pasar tetap sama; yang berubah hanya fakta bahwa kemampuan model telah melewati ambang kritis
-
Coding: Claude 3.5 Sonnet (Juni 2024)
- Coding assistant seperti GitHub Copilot sudah ada sebelumnya, tetapi ada perbedaan jelas antara autocomplete yang kadang membantu dan AI yang benar-benar memahami codebase
- Saat menggunakan Cursor sebelum Claude 3.5 Sonnet, pengalaman itu tetap berada di level demo menarik dan belum menjadi workflow harian
- Setelah Sonnet dirilis, dalam waktu seminggu menjadi mustahil bekerja tanpa Cursor, berubah menjadi pengalaman pair programming dengan entitas yang memahami seluruh codebase
- Pertumbuhan Cursor yang vertikal bukan disebabkan inovasi fitur, melainkan karena model dasar telah melewati ambang penggunaan nyata
-
Analisis pola
- Intinya adalah ada atau tidaknya MMF, dan startup yang menang bukan selalu yang pertama, melainkan tim yang sudah siap ketika kemampuan model melewati ambang kritis
- Baik di bidang coding maupun legal, tidak ada incumbent lama yang menang; selalu pemain baru yang menguasai pasar
- Startup legal AI yang kini memimpin telah lebih dulu mengumpulkan selama berbulan-bulan pengetahuan tentang workflow nyata pengacara, format output yang dibutuhkan, persyaratan regulasi, dan cara associate melakukan riset
- Penentu kemenangan bukan siapa yang lebih dulu mulai, melainkan siapa yang paling cepat mencapai PMF setelah MMF terbentuk
Masalah yang muncul saat MMF tidak ada
-
Pembuktian matematis
- Para matematikawan menginginkan AI yang bisa membuktikan teorema baru, dan lembaga riset, kontraktor pertahanan, serta perusahaan teknologi bersedia membayar jutaan dolar untuk penalaran matematis yang sesungguhnya
- Bahkan model paling maju pun belum bisa melakukan ini secara konsisten, dan masih terbatas pada verifikasi pembuktian yang sudah diketahui, bantuan langkah mekanis, atau memberi insight pada masalah terbatas
- Pembuatan pembuktian baru untuk masalah terbuka masih belum mungkin; meski ada peningkatan bertahap di tiap generasi seperti GPT-5, o1, dan o3, belum sampai tahap untuk mengharapkan pembuktian rigor atas conjecture terbuka
-
Keuangan berisiko tinggi
- Bank investasi dan hedge fund sangat menginginkan AI yang dapat melakukan analisis keuangan komprehensif, dan satu transaksi sukses atau deal M&A saja bisa menghasilkan fee ratusan juta dolar
- Namun, pada tugas inti AI masih menunjukkan kinerja yang sangat rendah secara mengejutkan
- Saat menangani model keuangan yang kompleks, bahkan output Excel pun sulit dipercaya
- Membaca dokumen 200 halaman lalu menggabungkan analisis kuantitatif dan insight kualitatif adalah tantangan terbesar bagi AI
- Analis manusia membaca earning call, pengungkapan regulasi, dan laporan industri lalu mensintesiskannya ke dalam model spreadsheet untuk mengambil keputusan investasi, tetapi AI hanya mampu menangani sebagian dari workflow ini
- Alasan manusia tetap berada dalam loop bukan sekadar untuk pengawasan, melainkan karena masih dibutuhkan sebagai pengambil keputusan inti
-
Kesenjangan benchmark
- Hasil perbandingan benchmark Vals.ai menunjukkan kesenjangan performa yang sangat mencolok antara vertical yang memiliki MMF dan yang tidak
- LegalBench (tugas penalaran hukum): model terbaik mencapai akurasi 87%, Gemini 3 Pro memimpin dengan 87.04%, dan banyak model mencatat di atas 85%
- Dengan review ringan saja, pengacara dapat mempercayai outputnya pada tingkat kualitas produksi
- Finance Agent (tugas inti analis keuangan): model terbaik hanya 56.55% akurasi, GPT-5.1 nyaris saja melewati separuh, dan Claude Sonnet 4.5 extended thinking berada di 55.32%
- Dengan selisih sekitar 30 poin, MMF ada di bidang hukum tetapi belum ada di bidang keuangan
- Produk legal AI bisa diluncurkan hari ini, tetapi produk AI keuangan yang benar-benar melakukan pekerjaan analis mungkin akan segera mungkin, namun belum bisa saat ini
-
Penemuan obat otonom
- Industri farmasi menginvestasikan miliaran dolar ke penemuan obat berbasis AI, dan satu obat sukses saja bisa bernilai puluhan miliar dolar
- AI berkontribusi dalam mempercepat tahap-tahap individual seperti identifikasi molekul kandidat, prediksi struktur protein (terobosan AlphaFold), dan optimasi desain uji klinis
- Namun, penemuan obat otonom end-to-end yang cukup untuk membenarkan valuasi saat ini masih belum ada
- Manusia tetap berada dalam loop bukan karena pilihan desain workflow, melainkan karena AI belum benar-benar bisa melakukan pekerjaan itu
Cara mengidentifikasi ketiadaan MMF
- Sinyal paling dapat diandalkan untuk menilai ketiadaan MMF adalah melihat peran human-in-the-loop ditempatkan sebagai apa
- Saat MMF ada, human-in-the-loop berfungsi sebagai fitur, menjaga kualitas, membangun kepercayaan, dan menangani edge case
- AI melakukan pekerjaan inti, manusia memberi pengawasan dan persetujuan
- Saat MMF tidak ada, human-in-the-loop lebih mirip kruk yang menutupi fakta bahwa AI tidak bisa melakukan pekerjaan inti
- Manusia bukan sekadar augmentasi, tetapi pelengkap utama, dan jika manusia dihilangkan produk langsung gagal berfungsi
- Ukuran sederhananya: jika semua koreksi manusia dihapus dari workflow ini, apakah pelanggan masih mau membayar
- Jika tidak, maka MMF tidak ada, dan yang tersisa hanyalah demo
Dilema strategis: membangun untuk sekarang atau untuk masa depan?
-
Argumen untuk menunggu
- Membangun startup saat MMF belum ada pada dasarnya berarti bertaruh pada peningkatan model yang ada di roadmap pihak lain
- Kapan kemampuan itu akan tiba berada di luar kendali, dan sementara Anthropic serta OpenAI yang memutuskan, runway terus terkuras
- Bahkan penilaian tentang kemampuan yang dibutuhkan itu sendiri bisa saja salah
- Kesenjangan antara akurasi 80% dan 99% yang dibutuhkan sebuah vertical mungkin baru tertutup lima tahun lagi, atau mungkin tidak pernah tertutup dengan cara yang dibayangkan
- Jika percaya pada AGI, model pada akhirnya mungkin akan bisa melakukan hampir semua hal, tetapi inti persoalannya bukan kemungkinan, melainkan timing
- Bukan soal apakah AI bisa menyelesaikan masalahnya, tetapi apakah startup bisa bertahan hidup sampai saat itu, yang pada akhirnya adalah masalah runway
-
Argumen untuk memulai lebih awal
- Ada kontra-argumen yang sering disampaikan di Y Combinator, dan argumennya cukup meyakinkan
- Pada saat MMF terbuka, yang dibutuhkan bukan hanya kemampuan model
- data pipeline yang spesifik domain
- relasi dengan regulator
- kepercayaan pelanggan yang dibangun selama bertahun-tahun
- workflow yang terintegrasi secara mendalam
- pemahaman tentang cara para ahli benar-benar bekerja
- Startup legal tidak sekadar menempelkan GPT-4, tetapi sudah membangun scaffolding lebih dulu sehingga saat modelnya muncul mereka langsung siap mengeksekusi
- Tim yang paling dekat dengan masalah memiliki pengaruh langsung terhadap kriteria evaluasi model, arah fine-tuning, dan cara deployment
- Mereka tidak pasif menunggu kemampuan datang, tetapi ikut menentukan apa yang dianggap sebagai kemampuan di vertical tersebut
-
Solusinya
- Pertanyaan intinya bukan apakah harus mulai lebih awal, melainkan seberapa awal, dan apa yang harus dibangun sambil menunggu
- Area paling berisiko adalah zona tengah
- ketika MMF tampaknya baru akan tercapai dalam 24–36 bulan
- terasa cukup dekat, tetapi masih cukup jauh untuk menghabiskan beberapa putaran pendanaan
- Di zona ini, keyakinan dan runway menentukan segalanya
- jika bertaruh pada MMF yang baru datang lebih dari dua tahun lagi, maka pasar yang ditunggu harus sangat besar
- Healthcare dan layanan keuangan adalah pasar bernilai triliunan dolar yang saat ini hasilnya masih campuran tetapi Anthropic dan OpenAI bertaruh habis-habisan di sana
- Karena upside potensialnya besar, positioning sejak dini menjadi rasional
- Rumus penilaiannya sederhana
expected value = probabilitas MMF tiba × ukuran pasar × pangsa yang diharapkan
Cara mengukur MMF
- Product-market fit terkenal sulit diukur secara presisi, dan Andreessen menjelaskannya secara kualitatif
- “Saat PMF belum terjadi, Anda selalu bisa merasakannya, dan saat itu terjadi, Anda juga selalu bisa merasakannya”
- MMF juga pada dasarnya merupakan konsep intuitif, tetapi bisa dijabarkan dengan kriteria yang lebih jelas
-
Uji MMF
- Pertanyaan inti: jika model menerima input yang sama dengan pakar manusia, bisakah ia menghasilkan output yang cukup bernilai untuk dibayar pelanggan tanpa koreksi manusia yang besar
- Tiga komponennya
- 1. Input yang sama
- Model menggunakan dokumen, data, dan konteks yang sama seperti yang diterima manusia
- Tidak diperbolehkan pra-pemrosesan ajaib yang tidak mungkin disediakan dalam workflow nyata
- 2. Output yang layak dibayar pelanggan
- Bukan demo atau proof of concept, melainkan hasil berkualitas produksi yang benar-benar menyelesaikan masalah nyata
- 3. Tanpa koreksi manusia yang besar
- Manusia boleh meninjau, mengedit, dan menyetujui, tetapi jika 50% output harus ditulis ulang, sulit mengatakan model benar-benar yang melakukan pekerjaannya
-
Kesenjangan 80/99
- Di vertical yang tidak teregulasi, akurasi 80% kadang sudah cukup
- AI yang membuat draft marketing copy tetap bisa menciptakan nilai meski manusia mengeditnya besar-besaran
- Di vertical teregulasi (keuangan, hukum, healthcare), akurasi 80% pada praktiknya nyaris tidak berguna
- Alat review kontrak yang melewatkan 20% klausul inti tidak membantu pengacara, tetapi menciptakan liability
- Diagnosis medis yang salah satu dari lima kali bukanlah produk, melainkan risiko gugatan
- Kesenjangan antara akurasi 80% dan 99% dalam praktik kerja nyata sering kali nyaris tak terhingga
- Ini adalah perbedaan penentu antara “demo yang menjanjikan” dan “sistem produksi”
- Banyak startup AI terjebak di kesenjangan ini, menggalang dana dengan demo sambil menunggu kemampuan yang akan membuat produknya benar-benar bekerja
Ambang agentic
- Frontier kemampuan kedua yang sering diabaikan dalam kebanyakan pembahasan MMF adalah kemampuan untuk bekerja secara otonom dalam jangka panjang
- Contoh kasus MMF yang saat ini sudah terbentuk (review dokumen hukum, bantuan coding) pada dasarnya adalah pekerjaan dengan horizon pendek
- masukkan prompt, hasilkan output, lakukan beberapa pemanggilan tool, lalu dapatkan hasil berguna dalam hitungan detik atau menit
- Namun, pekerjaan pengetahuan yang paling bernilai tidak berjalan seperti ini
- Analis keuangan tidak sekadar menjawab satu pertanyaan, tetapi membangun model selama berhari-hari, melakukan stress test asumsi, dan mensintesis informasi dari puluhan sumber
- Konsultan strategi tidak hanya membuat satu slide, tetapi mengulang riset selama berminggu-minggu, wawancara, dan analisis
- Peneliti penemuan obat tidak menjalankan satu eksperimen, tetapi merancang dan mengeksekusi kampanye selama berbulan-bulan
- Workflow seperti ini menuntut kemampuan yang belum bisa dilakukan model secara andal, dan inti dari kemampuan itu adalah operasi otonom yang berkelanjutan
- Ambang agentic bukan sekadar soal “apakah model bisa menggunakan tool”
- Persistensi: bisakah ia mempertahankan tujuan dan konteks selama berjam-jam atau berhari-hari
- Pemulihan: bisakah ia mengenali kegagalan, mendiagnosis penyebabnya, lalu mencoba pendekatan lain
- Koordinasi: bisakah ia memecah tujuan kompleks menjadi sub-tugas dan mengeksekusinya secara berurutan
- Penilaian: bisakah ia membedakan kapan harus terus maju dan kapan harus berhenti lalu meminta arahan manusia
- Agen saat ini mampu menangani pekerjaan berdurasi menit, tetapi generasi agen berikutnya harus mampu menangani pekerjaan berdurasi hari
- Ini bukan sekadar peningkatan performa bertahap, melainkan perubahan fase pada kemampuan itu sendiri
- Inilah alasan bidang keuangan belum memiliki MMF meski model dinilai “membaca dokumen dengan baik”
- Membaca 10-K adalah tugas 30 detik, tetapi membangun tesis investasi adalah workflow berhari-hari
- Pengumpulan data, pembangunan model, pengujian skenario, dan sintesis kesimpulan harus dijaga dengan penalaran yang konsisten sepanjang proses
- Gelombang berikutnya dari terbukanya MMF akan dimulai bukan hanya oleh model yang lebih pintar, tetapi oleh model yang bisa bekerja secara otonom pada tugas yang sama selama berhari-hari
Poin struktural utama
- Inti wawasan Andreessen adalah bahwa pasar lebih penting daripada tim atau produk karena pasar yang hebat akan menarik produk keluar dari startup
- Konsekuensi yang tak terelakkan dalam AI adalah bahwa prasyarat agar tarikan gravitasi itu mulai bekerja adalah kemampuan model
- Sebesar apa pun pasar dan sekuat apa pun kebutuhannya, pasar tidak bisa menarik produk yang tidak berfungsi
- Dalam AI, ukuran “tidak berfungsi” ditentukan bukan oleh engineering atau desain, melainkan oleh model itu sendiri
- Anda bisa memiliki antarmuka terindah, workflow paling elegan, dan data pipeline paling canggih, tetapi jika model dasar tidak bisa melakukan pekerjaan inti, semuanya tidak berarti
- Jika urutan MMF → PMF → sukses dilompati, maka tahap kedua tidak mungkin terbentuk
- Bagi founder, ini berarti harus membedakan dengan kejujuran tanpa kompromi antara sejauh mana kemampuan saat ini benar-benar sudah sampai, dan di mana mereka berharap kemampuan itu berada
- Bagi investor, ini berarti harus menilai bukan hanya ukuran pasar dan kualitas tim, tetapi juga kesenjangan antara kemampuan model saat ini dan tuntutan pasar
- Bagi semua orang yang membangun AI, pertanyaan yang tersisa bukan apakah pasar menginginkannya, melainkan apakah model benar-benar bisa memberikannya
- Itulah satu-satunya hal yang penting
1 komentar
Software Survival 3.0 – Apa yang harus dibuat agar bisa bertahan hidup
Beberapa hari terakhir, tulisan tentang bagaimana cara bertahan hidup cukup sering terlihat.