Act o1 Generative AI — Era Baru Penalaran Agen Dimulai

xguru · 2024-10-21T11:06:01+09:00

Memasuki tahun kedua revolusi Generative AI, riset berevolusi dari "berpikir cepat" ke "berpikir lambat" "Berpikir cepat" berarti respons cepat yang telah dipra-latih, sedangkan "berpikir lambat" berarti melakukan reasoning saat inference Evolusi ini memunculkan jenis baru aplikasi agen Saat lapisan fondasi pasar Generative AI mulai stabil, segelintir pemain besar seperti Microsoft/OpenAI, AWS/Anthropic, Meta, dan Google/DeepMind memimpin pasar Hanya perusahaan besar dengan mesin ekonomi dan modal sangat besar yang bertahan dalam persaingan Struktur pasar itu sendiri makin kokoh, dan prediksi next-token yang murah serta melimpah akan menjadi mungkin Saat struktur pasar LLM mulai stabil, frontier baru pun muncul Fokus diarahkan pada pengembangan dan perluasan lapisan reasoning yang memprioritaskan pola pikir "System 2" Terinspirasi oleh model seperti AlphaGo, lapisan ini bertujuan memberi sistem AI kemampuan melampaui sekadar pencocokan pola sederhana, menuju reasoning yang cermat, pemecahan masalah, dan proses kognitif Arsitektur kognitif baru dan antarmuka pengguna baru membentuk cara kemampuan reasoning ini disampaikan kepada pengguna dan digunakan untuk berinteraksi Strawberry Fields Forever Pembaruan model terpenting pada 2024 adalah o1 dari OpenAI (sebelumnya dikenal sebagai Q* dan juga disebut Strawberry) Ini bukan sekadar OpenAI naik ke papan peringkat kualitas model, tetapi juga membawa peningkatan besar pada arsitektur status quo Secara spesifik, ini adalah model pertama dengan "kemampuan penalaran umum" yang nyata, dicapai melalui komputasi saat inferensi Model pra-latih vs komputasi waktu inferensi Model pra-latih melakukan next token prediction menggunakan data dalam jumlah sangat besar Sifat emergen dari skala tersebut adalah reasoning dasar, tetapi reasoning ini sangat terbatas Komputasi waktu inferensi berarti meminta model berhenti sejenak dan berpikir sebelum memberikan respons Untuk itu, dibutuhkan komputasi yang lebih besar saat inferensi Bagian "berhenti dan berpikir" itulah yang disebut reasoning Perbandingan AlphaGo dan LLM AlphaGo menciptakan salah satu momen terpenting dalam sejarah deep learning saat menghadapi legenda baduk Lee Sedol di Seoul pada Maret 2016 AlphaGo menunjukkan kepada dunia sosok "AI yang berpikir" yang lebih dari sekadar meniru pola Perbedaan antara AlphaGo dan sistem AI permainan sebelumnya Seperti LLM, AlphaGo dipra-latih untuk meniru ahli manusia melalui basis data sekitar 30 juta langkah permainan sebelumnya dan self-play Namun, alih-alih memberikan respons instan dari model pra-latih, AlphaGo meluangkan waktu untuk berhenti dan berpikir Saat inferensi, AlphaGo menjalankan pencarian atau simulasi terhadap berbagai skenario masa depan potensial, mengevaluasi skenario tersebut, lalu merespons dengan skenario (atau jawaban) yang memiliki nilai harapan tertinggi Semakin banyak waktu yang diberikan kepada AlphaGo, semakin baik performanya Tanpa komputasi waktu inferensi sama sekali, AlphaGo tidak bisa mengalahkan pemain manusia terbaik Mengapa sulit mereplikasi AlphaGo pada LLM Sulit membangun value function untuk mengevaluasi respons Dalam baduk, permainan bisa disimulasikan sampai akhir untuk melihat siapa yang menang, lalu menghitung nilai harapan langkah berikutnya Dalam coding, kode bisa diuji untuk melihat apakah ia berfungsi Namun draf esai, rencana perjalanan, atau rangkuman istilah kunci dari dokumen panjang sulit untuk dievaluasi Inilah alasan reasoning sulit dilakukan dengan metodologi saat ini, dan mengapa Strawberry relatif kuat di area yang dekat dengan logika (misalnya coding, matematika, sains) tetapi tidak demikian di area yang terbuka dan tidak terstruktur (misalnya menulis) Riset untuk meningkatkan kemampuan reasoning model Strawberry Implementasi nyata Strawberry dijaga sangat ketat, tetapi ide intinya berkaitan dengan reinforcement learning atas chain of thought yang dihasilkan model Mengaudit chain of thought model menunjukkan bahwa ada sesuatu yang mendasar dan menarik yang terjadi, mirip dengan cara manusia berpikir dan bernalar Sebagai contoh, o1 menunjukkan kemampuan untuk mundur saat menemui jalan buntu sebagai sifat emergen dari scaling pada waktu inferensi Model ini juga menunjukkan kemampuan untuk memikirkan masalah seperti manusia (misalnya memvisualisasikan titik pada bola untuk menyelesaikan soal geometri) dan kemampuan untuk memikirkan masalah dengan cara baru (misalnya menyelesaikan soal kompetisi pemrograman dengan cara yang berbeda dari manusia) Tim riset memiliki banyak ide untuk memajukan komputasi waktu inferensi, seperti metode baru untuk menghitung reward function dan metode baru untuk memperkecil kesenjangan generator/verifier, guna meningkatkan kemampuan reasoning model Dengan kata lain, deep reinforcement learning kembali mendapat sorotan, dan secara keseluruhan hal ini memungkinkan lapisan reasoning baru Lompatan dari System 1 ke System 2 Thinking Lompatan dari respons naluriah yang telah dipra-latih ("System 1") ke reasoning yang lebih dalam dan hati-hati ("System 2") adalah frontier generasi berikutnya bagi AI Tidak cukup bagi model untuk sekadar mengetahui sesuatu Model perlu berhenti sejenak, mengevaluasi, dan bernalar untuk mengambil keputusan secara real-time Pra-pelatihan sesuai dengan lapisan System 1 Baik saat mempelajari jutaan langkah baduk di AlphaGo maupun petabita teks internet berskala besar di LLM, tujuan pra-pelatihan adalah meniru pola seperti gameplay manusia atau bahasa Namun peniruan, sekuat apa pun, bukanlah reasoning yang sesungguhnya Terutama dalam situasi kompleks dan baru di luar dataset pelatihan, model tidak dapat benar-benar berpikir dengan baik Pemikiran System 2 menjadi fokus riset AI mutakhir Saat model "berhenti dan berpikir", ia tidak sekadar menghasilkan pola yang telah dipelajari atau memuntahkan prediksi berdasarkan data masa lalu Ia menghasilkan rentang kemungkinan, mempertimbangkan hasil potensial, dan mengambil keputusan berdasarkan reasoning Pemanfaatan yang tepat untuk pemikiran System 1 dan System 2 Untuk banyak tugas, pemikiran System 1 sudah cukup (misalnya, berpikir lebih lama tidak akan membantu untuk menjawab apa ibu kota Bhutan) Namun, untuk masalah yang lebih kompleks seperti terobosan dalam matematika atau biologi, respons cepat dan naluriah tidaklah memadai Kemajuan semacam itu membutuhkan pemikiran mendalam, pemecahan masalah kreatif, dan yang terpenting, waktu Hal yang sama berlaku untuk AI. Untuk menyelesaikan masalah yang paling sulit dan bermakna, AI perlu meluangkan waktu agar dapat melampaui respons cepat dalam dataset pelatihan dan menghasilkan reasoning penuh pertimbangan yang mendefinisikan kemajuan manusia Hukum penskalaan baru: dimulainya persaingan reasoning Wawasan terpenting dari paper o1 OpenAI adalah bahwa hukum penskalaan baru telah muncul Hukum penskalaan pra-pelatihan LLM Pra-pelatihan LLM mengikuti hukum penskalaan yang sudah dipahami dengan baik Semakin banyak komputasi dan data yang digunakan untuk pra-melatih model, semakin baik performanya Hukum penskalaan baru untuk komputasi waktu inferensi Paper o1 membuka dimensi baru untuk memperluas komputasi Semakin banyak waktu reasoning (atau komputasi "test-time") yang diberikan kepada model, semakin baik kemampuan reasoning-nya Apa yang akan terjadi jika model dapat berpikir selama beberapa jam, beberapa hari, atau beberapa puluh tahun? Apakah ia bisa memecahkan hipotesis Riemann? Apakah ia bisa menjawab pertanyaan terakhir Asimov? Peralihan dari klaster pra-pelatihan skala besar ke cloud inferensi Perubahan ini akan memindahkan kita dari dunia klaster pra-pelatihan skala besar ke cloud inferensi Cloud inferensi adalah lingkungan yang dapat menskalakan komputasi secara dinamis sesuai kompleksitas tugas Apakah satu model akan menguasai segalanya? Apa yang akan terjadi ketika OpenAI, Anthropic, Google, Meta, dan lainnya memperluas lapisan penalaran dan mengembangkan mesin penalaran yang lebih kuat? Apakah satu model akan menguasai segalanya? Salah satu hipotesisnya adalah perusahaan model tunggal akan menjadi terlalu kuat dan menyerap semua aplikasi lain Prediksi ini sejauh ini terbukti salah dalam dua hal Pertama, di lapisan model ada banyak pesaing yang terus berlomba dalam kemampuan SOTA Memang ada kemungkinan seseorang berhasil mencapai perbaikan diri berkelanjutan dan lepas landas melalui pembelajaran mandiri lintas domain yang luas, tetapi belum ada bukti ke arah sana Sebaliknya, lapisan model adalah arena persaingan yang sengit, dan harga per token GPT-4 telah turun 98% sejak Developer Day terakhir Kedua, model mengalami kesulitan untuk masuk ke lapisan aplikasi Selain ChatGPT, model secara umum gagal menjadi produk terobosan di lapisan aplikasi Karena dunia nyata itu kompleks Para peneliti hebat tidak ingin memahami alur kerja end-to-end yang terperinci untuk setiap fitur yang mungkin di setiap pasar vertikal yang mungkin Bagi para peneliti, berhenti di API dan menyerahkan kompleksitas dunia nyata kepada ekosistem developer terasa menarik dan masuk akal secara ekonomi Ini adalah kabar baik bagi lapisan aplikasi Dunia nyata yang kompleks: kebutuhan akan arsitektur kognitif yang disesuaikan Cara seorang ilmuwan merencanakan dan menjalankan tindakan untuk mencapai tujuannya sangat berbeda dari cara seorang software engineer bekerja Bahkan cara bekerja seorang software engineer pun berbeda-beda antar perusahaan Meski laboratorium riset terus mendorong batas penalaran horizontal umum, penalaran khusus aplikasi atau domain tetap dibutuhkan untuk menghadirkan agen AI yang benar-benar berguna Dunia nyata yang kompleks membutuhkan banyak penalaran spesifik domain dan aplikasi yang tidak bisa dienkode secara efisien ke dalam model umum Munculnya arsitektur kognitif Arsitektur kognitif merujuk pada cara sistem berpikir, yaitu alur interaksi antara kode dan model yang menerima masukan pengguna lalu melakukan tindakan atau menghasilkan respons Sebagai contoh, di Factory, masing-masing produk "droid" memiliki arsitektur kognitif yang disesuaikan dan meniru cara manusia berpikir untuk menyelesaikan tugas tertentu seperti meninjau pull request atau menyusun dan menjalankan rencana migrasi untuk pembaruan layanan backend-ke-backend Droid Factory menganalisis semua dependensi, mengusulkan perubahan kode yang relevan, menambahkan unit test, dan melibatkan manusia untuk peninjauan Setelah itu, setelah disetujui, ia mengeksekusi perubahan di semua file dalam environment pengembangan, lalu menggabungkan kode jika semua test lolos Ini mirip dengan cara manusia berpikir yang terdiri dari serangkaian tugas terpisah, bukan satu jawaban yang digeneralisasi dan bersifat black box Apa yang sedang terjadi di App? Jika ingin memulai bisnis AI, lapisan mana yang sebaiknya ditargetkan? Untuk bersaing di lapisan infrastruktur, Anda harus mengalahkan NVIDIA dan para hyperscaler Untuk bersaing di lapisan model, Anda harus mengalahkan OpenAI dan Mark Zuckerberg Untuk bersaing di lapisan aplikasi, Anda harus mengalahkan IT enterprise dan integrator sistem global Persaingan di lapisan aplikasi tampak paling realistis Peluang di lapisan aplikasi Foundation model terasa seperti sihir, tetapi juga rumit Perusahaan arus utama tidak bisa menangani black box, halusinasi, dan workflow yang canggung Konsumen melihat prompt kosong dan tidak tahu harus meminta apa Ini adalah peluang bagi lapisan aplikasi Dua tahun lalu, banyak perusahaan di lapisan aplikasi dituduh "hanya pembungkus di atas GPT-3" Hari ini, pembungkus itu terbukti menjadi salah satu dari sedikit cara sehat untuk membangun nilai yang berkelanjutan Apa yang dimulai sebagai "wrapper" telah berevolusi menjadi "arsitektur kognitif" Ciri perusahaan AI lapisan aplikasi Bukan sekadar menaruh UI di atas foundation model Umumnya mereka memiliki arsitektur kognitif yang canggih, yang mencakup: Beberapa foundation model dengan semacam mekanisme routing di bagian atas Database vektor dan/atau graf untuk RAG Guardrail untuk memastikan kepatuhan Logika aplikasi yang meniru cara bernalar melalui workflow Service-as-a-Software Peralihan ke cloud adalah "Software-as-a-Service". Perusahaan software menjadi penyedia layanan cloud, dan ini merupakan peluang senilai $350 miliar Berkat penalaran agen, transisi AI adalah "Service-as-a-Software". Perusahaan software sedang mengubah tenaga kerja menjadi software Ini berarti pasar sasarannya bukan pasar software, melainkan pasar layanan bernilai triliunan dolar Arti menjual pekerjaan Sierra adalah contoh yang baik Perusahaan B2C menempatkan Sierra di situs web mereka untuk berbicara dengan pelanggan Job-to-be-done-nya adalah menyelesaikan masalah pelanggan Sierra mengenakan biaya per kasus yang diselesaikan Tidak ada yang namanya "seat". Anda punya pekerjaan yang harus diselesaikan, Sierra menangani pekerjaan itu, dan biaya dikenakan sesuai itu Inilah true north yang sesungguhnya bagi banyak perusahaan AI Keunggulan Sierra dan tantangan perusahaan lain Sierra memiliki keuntungan berupa mode kegagalan yang elegan, yaitu eskalasi ke agen manusia Tidak semua perusahaan seberuntung itu Pola barunya adalah pertama-tama menerapkan pilot dengan human-in-the-loop, lalu memanfaatkan pengalaman itu untuk mendapatkan peluang penerapan autopilot dengan human-out-of-the-loop GitHub Copilot adalah contoh yang baik untuk ini Jenis baru aplikasi agen mulai bermunculan Dengan kemampuan penalaran baru dari Generative AI, jenis baru aplikasi agen mulai bermunculan Menariknya, perusahaan lapisan aplikasi ini terlihat berbeda dari perusahaan cloud sebelumnya: Perusahaan cloud menargetkan pendapatan software, sedangkan perusahaan AI menargetkan pendapatan layanan Perusahaan cloud menjual software ($/seat), sedangkan perusahaan AI menjual pekerjaan ($/hasil) Perusahaan cloud lebih menyukai pendekatan bottom-up dengan distribusi tanpa gesekan, sedangkan perusahaan AI semakin mengambil pendekatan top-down dengan model delivery high-touch, high-trust Contoh aplikasi agen yang muncul di seluruh sektor ekonomi pengetahuan Harvey: pengacara AI Glean: asisten kerja AI Factory: software engineer AI Abridge: pencatat medis AI XBOW: pentester AI Sierra: agen dukungan pelanggan AI Dengan menurunkan biaya marjinal untuk menyediakan layanan ini hingga setara dengan penurunan tajam biaya penalaran, aplikasi agen sedang memperluas dan menciptakan pasar baru XBOW adalah contoh yang baik: XBOW sedang membangun "pentester" AI "Pentest" atau penetration testing adalah serangan siber simulasi terhadap sistem komputer yang dilakukan perusahaan untuk mengevaluasi sistem keamanan mereka sendiri Sebelum Generative AI, karena pentesting manusia mahal (pekerjaan manual oleh tenaga terampil), perusahaan hanya merekrut pentester dalam situasi terbatas, misalnya saat diwajibkan untuk kepatuhan Namun kini XBOW mendemonstrasikan pentest otomatis berbasis reasoning LLM mutakhir, yang menandingi performa pentester manusia paling terampil Ini memperluas pasar pentesting dan membuka kemungkinan pentesting berkelanjutan bagi perusahaan dari semua ukuran dan bentuk Apa dampaknya bagi industri SaaS? Saat bertemu LP di awal tahun ini, pertanyaan yang paling sering kami terima adalah: “Apakah transisi AI akan menghancurkan perusahaan cloud yang sudah ada?” Kami memulai dengan asumsi dasar yang kuat: “Tidak” Pertarungan klasik antara startup dan perusahaan mapan mirip seperti perlombaan di mana startup membangun distribusi dan perusahaan mapan membangun produk Bisakah perusahaan muda dengan produk keren menjangkau pelanggan sebelum perusahaan mapan yang sudah memiliki pelanggan meluncurkan produk keren? Mengingat sebagian besar keajaiban AI berasal dari foundation model, asumsi dasar kami adalah “tidak” Perusahaan mapan memiliki akses ke foundation model sama seperti startup, serta keunggulan yang sudah ada dalam data dan distribusi, sehingga kemungkinan akan baik-baik saja Peluang utama startup bukanlah menggantikan perusahaan software lama, melainkan menyerang kumpulan pekerjaan yang bisa diotomatisasi Namun, kini kami tidak lagi seyakin itu Lihat pembahasan di atas tentang arsitektur kognitif Diperlukan jumlah rekayasa yang sangat besar untuk mengubah kemampuan mentah model menjadi solusi bisnis end-to-end yang meyakinkan dan andal Mungkinkah kita secara drastis meremehkan arti dari “AI native”? Dua puluh tahun lalu, perusahaan software on-premises menertawakan ide SaaS “Bukan masalah besar. Kami juga bisa menjalankan server sendiri dan menyediakannya lewat internet!” Secara konseptual memang sederhana, tetapi setelah itu terjadi penciptaan ulang bisnis secara menyeluruh: EPD beralih dari model waterfall dan PRD ke pengembangan agile dan A/B testing GTM beralih dari penjualan enterprise top-down dan jamuan makan malam steak ke PLG bottom-up dan analitik produk Model bisnis beralih dari ASP tinggi dan aliran maintenance ke NDR tinggi dan harga berbasis penggunaan Sangat sedikit perusahaan on-premises yang berhasil dalam transisi tersebut Mungkinkah AI menjadi titik belok yang mirip dengan SaaS? Mungkinkah peluang AI adalah menjual pekerjaan sambil sekaligus menggantikan software? Melalui Day.ai, kami bisa melihat sekilas masa depan Day adalah CRM AI-native System integrator menghasilkan miliaran dolar dengan mengonfigurasi Salesforce agar sesuai dengan kebutuhan pelanggan Hanya dengan akses ke email dan kalender, serta jawaban atas kuesioner satu halaman, Day secara otomatis membuat CRM yang disesuaikan sempurna dengan bisnis pelanggan Memang belum memiliki semua fitur, tetapi keajaiban CRM yang dibuat otomatis dan selalu mutakhir tanpa campur tangan manusia sudah cukup membuat orang memutuskan untuk beralih Industri investasi Di mana para investor menghabiskan waktu dan menanamkan modal? Infrastruktur Wilayah ini adalah domain para hyperscaler Lebih didorong oleh perilaku teori permainan daripada analisis ekonomi Bukan area yang cocok bagi investor ventura Model Area tempat hyperscaler dan investor finansial (FI) beraktivitas Hyperscaler berinvestasi dengan memanfaatkan neraca aset untuk menghasilkan keuntungan, lalu mendapatkannya kembali sebagai biaya komputasi dalam bisnis cloud mereka Investor finansial dipengaruhi oleh bias “terpesona pada sains” Model-model ini sangat menarik dan timnya luar biasa, tetapi logika ekonominya diabaikan Developer tools dan software infrastruktur Kurang menarik bagi investor strategis, tetapi lebih menarik bagi investor ventura Sekitar 15 perusahaan dengan pendapatan di atas 1 miliar dolar tercipta di lapisan ini selama transisi cloud Fenomena serupa diperkirakan akan terjadi dalam transisi AI Aplikasi Lapisan yang paling menarik bagi investor ventura Sekitar 20 perusahaan di lapisan aplikasi dengan pendapatan di atas 1 miliar dolar tercipta selama transisi cloud Jumlah serupa juga muncul dalam transisi mobile, dan tren yang sama diperkirakan akan terlihat dalam transisi AI kali ini Pemikiran penutup Pada tahap berikutnya dari AI generatif, dampak R&D penalaran diperkirakan akan menyebar cepat dan dalam ke lapisan aplikasi Arsitektur kognitif yang ada sebelumnya terutama mencakup teknik “unhobbling”, tetapi kini kemampuan itu diinternalisasi ke dalam model itu sendiri, sehingga aplikasi berbasis agen diperkirakan menjadi semakin canggih dan tangguh Di laboratorium, komputasi untuk Reasoning dan Inference-Time akan tetap menjadi topik penting, dan sekarang ketika hukum scaling baru telah muncul, kompetisi berikutnya pun dimulai Namun, di domain tertentu tetap sulit untuk mengumpulkan data dunia nyata dan mengenkodekan arsitektur kognitif yang spesifik untuk domain dan aplikasi Penyedia aplikasi last-mile bisa berada dalam posisi yang menguntungkan untuk menyelesaikan masalah-masalah ini Ke depan, ada kemungkinan sistem multi-agent seperti Droid dari Factory akan muncul dan menyebar sebagai cara untuk memodelkan proses penalaran dan pembelajaran sosial Sistem multi-agent diperkirakan akan dapat mencapai lebih banyak pekerjaan dengan membentuk tim yang mampu menangani banyak tugas secara bersamaan Momen yang dinantikan banyak orang adalah ‘Move 37’ dari AI generatif, yaitu saat sistem AI umum menunjukkan perilaku superhuman yang tak terduga seperti yang ditunjukkan AlphaGo dalam pertandingan melawan Lee Sedol Datangnya momen ini tidak berarti AI akan “memiliki kesadaran”, tetapi AI mungkin akan memiliki kemampuan untuk mensimulasikan proses persepsi, penalaran, dan tindakan lalu mengeksplorasinya dengan cara yang orisinal dan berguna Ini bisa jadi merupakan AGI (otonomi penuh kecerdasan buatan), dan itu bukanlah satu peristiwa tunggal, melainkan akan mengarah ke tahap teknologi berikutnya

(sequoiacap.com)

30 poin oleh xguru 2024-10-21 | 4 komentar | Bagikan ke WhatsApp

Memasuki tahun kedua revolusi Generative AI, riset berevolusi dari "berpikir cepat" ke "berpikir lambat"
- "Berpikir cepat" berarti respons cepat yang telah dipra-latih, sedangkan "berpikir lambat" berarti melakukan reasoning saat inference
- Evolusi ini memunculkan jenis baru aplikasi agen
Saat lapisan fondasi pasar Generative AI mulai stabil, segelintir pemain besar seperti Microsoft/OpenAI, AWS/Anthropic, Meta, dan Google/DeepMind memimpin pasar
- Hanya perusahaan besar dengan mesin ekonomi dan modal sangat besar yang bertahan dalam persaingan
- Struktur pasar itu sendiri makin kokoh, dan prediksi next-token yang murah serta melimpah akan menjadi mungkin
Saat struktur pasar LLM mulai stabil, frontier baru pun muncul
- Fokus diarahkan pada pengembangan dan perluasan lapisan reasoning yang memprioritaskan pola pikir "System 2"
- Terinspirasi oleh model seperti AlphaGo, lapisan ini bertujuan memberi sistem AI kemampuan melampaui sekadar pencocokan pola sederhana, menuju reasoning yang cermat, pemecahan masalah, dan proses kognitif
- Arsitektur kognitif baru dan antarmuka pengguna baru membentuk cara kemampuan reasoning ini disampaikan kepada pengguna dan digunakan untuk berinteraksi

Strawberry Fields Forever

Pembaruan model terpenting pada 2024 adalah o1 dari OpenAI (sebelumnya dikenal sebagai Q* dan juga disebut Strawberry)
- Ini bukan sekadar OpenAI naik ke papan peringkat kualitas model, tetapi juga membawa peningkatan besar pada arsitektur status quo
- Secara spesifik, ini adalah model pertama dengan "kemampuan penalaran umum" yang nyata, dicapai melalui komputasi saat inferensi
Model pra-latih vs komputasi waktu inferensi
- Model pra-latih melakukan next token prediction menggunakan data dalam jumlah sangat besar
- Sifat emergen dari skala tersebut adalah reasoning dasar, tetapi reasoning ini sangat terbatas
- Komputasi waktu inferensi berarti meminta model berhenti sejenak dan berpikir sebelum memberikan respons
- Untuk itu, dibutuhkan komputasi yang lebih besar saat inferensi
- Bagian "berhenti dan berpikir" itulah yang disebut reasoning

Perbandingan AlphaGo dan LLM

AlphaGo menciptakan salah satu momen terpenting dalam sejarah deep learning saat menghadapi legenda baduk Lee Sedol di Seoul pada Maret 2016
- AlphaGo menunjukkan kepada dunia sosok "AI yang berpikir" yang lebih dari sekadar meniru pola
Perbedaan antara AlphaGo dan sistem AI permainan sebelumnya
- Seperti LLM, AlphaGo dipra-latih untuk meniru ahli manusia melalui basis data sekitar 30 juta langkah permainan sebelumnya dan self-play
- Namun, alih-alih memberikan respons instan dari model pra-latih, AlphaGo meluangkan waktu untuk berhenti dan berpikir
- Saat inferensi, AlphaGo menjalankan pencarian atau simulasi terhadap berbagai skenario masa depan potensial, mengevaluasi skenario tersebut, lalu merespons dengan skenario (atau jawaban) yang memiliki nilai harapan tertinggi
- Semakin banyak waktu yang diberikan kepada AlphaGo, semakin baik performanya
- Tanpa komputasi waktu inferensi sama sekali, AlphaGo tidak bisa mengalahkan pemain manusia terbaik
Mengapa sulit mereplikasi AlphaGo pada LLM
- Sulit membangun value function untuk mengevaluasi respons
- Dalam baduk, permainan bisa disimulasikan sampai akhir untuk melihat siapa yang menang, lalu menghitung nilai harapan langkah berikutnya
- Dalam coding, kode bisa diuji untuk melihat apakah ia berfungsi
- Namun draf esai, rencana perjalanan, atau rangkuman istilah kunci dari dokumen panjang sulit untuk dievaluasi
- Inilah alasan reasoning sulit dilakukan dengan metodologi saat ini, dan mengapa Strawberry relatif kuat di area yang dekat dengan logika (misalnya coding, matematika, sains) tetapi tidak demikian di area yang terbuka dan tidak terstruktur (misalnya menulis)
Riset untuk meningkatkan kemampuan reasoning model Strawberry
- Implementasi nyata Strawberry dijaga sangat ketat, tetapi ide intinya berkaitan dengan reinforcement learning atas chain of thought yang dihasilkan model
- Mengaudit chain of thought model menunjukkan bahwa ada sesuatu yang mendasar dan menarik yang terjadi, mirip dengan cara manusia berpikir dan bernalar
- Sebagai contoh, o1 menunjukkan kemampuan untuk mundur saat menemui jalan buntu sebagai sifat emergen dari scaling pada waktu inferensi
- Model ini juga menunjukkan kemampuan untuk memikirkan masalah seperti manusia (misalnya memvisualisasikan titik pada bola untuk menyelesaikan soal geometri) dan kemampuan untuk memikirkan masalah dengan cara baru (misalnya menyelesaikan soal kompetisi pemrograman dengan cara yang berbeda dari manusia)
- Tim riset memiliki banyak ide untuk memajukan komputasi waktu inferensi, seperti metode baru untuk menghitung reward function dan metode baru untuk memperkecil kesenjangan generator/verifier, guna meningkatkan kemampuan reasoning model
- Dengan kata lain, deep reinforcement learning kembali mendapat sorotan, dan secara keseluruhan hal ini memungkinkan lapisan reasoning baru

Lompatan dari System 1 ke System 2 Thinking

Lompatan dari respons naluriah yang telah dipra-latih ("System 1") ke reasoning yang lebih dalam dan hati-hati ("System 2") adalah frontier generasi berikutnya bagi AI
Tidak cukup bagi model untuk sekadar mengetahui sesuatu
Model perlu berhenti sejenak, mengevaluasi, dan bernalar untuk mengambil keputusan secara real-time
Pra-pelatihan sesuai dengan lapisan System 1
- Baik saat mempelajari jutaan langkah baduk di AlphaGo maupun petabita teks internet berskala besar di LLM, tujuan pra-pelatihan adalah meniru pola seperti gameplay manusia atau bahasa
- Namun peniruan, sekuat apa pun, bukanlah reasoning yang sesungguhnya
- Terutama dalam situasi kompleks dan baru di luar dataset pelatihan, model tidak dapat benar-benar berpikir dengan baik
Pemikiran System 2 menjadi fokus riset AI mutakhir
- Saat model "berhenti dan berpikir", ia tidak sekadar menghasilkan pola yang telah dipelajari atau memuntahkan prediksi berdasarkan data masa lalu
- Ia menghasilkan rentang kemungkinan, mempertimbangkan hasil potensial, dan mengambil keputusan berdasarkan reasoning
Pemanfaatan yang tepat untuk pemikiran System 1 dan System 2
- Untuk banyak tugas, pemikiran System 1 sudah cukup (misalnya, berpikir lebih lama tidak akan membantu untuk menjawab apa ibu kota Bhutan)
- Namun, untuk masalah yang lebih kompleks seperti terobosan dalam matematika atau biologi, respons cepat dan naluriah tidaklah memadai
- Kemajuan semacam itu membutuhkan pemikiran mendalam, pemecahan masalah kreatif, dan yang terpenting, waktu
- Hal yang sama berlaku untuk AI. Untuk menyelesaikan masalah yang paling sulit dan bermakna, AI perlu meluangkan waktu agar dapat melampaui respons cepat dalam dataset pelatihan dan menghasilkan reasoning penuh pertimbangan yang mendefinisikan kemajuan manusia

Hukum penskalaan baru: dimulainya persaingan reasoning

Wawasan terpenting dari paper o1 OpenAI adalah bahwa hukum penskalaan baru telah muncul
Hukum penskalaan pra-pelatihan LLM
- Pra-pelatihan LLM mengikuti hukum penskalaan yang sudah dipahami dengan baik
- Semakin banyak komputasi dan data yang digunakan untuk pra-melatih model, semakin baik performanya
Hukum penskalaan baru untuk komputasi waktu inferensi
- Paper o1 membuka dimensi baru untuk memperluas komputasi
- Semakin banyak waktu reasoning (atau komputasi "test-time") yang diberikan kepada model, semakin baik kemampuan reasoning-nya
Apa yang akan terjadi jika model dapat berpikir selama beberapa jam, beberapa hari, atau beberapa puluh tahun?
- Apakah ia bisa memecahkan hipotesis Riemann?
- Apakah ia bisa menjawab pertanyaan terakhir Asimov?
Peralihan dari klaster pra-pelatihan skala besar ke cloud inferensi
- Perubahan ini akan memindahkan kita dari dunia klaster pra-pelatihan skala besar ke cloud inferensi
- Cloud inferensi adalah lingkungan yang dapat menskalakan komputasi secara dinamis sesuai kompleksitas tugas

Apakah satu model akan menguasai segalanya?

Apa yang akan terjadi ketika OpenAI, Anthropic, Google, Meta, dan lainnya memperluas lapisan penalaran dan mengembangkan mesin penalaran yang lebih kuat?
Apakah satu model akan menguasai segalanya?
Salah satu hipotesisnya adalah perusahaan model tunggal akan menjadi terlalu kuat dan menyerap semua aplikasi lain
- Prediksi ini sejauh ini terbukti salah dalam dua hal
- Pertama, di lapisan model ada banyak pesaing yang terus berlomba dalam kemampuan SOTA
  - Memang ada kemungkinan seseorang berhasil mencapai perbaikan diri berkelanjutan dan lepas landas melalui pembelajaran mandiri lintas domain yang luas, tetapi belum ada bukti ke arah sana
  - Sebaliknya, lapisan model adalah arena persaingan yang sengit, dan harga per token GPT-4 telah turun 98% sejak Developer Day terakhir
- Kedua, model mengalami kesulitan untuk masuk ke lapisan aplikasi
  - Selain ChatGPT, model secara umum gagal menjadi produk terobosan di lapisan aplikasi
  - Karena dunia nyata itu kompleks
  - Para peneliti hebat tidak ingin memahami alur kerja end-to-end yang terperinci untuk setiap fitur yang mungkin di setiap pasar vertikal yang mungkin
  - Bagi para peneliti, berhenti di API dan menyerahkan kompleksitas dunia nyata kepada ekosistem developer terasa menarik dan masuk akal secara ekonomi
  - Ini adalah kabar baik bagi lapisan aplikasi

Dunia nyata yang kompleks: kebutuhan akan arsitektur kognitif yang disesuaikan

Cara seorang ilmuwan merencanakan dan menjalankan tindakan untuk mencapai tujuannya sangat berbeda dari cara seorang software engineer bekerja
Bahkan cara bekerja seorang software engineer pun berbeda-beda antar perusahaan
Meski laboratorium riset terus mendorong batas penalaran horizontal umum, penalaran khusus aplikasi atau domain tetap dibutuhkan untuk menghadirkan agen AI yang benar-benar berguna
Dunia nyata yang kompleks membutuhkan banyak penalaran spesifik domain dan aplikasi yang tidak bisa dienkode secara efisien ke dalam model umum
Munculnya arsitektur kognitif
- Arsitektur kognitif merujuk pada cara sistem berpikir, yaitu alur interaksi antara kode dan model yang menerima masukan pengguna lalu melakukan tindakan atau menghasilkan respons
- Sebagai contoh, di Factory, masing-masing produk "droid" memiliki arsitektur kognitif yang disesuaikan dan meniru cara manusia berpikir untuk menyelesaikan tugas tertentu seperti meninjau pull request atau menyusun dan menjalankan rencana migrasi untuk pembaruan layanan backend-ke-backend
- Droid Factory menganalisis semua dependensi, mengusulkan perubahan kode yang relevan, menambahkan unit test, dan melibatkan manusia untuk peninjauan
- Setelah itu, setelah disetujui, ia mengeksekusi perubahan di semua file dalam environment pengembangan, lalu menggabungkan kode jika semua test lolos
- Ini mirip dengan cara manusia berpikir yang terdiri dari serangkaian tugas terpisah, bukan satu jawaban yang digeneralisasi dan bersifat black box

Apa yang sedang terjadi di App?

Jika ingin memulai bisnis AI, lapisan mana yang sebaiknya ditargetkan?
- Untuk bersaing di lapisan infrastruktur, Anda harus mengalahkan NVIDIA dan para hyperscaler
- Untuk bersaing di lapisan model, Anda harus mengalahkan OpenAI dan Mark Zuckerberg
- Untuk bersaing di lapisan aplikasi, Anda harus mengalahkan IT enterprise dan integrator sistem global
- Persaingan di lapisan aplikasi tampak paling realistis
Peluang di lapisan aplikasi
- Foundation model terasa seperti sihir, tetapi juga rumit
- Perusahaan arus utama tidak bisa menangani black box, halusinasi, dan workflow yang canggung
- Konsumen melihat prompt kosong dan tidak tahu harus meminta apa
- Ini adalah peluang bagi lapisan aplikasi
Dua tahun lalu, banyak perusahaan di lapisan aplikasi dituduh "hanya pembungkus di atas GPT-3"
- Hari ini, pembungkus itu terbukti menjadi salah satu dari sedikit cara sehat untuk membangun nilai yang berkelanjutan
- Apa yang dimulai sebagai "wrapper" telah berevolusi menjadi "arsitektur kognitif"
Ciri perusahaan AI lapisan aplikasi
- Bukan sekadar menaruh UI di atas foundation model
- Umumnya mereka memiliki arsitektur kognitif yang canggih, yang mencakup:
  - Beberapa foundation model dengan semacam mekanisme routing di bagian atas
  - Database vektor dan/atau graf untuk RAG
  - Guardrail untuk memastikan kepatuhan
  - Logika aplikasi yang meniru cara bernalar melalui workflow

Service-as-a-Software

Peralihan ke cloud adalah "Software-as-a-Service". Perusahaan software menjadi penyedia layanan cloud, dan ini merupakan peluang senilai $350 miliar
Berkat penalaran agen, transisi AI adalah "Service-as-a-Software". Perusahaan software sedang mengubah tenaga kerja menjadi software
Ini berarti pasar sasarannya bukan pasar software, melainkan pasar layanan bernilai triliunan dolar
Arti menjual pekerjaan
- Sierra adalah contoh yang baik
- Perusahaan B2C menempatkan Sierra di situs web mereka untuk berbicara dengan pelanggan
- Job-to-be-done-nya adalah menyelesaikan masalah pelanggan
- Sierra mengenakan biaya per kasus yang diselesaikan
- Tidak ada yang namanya "seat". Anda punya pekerjaan yang harus diselesaikan, Sierra menangani pekerjaan itu, dan biaya dikenakan sesuai itu
- Inilah true north yang sesungguhnya bagi banyak perusahaan AI
Keunggulan Sierra dan tantangan perusahaan lain
- Sierra memiliki keuntungan berupa mode kegagalan yang elegan, yaitu eskalasi ke agen manusia
- Tidak semua perusahaan seberuntung itu
- Pola barunya adalah pertama-tama menerapkan pilot dengan human-in-the-loop, lalu memanfaatkan pengalaman itu untuk mendapatkan peluang penerapan autopilot dengan human-out-of-the-loop
- GitHub Copilot adalah contoh yang baik untuk ini

Jenis baru aplikasi agen mulai bermunculan

Dengan kemampuan penalaran baru dari Generative AI, jenis baru aplikasi agen mulai bermunculan
Menariknya, perusahaan lapisan aplikasi ini terlihat berbeda dari perusahaan cloud sebelumnya:
- Perusahaan cloud menargetkan pendapatan software, sedangkan perusahaan AI menargetkan pendapatan layanan
- Perusahaan cloud menjual software ($/seat), sedangkan perusahaan AI menjual pekerjaan ($/hasil)
- Perusahaan cloud lebih menyukai pendekatan bottom-up dengan distribusi tanpa gesekan, sedangkan perusahaan AI semakin mengambil pendekatan top-down dengan model delivery high-touch, high-trust
Contoh aplikasi agen yang muncul di seluruh sektor ekonomi pengetahuan
- Harvey: pengacara AI
- Glean: asisten kerja AI
- Factory: software engineer AI
- Abridge: pencatat medis AI
- XBOW: pentester AI
- Sierra: agen dukungan pelanggan AI
Dengan menurunkan biaya marjinal untuk menyediakan layanan ini hingga setara dengan penurunan tajam biaya penalaran, aplikasi agen sedang memperluas dan menciptakan pasar baru
XBOW adalah contoh yang baik:
- XBOW sedang membangun "pentester" AI
- "Pentest" atau penetration testing adalah serangan siber simulasi terhadap sistem komputer yang dilakukan perusahaan untuk mengevaluasi sistem keamanan mereka sendiri
- Sebelum Generative AI, karena pentesting manusia mahal (pekerjaan manual oleh tenaga terampil), perusahaan hanya merekrut pentester dalam situasi terbatas, misalnya saat diwajibkan untuk kepatuhan
- Namun kini XBOW mendemonstrasikan pentest otomatis berbasis reasoning LLM mutakhir, yang menandingi performa pentester manusia paling terampil
- Ini memperluas pasar pentesting dan membuka kemungkinan pentesting berkelanjutan bagi perusahaan dari semua ukuran dan bentuk

Apa dampaknya bagi industri SaaS?

Saat bertemu LP di awal tahun ini, pertanyaan yang paling sering kami terima adalah: “Apakah transisi AI akan menghancurkan perusahaan cloud yang sudah ada?”
Kami memulai dengan asumsi dasar yang kuat: “Tidak”
- Pertarungan klasik antara startup dan perusahaan mapan mirip seperti perlombaan di mana startup membangun distribusi dan perusahaan mapan membangun produk
- Bisakah perusahaan muda dengan produk keren menjangkau pelanggan sebelum perusahaan mapan yang sudah memiliki pelanggan meluncurkan produk keren?
- Mengingat sebagian besar keajaiban AI berasal dari foundation model, asumsi dasar kami adalah “tidak”
- Perusahaan mapan memiliki akses ke foundation model sama seperti startup, serta keunggulan yang sudah ada dalam data dan distribusi, sehingga kemungkinan akan baik-baik saja
- Peluang utama startup bukanlah menggantikan perusahaan software lama, melainkan menyerang kumpulan pekerjaan yang bisa diotomatisasi
Namun, kini kami tidak lagi seyakin itu
- Lihat pembahasan di atas tentang arsitektur kognitif
- Diperlukan jumlah rekayasa yang sangat besar untuk mengubah kemampuan mentah model menjadi solusi bisnis end-to-end yang meyakinkan dan andal
- Mungkinkah kita secara drastis meremehkan arti dari “AI native”?
Dua puluh tahun lalu, perusahaan software on-premises menertawakan ide SaaS
- “Bukan masalah besar. Kami juga bisa menjalankan server sendiri dan menyediakannya lewat internet!”
- Secara konseptual memang sederhana, tetapi setelah itu terjadi penciptaan ulang bisnis secara menyeluruh:
  - EPD beralih dari model waterfall dan PRD ke pengembangan agile dan A/B testing
  - GTM beralih dari penjualan enterprise top-down dan jamuan makan malam steak ke PLG bottom-up dan analitik produk
  - Model bisnis beralih dari ASP tinggi dan aliran maintenance ke NDR tinggi dan harga berbasis penggunaan
- Sangat sedikit perusahaan on-premises yang berhasil dalam transisi tersebut
Mungkinkah AI menjadi titik belok yang mirip dengan SaaS? Mungkinkah peluang AI adalah menjual pekerjaan sambil sekaligus menggantikan software?
Melalui Day.ai, kami bisa melihat sekilas masa depan
- Day adalah CRM AI-native
- System integrator menghasilkan miliaran dolar dengan mengonfigurasi Salesforce agar sesuai dengan kebutuhan pelanggan
- Hanya dengan akses ke email dan kalender, serta jawaban atas kuesioner satu halaman, Day secara otomatis membuat CRM yang disesuaikan sempurna dengan bisnis pelanggan
- Memang belum memiliki semua fitur, tetapi keajaiban CRM yang dibuat otomatis dan selalu mutakhir tanpa campur tangan manusia sudah cukup membuat orang memutuskan untuk beralih

Industri investasi

Di mana para investor menghabiskan waktu dan menanamkan modal?
Infrastruktur
- Wilayah ini adalah domain para hyperscaler
- Lebih didorong oleh perilaku teori permainan daripada analisis ekonomi
- Bukan area yang cocok bagi investor ventura
Model
- Area tempat hyperscaler dan investor finansial (FI) beraktivitas
- Hyperscaler berinvestasi dengan memanfaatkan neraca aset untuk menghasilkan keuntungan, lalu mendapatkannya kembali sebagai biaya komputasi dalam bisnis cloud mereka
- Investor finansial dipengaruhi oleh bias “terpesona pada sains”
- Model-model ini sangat menarik dan timnya luar biasa, tetapi logika ekonominya diabaikan
Developer tools dan software infrastruktur
- Kurang menarik bagi investor strategis, tetapi lebih menarik bagi investor ventura
- Sekitar 15 perusahaan dengan pendapatan di atas 1 miliar dolar tercipta di lapisan ini selama transisi cloud
- Fenomena serupa diperkirakan akan terjadi dalam transisi AI
Aplikasi
- Lapisan yang paling menarik bagi investor ventura
- Sekitar 20 perusahaan di lapisan aplikasi dengan pendapatan di atas 1 miliar dolar tercipta selama transisi cloud
- Jumlah serupa juga muncul dalam transisi mobile, dan tren yang sama diperkirakan akan terlihat dalam transisi AI kali ini

Pemikiran penutup

Pada tahap berikutnya dari AI generatif, dampak R&D penalaran diperkirakan akan menyebar cepat dan dalam ke lapisan aplikasi
Arsitektur kognitif yang ada sebelumnya terutama mencakup teknik “unhobbling”, tetapi kini kemampuan itu diinternalisasi ke dalam model itu sendiri, sehingga aplikasi berbasis agen diperkirakan menjadi semakin canggih dan tangguh
Di laboratorium, komputasi untuk Reasoning dan Inference-Time akan tetap menjadi topik penting, dan sekarang ketika hukum scaling baru telah muncul, kompetisi berikutnya pun dimulai
Namun, di domain tertentu tetap sulit untuk mengumpulkan data dunia nyata dan mengenkodekan arsitektur kognitif yang spesifik untuk domain dan aplikasi
Penyedia aplikasi last-mile bisa berada dalam posisi yang menguntungkan untuk menyelesaikan masalah-masalah ini
Ke depan, ada kemungkinan sistem multi-agent seperti Droid dari Factory akan muncul dan menyebar sebagai cara untuk memodelkan proses penalaran dan pembelajaran sosial
Sistem multi-agent diperkirakan akan dapat mencapai lebih banyak pekerjaan dengan membentuk tim yang mampu menangani banyak tugas secara bersamaan
Momen yang dinantikan banyak orang adalah ‘Move 37’ dari AI generatif, yaitu saat sistem AI umum menunjukkan perilaku superhuman yang tak terduga seperti yang ditunjukkan AlphaGo dalam pertandingan melawan Lee Sedol
Datangnya momen ini tidak berarti AI akan “memiliki kesadaran”, tetapi AI mungkin akan memiliki kemampuan untuk mensimulasikan proses persepsi, penalaran, dan tindakan lalu mengeksplorasinya dengan cara yang orisinal dan berguna
Ini bisa jadi merupakan AGI (otonomi penuh kecerdasan buatan), dan itu bukanlah satu peristiwa tunggal, melainkan akan mengarah ke tahap teknologi berikutnya

4 komentar

lsw4uto 2024-11-11

Saya menantikan masalah apa saja yang bisa diselesaikan oleh kecerdasan buatan yang semakin pintar.

aer0700 2024-10-27

Jika model bisa berpikir lama dan memecahkan hipotesis Riemann, dampaknya akan sangat besar.

pmc7777 2024-10-21

Untuk bersaing di lapisan model, Anda harus mengalahkan OpenAI dan Mark Zuckerberg.

Lucu juga ya mereka menyebut Zuckerberg, bukan Meta wkwkwk

kotzen 2024-10-21

Kalau di tulisan ringkasnya tidak disebutkan secara eksplisit, saya tuliskan untuk berjaga-jaga bahwa Sistem 1 dan Sistem 2 adalah konsep yang muncul dalam buku Thinking, Fast and Slow.
Sistem 1: pemikiran cepat yang bekerja tanpa berpikir mendalam, secara bawah sadar atau intuitif, misalnya mengemudi, berjalan
Sistem 2: pemikiran lambat yang menuntut pemikiran logis dan mendalam, misalnya berhitung mental