OpenAI Apps SDK

(developers.openai.com)

1 poin oleh GN⁺ 2025-10-07 | 1 komentar | Bagikan ke WhatsApp

OpenAI merilis Apps SDK, sebuah framework yang mendukung pengembangan aplikasi yang berjalan di dalam ChatGPT
Pengembang dapat memanfaatkan SDK ini untuk membuat aplikasi baru yang berjalan di dalam ChatGPT, serta menyediakan lingkungan untuk menguji fitur eksperimental secara bebas
Apps SDK saat ini tersedia dalam versi pratinjau (preview), dan pengajuan aplikasi serta distribusi resmi dijadwalkan berlangsung pada akhir tahun ini
Framework ini membuka skalabilitas platform ChatGPT dan peluang pengembangan aplikasi kustom, sehingga integrasi dan otomatisasi dengan berbagai perangkat lunak dan layanan diperkirakan menjadi mungkin
Diharapkan perluasan ekosistem pengembang akan mendorong peningkatan produktivitas dan terciptanya layanan inovatif

1 komentar

GN⁺ 2025-10-07

Opini Hacker News

Menarik melihat ChatGPT semakin menjadi titik awal untuk menjelajah web; sekarang orang bahkan mungkin tak perlu repot mencari sendiri karena alur kerja dasar seperti peta, pembayaran Stripe, pemesanan tiket pesawat, dan lain-lain akan disediakan, sehingga sebagian besar tugas rutin sehari-hari bisa tercakup.
Selama 2 tahun terakhir, hambatan terbesar untuk kemajuan seperti ini bukanlah modelnya, melainkan engineering, infrastruktur, dan kemauan perusahaan-perusahaan untuk bekerja sama langsung dengan OpenAI.
Sekarang, seiring OpenAI tumbuh dan basis penggunanya membesar, perusahaan-perusahaan jadi jauh lebih aktif untuk berinvestasi atau ikut serta.
Perubahan ini bukan hanya akan memengaruhi cara orang memakai internet yang berpusat pada pengguna, tetapi juga, jika makin banyak alat berbasis SDK bermunculan, alur kerja manusia akan terbelah antara trafik yang mengalir lewat chatbot dan web baru yang dioptimalkan untuk SEO serta chat/agent.
- Sepertinya banyak juga orang yang, seperti saya, tidak ingin memakai AI.
  Khususnya untuk pembelian tiket pesawat, bukan karena saya tak percaya AI akan membuat kesalahan, tetapi karena saya ingin menanganinya sendiri.
  Ibaratnya seperti mengapa mengemudi terasa lebih aman daripada terbang, walau kita tahu mengemudi sebenarnya lebih berbahaya.
  Pada akhirnya, yang penting adalah kendali saya sendiri.
- Saya tidak paham kenapa harus memaksa menjalankan aplikasi di dalam chatbox, menampilkannya dalam format aneh, lalu akhirnya tetap memberi tautan ke aplikasi aslinya.
  Lebih masuk akal kalau chatbox dimasukkan ke dalam aplikasi.
- Kalau sampai ada satu perusahaan yang mengendalikan, menyaring, dan mengelola seluruh penggunaan internet, menurut saya makna internet itu sendiri akan hilang.
  Saya paham argumen bahwa Google juga mirip seperti itu, tetapi setidaknya dari Google Search kita masih bisa pergi ke situs aslinya.
  Struktur bolak-balik lewat ChatGPT seperti semacam 'permainan telepon' itu terasa sangat mengerikan.
- Sama seperti saya sama sekali tak berniat menyerahkan pembelian pada asisten suara, menyerahkan keputusan penting kepada LLM benar-benar tidak bisa diterima.
  Jangankan otorisasi pembayaran kartu kredit saya, membiarkan ia memesan penerbangan saja pun tak bisa saya bayangkan.
- OpenAI sebenarnya sudah punya peluang seperti ini sejak jumlah penggunanya meledak, tetapi menurut saya mereka gagal memanfaatkannya dengan baik lewat plugin dan GPTs.
  Ironisnya, MCP dari Anthropic justru bisa menjadi game changer di bidang ini.
Jika berangkat dari keyakinan bahwa ChatGPT akan menjadi antarmuka pengguna umum masa depan, gagasan seperti ini memang terdengar masuk akal.
Namun dalam praktiknya, tren agent belakangan justru menunjukkan bahwa lebih baik menyembunyikan antarmuka chat di balik paradigma UI yang lebih ketat.
- Saya rasa ada sangat banyak area di mana chat bisa menjadi antarmuka yang luar biasa.
  Kalau ChatGPT menjadi distributor untuk area-area seperti itu, ia bisa menggantikan Google.
  Meski begitu, untuk domain tertentu antarmuka yang disesuaikan tetap pendekatan yang benar, dan jika bidang itu cukup bernilai, pasti akan ada orang yang membuat antarmuka khusus untuknya.
- Contoh penggunaan utama agent belakangan ini adalah pembuatan kode, dan target penggunanya sudah terbiasa dengan IDE atau editor kode.
  Itu memang mengambil porsi besar dari penggunaan token, tetapi tidak mewakili kebutuhan atau keinginan pengguna umum.
  Saya yakin antarmuka chat menjadi seumum ini karena memang punya keunggulan tersendiri.
  Bahkan untuk penggunaan agent yang lebih umum, chat memberi kemudahan input lewat pengetikan atau suara.
  Pemakaian audio-to-audio atau video juga mudah digabungkan.
  Ke depannya, sekalipun generasi video bisa dilakukan secara real-time, kebanyakan hasilnya tetap akan lebih nyaman dikonsumsi dalam bentuk teks.
- Saya rasa orang tidak benar-benar ingin menyuruh chatGPT menghubungi Zillow atau Canva atas nama mereka.
  Mungkin mereka akan meminta cek harga rumah di Zillow atau membuat grafis lewat Canva, tetapi tidak sampai merasa perlu memanggil aplikasi tertentu itu sendiri.
  Pada akhirnya, jika aplikasi-aplikasi bergantung pada chatGPT untuk mengirim pengguna, chatGPT mau tak mau akan menyediakan fungsinya sendiri dan menggantikan aplikasi tersebut.
  Artinya, jika sebuah layanan mengekspos dirinya ke chatGPT dengan anggapan chat adalah antarmuka serbaguna, itu justru mempersulit kelangsungan hidupnya sendiri.
- Saya pikir antarmuka suara dan chat adalah kombinasi yang sangat bagus; misalnya saat berjalan sambil mengikuti pelajaran bahasa asing lewat suara atau melakukan pencarian web, itu sangat berguna.
  Saya juga memakai bentuk aplikasi catatan seperti NotebookLM sekali atau dua kali seminggu.
  Banyak eksperimen yang bisa dilakukan, seperti menempelkan model open kecil ke sistem yang lebih besar untuk ekstraksi data terstruktur.
  Saya skeptis terhadap kegunaan praktis sistem agentic saat ini (MCP dan semacamnya).
  Meski begitu, syukurlah hari ini tidak ada pembicaraan soal AGI.
  Kalau terus terjebak FOMO pada fantasi ASI dan AGI, yang tersisa mungkin hanya kebangkrutan.
- Antarmuka masa depan adalah AI lokal yang tertanam di perangkat keras, dengan fungsi yang dipelajari dari dataset.
  Sebagai EE dan bekerja di bidang model energi, ketika saya memikirkan karakteristik geometris osiloskop, persamaan bisa merekonstruksi strukturnya.
  Pengguna bisa mendapatkan hasil yang diinginkan dengan mudah melalui UI parameter.
  OS zaman sekarang adalah virtual machine untuk memproses string, tetapi di masa depan akan menjadi vector virtual machine yang memanipulasi koordinat.
  Dengan menyederhanakannya menjadi sinkronisasi antara matriks memori dan matriks display, ke depannya developer akan lepas dari pemrosesan string kuno.
Saat melihat wujud nyatanya, ternyata tidak se-inovatif yang dibayangkan.
'App'-nya pada dasarnya hanyalah server MCP, dengan satu-satunya perbedaan berupa opsi untuk bisa mengembalikan HTML.
Masalah mendasar MCP tetap ada, yaitu sifatnya single-player, pengguna harus selalu melakukan "pull", dan struktur keterhubungannya tidak seintuitif membuka aplikasi.
Idealnya, setiap aplikasi punya titik masuk unik, bisa mengirim push notification ke pengguna, dan punya persistensi di UI.
Antarmuka utamanya juga seharusnya HTML, bukan chat.
Saya memperkirakan hasil akhirnya akan mirip seperti GPTs.
- MCP sudah punya spesifikasi bernama "elicitation"; berkat fitur ini, saya melihat OpenAI sedang membangun fondasi agar interaksi model push bisa segera didukung.
  Jika sebuah layanan secara aktif terus mengikat pengguna dan LLM, server MCP bisa punya daya lekat yang sangat kuat.
  Proses instalasi/autentikasi juga akan makin mudah seiring menyesuaikan kebutuhan pengguna nonteknis.
Menarik karena ini mengingatkan saya saat membuat Phind 2 dan langsung menyisipkan widget dinamis ke dalam jawaban.
Kelemahan pendekatan ini adalah skema input dan output aplikasi/widget dibuat hardcoded.
Selama masih berada dalam cakupan widget, semuanya bekerja sangat baik, tetapi begitu ingin memakai filtering lanjutan khusus di Zillow atau integrasi dengan StreetEasy, batasannya segera terasa.
Dari sudut pandang pengguna, kalau fitur lanjutannya tidak ada, ya akhirnya tidak bisa dipakai.
Yang menurut saya benar-benar revolusioner adalah 'UI yang dihasilkan saat itu juga'.
Akan segera ada update tentang bagian ini di Phind (saya pendiri Phind).
- Phind memang sangat bagus.
  Dulu, saat saya lelah dengan mesin pencari lama seperti Google yang sering melempar hasil pencarian ngaco, saya bisa cepat menemukan informasi yang saya inginkan lewat Phind.
  Namun belakangan ini LLM sendiri juga sudah sangat bagus dalam pencarian, jadi akhir-akhir ini saya hanya memakai LLM.
- Fakta bahwa sudah ada proyek MCP-UI sebelumnya membuat kemungkinan ini tidak terlalu mengejutkan.
  Tetapi untuk pemakaian nyata, tetap terasa terlalu lambat dan perlu perbaikan.
- Saya juga sedang mempertimbangkan membuat sesuatu yang mirip di produk kami, dan sebagai solusi atas keterbatasan skema, saya memikirkan cara merancang widget sebagai blok generik semaksimal mungkin agar lebih serbaguna.
  Masih tahap ide, tetapi saya bertanya-tanya bagaimana kalau model dibiarkan memilih dan menggabungkan beberapa widget modular sesuai tugas.
  Misalnya hasil pencarian dipecah menjadi item tunggal, perbandingan berbentuk matriks, bagian filtering, dan sebagainya, lalu diteliti agar semuanya bisa diperlakukan dengan berbagai cara dalam satu sesi dengan mengubah konteksnya.
  Kalau ada tulisan dari Phind tentang pengalaman nyata seperti ini, saya ingin menjadikannya referensi.
- Saya rasa keterbatasan seperti ini bisa diatasi dengan menggabungkan chat dengan widget pra-buat atau on-demand.
  Dalam demo keynote, lewat antarmuka chat dimungkinkan filtering lanjutan seperti hanya menampilkan rumah Zillow yang dekat taman anjing, sambil menggabungkan informasi dari berbagai sumber.
- Dengan MCP, masalah ini bisa diatasi.
  Skema server MCP bisa diperbarui secara dinamis tanpa menyentuh aplikasinya.
  Aplikasi akan otomatis mengenali skema baru.
Pengumuman OpenAI kali ini sebenarnya kesempatan untuk membuat sesuatu yang benar-benar baru, tetapi sayangnya terasa hanya sampai pada menyisipkan layar aplikasi lama secara statis ke dalam chat.
Kekuatan sesungguhnya adalah ketika pengguna menjelaskan tugasnya, AI memahami alat apa yang dibutuhkan lalu merangkainya sendiri, dan menampilkan hasilnya dalam bentuk workflow atau canvas yang bisa diedit pengguna.
Framework seperti LlamaIndex Workflow atau LangGraph sudah membantu mewujudkan graph seperti ini (workflow-DAG) secara manual di Python, jadi kalau LLM bisa membuat DAG seperti itu secara real-time, hasilnya akan sangat kuat.
LLM sendiri sudah pandai menghasilkan kode UI dan mengikuti design system, jadi tidak ada alasan kuat untuk meng-hardcode layar.
Saya berharap Google tidak mengikuti jalur ini.
Baru-baru ini ada tulisan tentang seberapa dalam antarmuka chat sebenarnya sudah tertanam di dalam organisasi OpenAI, dan pengumuman kali ini membuat obsesi itu terasa makin kuat.
Pertanyaan yang sebenarnya adalah, "apakah sebagian besar pengguna benar-benar suka berinteraksi hanya lewat percakapan ketimbang elemen visual?"
Khususnya fakta bahwa pengguna harus menghafal nama berbagai aplikasi (seperti Zillow) lalu mengetiknya di chat, dan juga kemungkinan strategi monetisasi seperti iklan atau 'prioritas penayangan (app discovery)', terasa sangat tidak menyenangkan.
Secara pribadi saya berharap masa depan seperti itu tidak datang.
- Rasanya seperti kembali mendebat apakah GUI atau terminal (atau CLI) lebih kuat.
  Untuk banyak tugas yang cocok dengan aliran token, command line atau chat mungkin memang lebih unggul.
  Mungkin juga akan muncul fitur seperti tab autocomplete untuk memanggil bot atau MCP dengan cepat...
  Sebaliknya, untuk menjelajahi hal baru atau interaksi grafis, antarmuka visual dan khusus jauh lebih intuitif.
  Pada akhirnya, saya rasa yang akan mapan adalah perpaduan dan abstraksi yang tepat dari berbagai UI sesuai tugasnya.
- Saya pikir fokus yang terlalu besar pada antarmuka chat justru benar-benar menghambat pemanfaatan LLM.
  Menjelaskan kepada orang nonteknis bagaimana ilusi kesinambungan percakapan itu terbentuk saja sudah sulit (manajemen konteks, struktur prompt lama yang bisa keluar dari memori, dan lain-lain).
  Saran umum saya kepada teman nonteknis adalah, 'mulai percakapan baru untuk setiap prompt'.
  Dengan begitu lebih jelas memahami apa yang berhasil.
  Saya sempat berharap inovasi UX akan dipimpin Apple, tetapi tampaknya belum terjadi.
- Sebagai sanggahan, banyak orang yang saya kenal kalau mau membuka Zillow memang cuma mengetik “zillow” di Google, jadi mengetik nama aplikasi di chat mungkin tidak sepenuhnya tidak masuk akal.
Meski reaksinya banyak yang negatif, secara pribadi arah OpenAI ini terasa sangat jelas.
Pada akhirnya, ketika pengguna mengatakan apa yang diinginkan, OAI akan menjadi platform yang otomatis menghubungkannya dengan aplikasi-aplikasi (email, kalender, pembayaran, dan lain-lain) lalu menanganinya.
Dengan cara ini, OAI cukup melakukan bagi hasil tanpa perlu iklan.
- Kalau ada yang benar-benar percaya aplikasi email dan kalender akan menghasilkan pendapatan luar biasa, investor pasti akan sangat terkejut.
- Pernyataan bahwa tidak akan ada iklan itu keliru.
  Iklan akan diselipkan dengan sangat halus, dalam bentuk seperti tips yang berguna, dan tersembunyi besar-besaran.
- Jelas OpenAI akan mengejar keduanya sekaligus (bagi hasil dan iklan).
  Mereka sudah membentuk tim iklan, punya modal yang cukup, dan akan mencoba semua model bisnis yang bisa diskalakan.
  Model-model yang sukses dalam sejarah seperti app store dan feed algoritmik akan mereka uji semua.
- Untuk menjadi platform, lock-in pengguna atau keunggulan yang tidak adil itu wajib ada.
  Sekadar kualitas model yang lebih baik saja tidak cukup.
Sampai sekarang saya belum merasa pendekatan seperti ini benar-benar memperbaiki sesuatu.
Seseorang tadi menyebut integrasi Spotify, padahal asisten generasi lama juga sudah bisa melakukan itu.
Terlihat seperti hanya mengerjakan hal yang sama persis dengan biaya jauh lebih mahal.
Pada akhirnya semua orang tampaknya ditakdirkan menuangkan aplikasi gratis ke dalam ekosistem alat OpenAI.
Arus seperti ini memperkuat pertahanan OpenAI dan mengorbankan peluang lain.
- Pada masa awal iPhone, hanya ada 6 aplikasi dan bahkan belum ada App Store.
  Per 2024, iOS App Store menghasilkan pendapatan sebesar 1,3 triliun dolar, dan 85% di antaranya menjadi bagian para developer.
- Saya penasaran apa sebenarnya 'moat' OpenAI itu.
- Justru arus seperti ini masuk akal.
  Tidak ada alasan mengapa data real-time dan action MCP yang memberi bantuan nyata kepada pengguna akan berhenti dibutuhkan.
  Memang mungkin perlu autentikasi saat menghubungkan aplikasi, tetapi kalau tidak ada pembayaran, itu adalah saluran distribusi yang luar biasa besar.
Pengumuman kali ini menarik sebagai eksperimen branding.
Kalau MCP disebut sebagai "app", kesannya jadi akrab dan mudah dipakai, tetapi kalau disebut tool/server/alat, terdengar terlalu teknis.
Dengan tambahan demo bersama Expedia dan Spotify, kesannya seperti MCP yang siap langsung dipakai pengguna akhirnya sudah jadi.
- Pada akhirnya, yang dirilis kali ini adalah server MCP yang bisa digunakan ChatGPT.

OpenAI Apps SDK

Bacaan terkait

1 komentar

Opini Hacker News