OpenAI mengungkap Jalapeño, chip inferensi kustom pertamanya yang dibuat bersama Broadcom
(techcrunch.com)- Jalapeño adalah akselerator yang dioptimalkan untuk inferensi LLM sekaligus hasil pertama dari platform komputasi multigenerasi yang dibangun bersama Broadcom
- Dari mulai desain hingga tape-out manufaktur hanya memakan waktu 9 bulan, diperkirakan menjadi siklus pengembangan ASIC tercepat dalam sejarah semikonduktor canggih berperforma tinggi
- Dalam pengujian awal, biaya turun sekitar 50% dibanding GPU AI umum, dan performa per watt juga jauh lebih unggul daripada teknologi mutakhir saat ini
- Sebagai bagian dari strategi full-stack yang mencakup desain langsung dari arsitektur chip hingga kernel, memori, dan jaringan, langkah ini menargetkan pengurangan ketergantungan pada GPU Nvidia dan ekspansi dari perusahaan perangkat lunak menjadi penyedia infrastruktur AI
- Mulai ditempatkan di pusat data skala gigawatt bersama mitra seperti Microsoft pada akhir 2026, sehingga maknanya makin menonjol di tengah tekanan untuk membuktikan profitabilitas menjelang IPO bernilai 1 triliun dolar
Pengungkapan chip Jalapeño
- Pada hari Rabu, OpenAI dan Broadcom (NASDAQ: AVGO) mengungkap Intelligence Processor pertama OpenAI, Jalapeño
- Ini adalah akselerator yang dirancang untuk masa depan inferensi LLM, sekaligus akselerator AI pertama dari platform komputasi multigenerasi yang dibangun kedua perusahaan bersama
- Chairman sekaligus CEO Broadcom Hock Tan dan presiden Charlie Kawwas secara langsung menyerahkan sampel chip kepada CEO OpenAI Sam Altman dan presiden Greg Brockman
- Ini merupakan tahap penting dalam strategi OpenAI untuk melompat dari produk konsumen menjadi penyedia infrastruktur AI
Struktur chip dan performa
- Jalapeño bukan chip serbaguna hasil modifikasi dari akselerator untuk beban kerja AI yang sudah ada, melainkan desain blank-slate untuk inferensi LLM modern
- Sebagai ASIC yang dapat dirancang sesuai tugas AI tertentu, fleksibilitasnya lebih rendah daripada GPU Nvidia tetapi biayanya lebih murah
-
Performa dan efisiensi
- Dalam pengujian awal, biaya turun sekitar 50% dibanding GPU AI umum (wawancara Hock Tan)
- Performa akhir masih diukur, tetapi performa per watt berada pada tingkat yang jauh meningkat dibanding teknologi mutakhir saat ini
- Dengan mengurangi perpindahan data dan menyeimbangkan sumber daya komputasi, memori, dan jaringan, pemanfaatan nyata dibuat mendekati performa maksimum teoretis
- Pada gambar chip yang dipublikasikan, terlihat 8 situs HBM dan compute die di bagian tengah
-
Verifikasi operasi
- Sampel engineering sedang menjalankan beban kerja ML pada frekuensi dan daya target produksi massal, termasuk GPT‑5.3‑Codex‑Spark
- Laporan teknis terperinci dijadwalkan dirilis dalam beberapa bulan ke depan
- Implementasi silikon Broadcom dan silikon jaringan Tomahawk mendukung produksi massal berskala besar
Tape-out 9 bulan, dipercepat oleh model OpenAI
- Dari desain awal hingga tape-out manufaktur, pengembangan bersama selesai hanya dalam 9 bulan, diperkirakan sebagai siklus pengembangan ASIC tercepat dalam sejarah semikonduktor canggih berperforma tinggi
- Sebagian proses desain dan optimasi memanfaatkan model internal OpenAI, dan Brockman menyebut tingkat percepatan dari model tersebut sebagai sesuatu yang "mengejutkan"
- Model yang sama yang disediakan kepada pengguna nantinya juga akan berkontribusi pada peningkatan infrastruktur untuk menjalankan model berikutnya
- Jika AI membantu insinyur merancang chip lebih cepat, hal itu berpotensi menurunkan biaya komputasi di seluruh industri dan memperluas akses ke AI canggih
Platform multigenerasi dan para mitra
- Jalapeño adalah tahap pertama dari platform komputasi multigenerasi yang akan diperluas selama beberapa tahun, dengan target penempatan awal pada akhir 2026
-
Struktur kolaborasi
- OpenAI — desain akselerator, berdasarkan pemahaman mendalam atas fondasi LLM
- Broadcom — implementasi chip, teknologi jaringan dan konektivitas
- Celestica — keahlian board, rack, dan integrasi sistem
- Tahun lalu OpenAI dan Broadcom mengumumkan rencana pengembangan chip kustom untuk komputasi skala 10 gigawatt, dan kali ini chip pertamanya diperkenalkan
-
Permintaan yang meledak
- CEO Broadcom Hock Tan menyebut chip ini memungkinkan penempatan di pusat data skala gigawatt bersama mitra seperti Microsoft mulai 2026, dengan rencana ekspansi setelah prototipe kecil pada akhir 2026
- Brockman mengatakan, "kita tidak bisa mendapatkan komputasi yang cukup cepat," sementara Tan menyebut permintaan dari enam pelanggan berada pada tingkat yang "benar-benar tidak bisa dipenuhi" dan akan tetap sama atau lebih tinggi pada 2027~2028
- Kepala program perangkat keras OpenAI Richard Ho menjelaskan bahwa arsitektur dioptimalkan dengan fokus pada kernel, perpindahan memori, jaringan, dan pola serving yang paling penting bagi model AI frontier
Strategi full-stack dan lanskap persaingan
- OpenAI melampaui pengembangan model frontier dan pembangunan produk, lalu merancang langsung infrastruktur di bawahnya — termasuk arsitektur chip, kernel, sistem memori, jaringan, penjadwalan, sistem deployment, dan pengalaman produk
- Dengan ini, OpenAI bergabung dengan jajaran bisnis AI full-stack yang memiliki silikon sendiri seperti Google (TPU), Amazon (Trainium), dan Microsoft (Azure Maia 100)
-
Mengurangi ketergantungan pada Nvidia
- "Tidak ada yang ingin bergantung pada Nvidia" (Ben Barringer, kepala riset teknologi Quilter Cheviot), mencerminkan arus diversifikasi pemasok chip
- OpenAI adalah salah satu pelanggan terbesar Nvidia, tetapi juga telah menandatangani kontrak pasokan dengan AMD (seri Instinct MI450), Cerebras, dan lainnya
-
Makna bisnis
- Di tengah naiknya Nvidia menjadi perusahaan dengan valuasi tertinggi di dunia berkat pasokan komponen inti untuk pusat data AI, potensi keuntungan pasar infrastruktur AI makin disorot
- Bagi OpenAI, yang disebut-sebut menuju IPO dengan valuasi 1 triliun dolar, penurunan biaya inferensi adalah kunci untuk menutup biaya pelatihan yang sangat besar dan membuktikan profitabilitas
- Harga saham Broadcom naik sepanjang 2026, sekitar 7 kali dibanding akhir 2022, mencerminkan manfaat dari kemitraan ini
Demokratisasi AI canggih
- Inferensi adalah titik pertemuan AI dengan manusia, sehingga peningkatan biaya, kecepatan, dan stabilitas langsung berarti respons ChatGPT yang lebih cepat, pekerjaan Codex tanpa antrean, produk API yang lebih murah, dan akses yang lebih stabil saat permintaan melonjak
- Inti dari demokratisasi AI adalah membuat model canggih cukup tersedia, stabil, dan murah sehingga lebih banyak orang dapat memakainya setiap hari
- Ini membantu mengubah infrastruktur menjadi kecerdasan yang berguna bagi pelajar, pengembang, pemilik usaha kecil, peneliti, perusahaan, dan semua orang yang ingin belajar, membangun, serta memecahkan masalah sulit
1 komentar
Pendapat Hacker News
Saya ingin melihat lebih detail bagian “mempercepat desain dan optimasi dengan model OpenAI”
Dari ungkapannya sekarang, ini terlihat seperti kalimat pemasaran yang seolah mengatakan pengembangan jadi lebih cepat berkat Microsoft Office atau monitor 5K LG Ultrafine 40 inci
Jika ini benar-benar sebesar yang diisyaratkan, rasanya OpenAI akan menekankannya jauh lebih besar
Tidak jelas apakah “desain” berarti desain selesai, dan apakah “produksi” berarti dimulainya produksi, yakni tape-out
Jika dari pembekuan RTL sampai tape-out hanya 9 bulan, untuk chip 3nm besar dan kompleks itu cukup biasa, dan jika memperhitungkan isu tak terduga, jadwal itu bahkan tidak terlalu mengesankan
Sebaliknya, jika dari tahap konsep — yakni belum ada RTL dan baru ada block diagram arsitektur — sampai tape-out, itu jadwal yang mengejutkan, dan kemungkinan kenyataannya ada di tengah-tengah
Kalau pengumumannya lebih spesifik, seharusnya memakai milestone dan gate teknis yang nyata
Tidak wajib ada model khusus terpisah untuk memakai large language model dalam alur kerja desain chip
Verifikasi desain juga banyak melibatkan pemrograman tradisional, jadi bisa mendapat bantuan dari large language model
Ini bukan omong kosong sepenuhnya, dan kalau hari ini Anda mengunduh perangkat lunak desain chip open source, large language model bahkan bisa membantu memulai chip kecil secara langsung
Bagian sulit dari chip inferensi ini kemungkinan sudah dirancang Broadcom, dan OpenAI mungkin hanya menyampaikan spesifikasi yang diinginkan ke Broadcom
Kemungkinan juga cukup mirip dengan Google TPU
Ada klaim bahwa “akselerator generasi pertama akan sangat meningkatkan performa per watt dibanding state of the art saat ini”, dan saya penasaran apa arti “sangat” di sini
Vera Rubin dijadwalkan dikirim massal pada akhir tahun ini, dan diperkirakan memiliki efisiensi daya inferensi 10 kali lebih tinggi daripada Blackwell[0]
Bahkan jika sudah tape-out, untuk perbaikan bug, manufaktur chip, alokasi HBM, desain rak, interkoneksi, hingga penempatan di data center tetap butuh setidaknya 12 bulan, kemungkinan malah lebih
Saat chip ini masuk ke data center dalam jumlah besar, bisa jadi ia justru bersaing dengan Vera Rubin Ultra atau Feynman
Secara pribadi saya rasa OpenAI seharusnya tidak berinvestasi pada proyek ini
Ini masih terlalu dini; seharusnya mereka fokus dulu pada model seperti Anthropic, menang, lalu saat profitabilitas muncul baru mengerjakan proyek seperti ini
Dalam AI ada batas keras berupa energi, jadi risikonya besar bagi OpenAI
Jika Anda punya 1GW, Anda harus memasang chip terbaik yang ada, dan jika chip Nvidia lebih baik, maka proyek ini berarti membuang miliaran dolar
[0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
Masalahnya, kalimat itu bisa saja hanya bermakna yang kedua tetapi ditulis agar terdengar seperti yang pertama, dan karena itu sulit dipercaya
Ini tidak harus revolusioner; bisa saja desain berbantuan AI cukup cocok sehingga membuat ASIC khusus menjadi layak
Meski tidak disebut dalam tulisan OpenAI, tampaknya hampir pasti chip ini dibuat oleh TSMC [1]
Saya tidak yakin apakah Intel yang menanganinya
Broadcom menghasilkan banyak uang dengan menjadi mitra perangkat keras TPU Google dan berbagi kapasitas produksi TSMC dengan Google, dan sekarang tampaknya melakukan hal yang sama untuk OpenAI
Cara yang benar-benar cerdas untuk memanfaatkan demam emas AI
Hanya saja, semoga uang yang diperoleh seperti itu tidak dipakai untuk memeras industri perangkat lunak seperti yang terjadi pada VMWare dan Bitnami
Ingin melihat chip inferensi dengan bobot dimasukkan ke sebagian ROM chip
Akan ada satu pengali untuk tiap bobot, dan karena nilainya konstan, keseluruhannya bisa berubah menjadi sekumpulan penjumlah sederhana, sehingga throughput pipeline penuh bisa mencapai satu token per clock
Dengan begitu, satu keping silikon bisa melayani jutaan pengguna sekaligus, dan bus output mungkin bisa mengeluarkan 500 juta token per detik
Kekurangannya, chip akan menjadi sangat besar sampai-sampai bisa memakan satu wafer penuh
Cacat di tingkat wafer mungkin bukan masalah besar. Jaringan saraf cenderung tetap tahan meski sebagian bobot hilang atau salah
Karena laju industri sangat cepat, kemungkinan alurnya adalah bergerak sangat cepat dari bobot model ke produksi, membuat 50 wafer, memakainya selama setahun, lalu membuangnya saat modelnya usang
Ini adalah teknik di mana data, dalam hal ini nilai perkalian, menjadi bagian dari prosesor, dalam hal ini sebagian dari rangkaian pengali
Ini sepenuhnya menghindari masalah "ambil lalu proses" dari sisi arsitektur
Karena data berada di tempat komputasi berlangsung, data tidak perlu dipindahkan dan tidak ada latensi
Pendekatan seperti ini tampak lebih cocok untuk model kecil daripada model frontier. Model terdepan berubah terlalu cepat
Mereka belum melangkah sejauh yang dijelaskan, tetapi memiliki sangat banyak core dan RAM; bobot tetap harus dimuat lewat perangkat lunak, dan untuk model besar masih harus di-stream ke dalam chip
Meski begitu, ini tetap chip seukuran wafer penuh
Untuk banyak pekerjaan, menaruh bobot di ROM mungkin tidak masalah
Hanya saja, belum yakin apakah menaruh satu pengali untuk tiap bobot adalah ide yang bagus
Jika dikuantisasi sampai sekitar 2 bit mungkin bisa, tetapi kalau tidak, mungkin lebih baik menaruh ROM kecil di dekat tiap pengali atau baris agar bisa menangani N operasi matriks berbeda tanpa memindahkan data dari jauh
Gagasan menarik lain adalah menambahkan baris unit MAC ke DRAM agar baris DRAM bisa dipakai sebagai vektor
Jika ukuran baris 64Kbit, itu berarti 8K bobot pada bobot 8 bit, dan bobot serta komputasi bisa tetap berada pada chip yang sama
Hanya saja, belum tahu apakah mungkin menaruh cukup banyak pengali dalam satu chip
Systolic array bisa berjumlah puluhan ribu hingga ratusan ribu, masing-masing menjalankan satu operasi per clock
Menarik karena tampaknya masih ada sangat banyak peningkatan efisiensi yang bisa dicapai di level chip
Penasaran bagaimana pendapat tentang Taalas
Katanya mereka benar-benar memanggang model LLM ke dalam silikon, lalu menyediakan sebagian memori onboard untuk fine-tuning
Mereka mengklaim keuntungan besar pada biaya dan latensi
Demo yang sangat cepat bisa dilihat di https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
Itulah sebabnya Google mulai membuat TPU lebih dari 10 tahun lalu
Saya ingat kontroversi ketika Google memecat Gebru karena makalah Timnit Gebru yang menghitung dampak lingkungan LLM dengan menjadikan GPU sebagai acuan dan mengabaikan efisiensi TPU
Tampaknya Jeff Dean sangat marah karena kesenjangan efisiensi yang besar itu
Kalau begitu, ini akan menjadi sangat sulit dijual
Saya tidak suka gagasan menaruh satu model tunggal yang tidak akan pernah berubah di dalam chip
Saya penasaran seberapa mahal silikonnya jika memakai ROM yang bisa ditulis ulang untuk bobot
Dengan begitu, fine-tuning terhadap model target rancangan akan dimungkinkan, dan kekhawatiran bahwa model akan menjadi usang bisa dikurangi
Untuk agen coding, itu peningkatan yang bermakna, dan dalam robotika itu bisa menjadi revolusi total
Model 8B tidak berguna untuk tujuan umum, tetapi untuk penggunaan tertentu bisa memberikan kecerdasan yang luar biasa
Pesaing Tesla/Waymo milik Nvidia adalah LLM 7B dan model difusi 2B; jika itu bisa dijalankan pada kecepatan seperti itu, biayanya mungkin bisa turun satu digit dibanding solusi yang ada
Bisa dibilang kita sudah mendekati titik itu sekarang
Hyperscaler seperti AWS akan bisa memanfaatkan chip seperti ini dengan baik untuk melayani model yang tetap relevan selama beberapa tahun
Tetapi saat ini, kualitas model masih melonjak besar setiap beberapa bulan, terutama pada model open-weight seperti Deepseek/Kimi/GLM
Sampai saat itu, sulit melihat bagaimana pendekatan ini bisa lebih hemat biaya dibanding hardware serbaguna
Selain itu, tampaknya versi kecil dari hal semacam ini akan masuk ke hardware mobile, menyediakan LLM on-device yang sangat cepat dan efisien
Ini langkah yang cukup besar
Google dengan TPU tampaknya sudah sampai sekitar generasi ke-7, dan jika memikirkan upaya turunan seperti LPU atau Wafer Scale Engine milik Cerebras, mereka terlihat jauh lebih visioner
Namun kesan pertamanya, chip ini tampaknya menargetkan inferensi, bukan pelatihan, dan itu juga pilihan yang menarik
Sebaliknya, inferensi adalah biaya yang terus terjadi dan seiring waktu akan menghabiskan jauh lebih banyak sumber daya, jadi dalam jangka panjang lebih menguntungkan untuk fokus membuatnya jauh lebih efisien
Nvidia adalah raja chip pelatihan serbaguna, tetapi inferensi bisa dispesialisasikan
Jendela konteksnya kecil dan modelnya juga sudah tua
Meski begitu, akan bagus jika ini membaik sehingga kita bisa menikmati GPT 5.5 pada 1000 token per detik
Ungkapannya memang samar, tetapi TPU juga membuat klaim serupa
Memo Google “kami tidak punya moat” tampaknya masih benar. Jika belum tahu, lihat https://newsletter.semianalysis.com/p/google-we-have-no-moat...
Arus saat ini tampaknya makin mirip dengan persaingan hardware yang dijalankan IBM, DEC, Cray, dan Sun pada era 60–90-an
Sejarah tidak berulang, tetapi sering berima, dan upaya-upaya ini tampaknya akan mengikuti lintasan yang sama
Melihat kecepatan perkembangan AI dan bagaimana AI membantu menciptakan AI yang lebih cepat dan lebih baik, saya terus bertanya-tanya apakah hardware seperti ini akan menjadi usang sebelum investasi yang berarti bisa kembali
Dengan kuantisasi dan offloading saja, model AI raksasa sudah bisa dijalankan dengan sumber daya yang lebih sedikit, tetapi itu baru permulaan
Suatu hari, mungkin tidak terlalu lama lagi, bisa saja muncul terobosan yang memungkinkan LLM raksasa kelas 200B berjalan dengan baik di desktop Dell berusia 5 tahun
Ini terdengar gila, tetapi lihat saja ukuran hard disk pada masa awal
IBM 350 adalah disk dengan 50 platter berdiameter 24 inci yang menyimpan 3.5Mb, dan disewakan seharga 35.000 dolar dalam nilai uang saat ini
https://www.computerhistory.org/storageengine/first-commerci...
Bandingkan itu dengan SSD multi-terabyte, lalu terapkan perbaikan yang sama pada arsitektur dan cara menjalankan LLM saat ini
Dengan bantuan AI juga, lompatan bisa terjadi dalam waktu dekat, dan data center yang penuh kartu Nvidia termutakhir saat ini bisa menjadi usang nyaris dalam semalam
IBM 350 dikomersialkan 70 tahun lalu, dan butuh 70 tahun sampai hari ini orang bisa membandingkannya dengan SSD multi-TB
Lagi pula, tidak ada jaminan bahwa Hukum Moore pasti akan berlaku juga pada LLM selama beberapa dekade ke depan
Jika model yang lebih besar selalu lebih baik, dan sejauh ini memang tampak demikian, maka kita akan selalu membutuhkan hardware berperforma tinggi
TPU memang ada, tetapi terutama untuk data center, dan GPU sendiri awalnya berasal dari aplikasi grafis lalu diadaptasi
Jika permintaan data center mengering, inovasi mungkin akan benar-benar melaju
Ada bagian yang belum banyak dibahas di sini
CEO Broadcom Hock Tan mengatakan dalam wawancara bahwa akselerator ini sejauh ini menunjukkan penghematan biaya sekitar 50% dibandingkan unit pemrosesan grafis AI pada umumnya [0]
Situasinya berubah terlalu cepat dan masih banyak buah rendah yang mudah dipetik, sehingga perdebatan tentang pemasok mana yang punya moat atau apakah mereka bisa mengembalikan investasinya tampaknya tidak terlalu bermakna
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
Itu bisa saja berarti chip yang jauh lebih tua daripada chip yang sedang dijual Nvidia sekarang
Jika targetnya “deploy awal pada akhir 2026 lalu diperluas selama beberapa tahun berikutnya”, ini terasa seperti akan dipasang besar-besaran di materi penjualan IPO sebagai janji masa depan setelah IPO
Pengumuman apa pun sebelum IPO saya lihat dengan skeptis
Kalau ternyata penipuan pun saya tidak akan terlalu terkejut
Broadcom dan Google tentu saja sudah perusahaan publik
Microsoft, Google, dan Amazon juga melakukan hal seperti ini, tetapi mereka juga punya infrastruktur data center hyperscale untuk meng-host chip tersebut
Mendesain chip dan tape-out adalah hal yang sama sekali berbeda dari packaging, pendinginan, deployment, suplai daya, dan manajemen armada
Saya penasaran dari mana bagian itu akan datang
Pembaruan: seseorang di Twitter mengatakan bahwa ini akan di-host 50:50 oleh Microsoft dan Oracle
Dulu saya pernah meminta Opus 4.5 mendesain mesin inferensi LLM berbasis Verilog, termasuk firmware dan verifikasi otomatis: https://github.com/cpldcpu/smollm.c
Tentu saja ini jauh dari optimal, tetapi ini menegaskan bahwa pendekatan menurunkan tingkat abstraksi sampai ke implementasi sangat kuat
Saya masih punya satu Tang Nano 9k, tetapi saya tidak cukup percaya diri untuk membiarkan Claude membuat solusi hanya dengan vibe coding, dan saya ingin setidaknya punya pemahaman dasar minimal