OpenAI mengungkap Jalapeño, chip inferensi kustom pertamanya yang dibuat bersama Broadcom

(techcrunch.com)

3 poin oleh GN⁺ 3 jam lalu | 1 komentar | Bagikan ke WhatsApp

Jalapeño adalah akselerator yang dioptimalkan untuk inferensi LLM sekaligus hasil pertama dari platform komputasi multigenerasi yang dibangun bersama Broadcom
Dari mulai desain hingga tape-out manufaktur hanya memakan waktu 9 bulan, diperkirakan menjadi siklus pengembangan ASIC tercepat dalam sejarah semikonduktor canggih berperforma tinggi
Dalam pengujian awal, biaya turun sekitar 50% dibanding GPU AI umum, dan performa per watt juga jauh lebih unggul daripada teknologi mutakhir saat ini
Sebagai bagian dari strategi full-stack yang mencakup desain langsung dari arsitektur chip hingga kernel, memori, dan jaringan, langkah ini menargetkan pengurangan ketergantungan pada GPU Nvidia dan ekspansi dari perusahaan perangkat lunak menjadi penyedia infrastruktur AI
Mulai ditempatkan di pusat data skala gigawatt bersama mitra seperti Microsoft pada akhir 2026, sehingga maknanya makin menonjol di tengah tekanan untuk membuktikan profitabilitas menjelang IPO bernilai 1 triliun dolar

Pengungkapan chip Jalapeño

Pada hari Rabu, OpenAI dan Broadcom (NASDAQ: AVGO) mengungkap Intelligence Processor pertama OpenAI, Jalapeño
Ini adalah akselerator yang dirancang untuk masa depan inferensi LLM, sekaligus akselerator AI pertama dari platform komputasi multigenerasi yang dibangun kedua perusahaan bersama
Chairman sekaligus CEO Broadcom Hock Tan dan presiden Charlie Kawwas secara langsung menyerahkan sampel chip kepada CEO OpenAI Sam Altman dan presiden Greg Brockman
Ini merupakan tahap penting dalam strategi OpenAI untuk melompat dari produk konsumen menjadi penyedia infrastruktur AI

Struktur chip dan performa

Jalapeño bukan chip serbaguna hasil modifikasi dari akselerator untuk beban kerja AI yang sudah ada, melainkan desain blank-slate untuk inferensi LLM modern
Sebagai ASIC yang dapat dirancang sesuai tugas AI tertentu, fleksibilitasnya lebih rendah daripada GPU Nvidia tetapi biayanya lebih murah
Performa dan efisiensi
- Dalam pengujian awal, biaya turun sekitar 50% dibanding GPU AI umum (wawancara Hock Tan)
- Performa akhir masih diukur, tetapi performa per watt berada pada tingkat yang jauh meningkat dibanding teknologi mutakhir saat ini
- Dengan mengurangi perpindahan data dan menyeimbangkan sumber daya komputasi, memori, dan jaringan, pemanfaatan nyata dibuat mendekati performa maksimum teoretis
- Pada gambar chip yang dipublikasikan, terlihat 8 situs HBM dan compute die di bagian tengah
Verifikasi operasi
- Sampel engineering sedang menjalankan beban kerja ML pada frekuensi dan daya target produksi massal, termasuk GPT‑5.3‑Codex‑Spark
- Laporan teknis terperinci dijadwalkan dirilis dalam beberapa bulan ke depan
- Implementasi silikon Broadcom dan silikon jaringan Tomahawk mendukung produksi massal berskala besar

Tape-out 9 bulan, dipercepat oleh model OpenAI

Dari desain awal hingga tape-out manufaktur, pengembangan bersama selesai hanya dalam 9 bulan, diperkirakan sebagai siklus pengembangan ASIC tercepat dalam sejarah semikonduktor canggih berperforma tinggi
Sebagian proses desain dan optimasi memanfaatkan model internal OpenAI, dan Brockman menyebut tingkat percepatan dari model tersebut sebagai sesuatu yang "mengejutkan"
Model yang sama yang disediakan kepada pengguna nantinya juga akan berkontribusi pada peningkatan infrastruktur untuk menjalankan model berikutnya
Jika AI membantu insinyur merancang chip lebih cepat, hal itu berpotensi menurunkan biaya komputasi di seluruh industri dan memperluas akses ke AI canggih

Platform multigenerasi dan para mitra

Jalapeño adalah tahap pertama dari platform komputasi multigenerasi yang akan diperluas selama beberapa tahun, dengan target penempatan awal pada akhir 2026
Struktur kolaborasi
- OpenAI — desain akselerator, berdasarkan pemahaman mendalam atas fondasi LLM
- Broadcom — implementasi chip, teknologi jaringan dan konektivitas
- Celestica — keahlian board, rack, dan integrasi sistem
Tahun lalu OpenAI dan Broadcom mengumumkan rencana pengembangan chip kustom untuk komputasi skala 10 gigawatt, dan kali ini chip pertamanya diperkenalkan
Permintaan yang meledak
- CEO Broadcom Hock Tan menyebut chip ini memungkinkan penempatan di pusat data skala gigawatt bersama mitra seperti Microsoft mulai 2026, dengan rencana ekspansi setelah prototipe kecil pada akhir 2026
- Brockman mengatakan, "kita tidak bisa mendapatkan komputasi yang cukup cepat," sementara Tan menyebut permintaan dari enam pelanggan berada pada tingkat yang "benar-benar tidak bisa dipenuhi" dan akan tetap sama atau lebih tinggi pada 2027~2028
- Kepala program perangkat keras OpenAI Richard Ho menjelaskan bahwa arsitektur dioptimalkan dengan fokus pada kernel, perpindahan memori, jaringan, dan pola serving yang paling penting bagi model AI frontier

Strategi full-stack dan lanskap persaingan

OpenAI melampaui pengembangan model frontier dan pembangunan produk, lalu merancang langsung infrastruktur di bawahnya — termasuk arsitektur chip, kernel, sistem memori, jaringan, penjadwalan, sistem deployment, dan pengalaman produk
Dengan ini, OpenAI bergabung dengan jajaran bisnis AI full-stack yang memiliki silikon sendiri seperti Google (TPU), Amazon (Trainium), dan Microsoft (Azure Maia 100)
Mengurangi ketergantungan pada Nvidia
- "Tidak ada yang ingin bergantung pada Nvidia" (Ben Barringer, kepala riset teknologi Quilter Cheviot), mencerminkan arus diversifikasi pemasok chip
- OpenAI adalah salah satu pelanggan terbesar Nvidia, tetapi juga telah menandatangani kontrak pasokan dengan AMD (seri Instinct MI450), Cerebras, dan lainnya
Makna bisnis
- Di tengah naiknya Nvidia menjadi perusahaan dengan valuasi tertinggi di dunia berkat pasokan komponen inti untuk pusat data AI, potensi keuntungan pasar infrastruktur AI makin disorot
- Bagi OpenAI, yang disebut-sebut menuju IPO dengan valuasi 1 triliun dolar, penurunan biaya inferensi adalah kunci untuk menutup biaya pelatihan yang sangat besar dan membuktikan profitabilitas
- Harga saham Broadcom naik sepanjang 2026, sekitar 7 kali dibanding akhir 2022, mencerminkan manfaat dari kemitraan ini

Demokratisasi AI canggih

Inferensi adalah titik pertemuan AI dengan manusia, sehingga peningkatan biaya, kecepatan, dan stabilitas langsung berarti respons ChatGPT yang lebih cepat, pekerjaan Codex tanpa antrean, produk API yang lebih murah, dan akses yang lebih stabil saat permintaan melonjak
Inti dari demokratisasi AI adalah membuat model canggih cukup tersedia, stabil, dan murah sehingga lebih banyak orang dapat memakainya setiap hari
Ini membantu mengubah infrastruktur menjadi kecerdasan yang berguna bagi pelajar, pengembang, pemilik usaha kecil, peneliti, perusahaan, dan semua orang yang ingin belajar, membangun, serta memecahkan masalah sulit

1 komentar

GN⁺ 3 jam lalu

Pendapat Hacker News

Saya ingin melihat lebih detail bagian “mempercepat desain dan optimasi dengan model OpenAI”
Dari ungkapannya sekarang, ini terlihat seperti kalimat pemasaran yang seolah mengatakan pengembangan jadi lebih cepat berkat Microsoft Office atau monitor 5K LG Ultrafine 40 inci
Jika ini benar-benar sebesar yang diisyaratkan, rasanya OpenAI akan menekankannya jauh lebih besar
- Dari sudut pandang CEO perusahaan chip, semuanya sangat berbeda tergantung apa yang dimaksud dengan “desain” dan “produksi”
  Tidak jelas apakah “desain” berarti desain selesai, dan apakah “produksi” berarti dimulainya produksi, yakni tape-out
  Jika dari pembekuan RTL sampai tape-out hanya 9 bulan, untuk chip 3nm besar dan kompleks itu cukup biasa, dan jika memperhitungkan isu tak terduga, jadwal itu bahkan tidak terlalu mengesankan
  Sebaliknya, jika dari tahap konsep — yakni belum ada RTL dan baru ada block diagram arsitektur — sampai tape-out, itu jadwal yang mengejutkan, dan kemungkinan kenyataannya ada di tengah-tengah
  Kalau pengumumannya lebih spesifik, seharusnya memakai milestone dan gate teknis yang nyata
- Bahasa deskripsi perangkat keras (HDL) yang dipakai dalam pengembangan chip mirip dengan bahasa pemrograman, dan model yang sudah ada pun dapat memahaminya sehingga bisa melakukan cukup banyak hal
  Tidak wajib ada model khusus terpisah untuk memakai large language model dalam alur kerja desain chip
  Verifikasi desain juga banyak melibatkan pemrograman tradisional, jadi bisa mendapat bantuan dari large language model
  Ini bukan omong kosong sepenuhnya, dan kalau hari ini Anda mengunduh perangkat lunak desain chip open source, large language model bahkan bisa membantu memulai chip kecil secara langsung
- Broadcom sudah memiliki banyak IP untuk AI SoC
  Bagian sulit dari chip inferensi ini kemungkinan sudah dirancang Broadcom, dan OpenAI mungkin hanya menyampaikan spesifikasi yang diinginkan ke Broadcom
  Kemungkinan juga cukup mirip dengan Google TPU
  Ada klaim bahwa “akselerator generasi pertama akan sangat meningkatkan performa per watt dibanding state of the art saat ini”, dan saya penasaran apa arti “sangat” di sini
  Vera Rubin dijadwalkan dikirim massal pada akhir tahun ini, dan diperkirakan memiliki efisiensi daya inferensi 10 kali lebih tinggi daripada Blackwell[0]
  Bahkan jika sudah tape-out, untuk perbaikan bug, manufaktur chip, alokasi HBM, desain rak, interkoneksi, hingga penempatan di data center tetap butuh setidaknya 12 bulan, kemungkinan malah lebih
  Saat chip ini masuk ke data center dalam jumlah besar, bisa jadi ia justru bersaing dengan Vera Rubin Ultra atau Feynman
  Secara pribadi saya rasa OpenAI seharusnya tidak berinvestasi pada proyek ini
  Ini masih terlalu dini; seharusnya mereka fokus dulu pada model seperti Anthropic, menang, lalu saat profitabilitas muncul baru mengerjakan proyek seperti ini
  Dalam AI ada batas keras berupa energi, jadi risikonya besar bagi OpenAI
  Jika Anda punya 1GW, Anda harus memasang chip terbaik yang ada, dan jika chip Nvidia lebih baik, maka proyek ini berarti membuang miliaran dolar
  [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
- Secara garis besar ada dua makna yang mungkin, plus candaan di antaranya
  1. OpenAI benar-benar memiliki teknologi AI yang bisa meningkatkan desain chip — klaim yang berani dan kecil kemungkinannya, jadi butuh bukti
  2. OpenAI merancang model dan kernel untuk pengujian serta verifikasi yang akan menguji performa di perangkat keras simulasi
    Masalahnya, kalimat itu bisa saja hanya bermakna yang kedua tetapi ditulis agar terdengar seperti yang pertama, dan karena itu sulit dipercaya
- Verilog sudah banyak tersedia secara publik, jadi sangat mungkin mereka memang merancang chip dengan bantuan AI untuk menulis lebih banyak Verilog
  Ini tidak harus revolusioner; bisa saja desain berbantuan AI cukup cocok sehingga membuat ASIC khusus menjadi layak
Meski tidak disebut dalam tulisan OpenAI, tampaknya hampir pasti chip ini dibuat oleh TSMC [1]
Saya tidak yakin apakah Intel yang menanganinya
1. https://www.investing.com/news/stock-market-news/openai-unve...
- Klaim yang saya lihat di Twitter menyebut perusahaan seperti Google, Amazon, dan OpenAI memakai Broadcom bukan hanya karena kemampuan desainnya, tetapi juga karena Broadcom memiliki kontrak alokasi dengan TSMC dan produsen memori
- Baru belakangan ini kepingan puzzle-nya terasa pas
  Broadcom menghasilkan banyak uang dengan menjadi mitra perangkat keras TPU Google dan berbagi kapasitas produksi TSMC dengan Google, dan sekarang tampaknya melakukan hal yang sama untuk OpenAI
  Cara yang benar-benar cerdas untuk memanfaatkan demam emas AI
  Hanya saja, semoga uang yang diperoleh seperti itu tidak dipakai untuk memeras industri perangkat lunak seperti yang terjadi pada VMWare dan Bitnami
Ingin melihat chip inferensi dengan bobot dimasukkan ke sebagian ROM chip
Akan ada satu pengali untuk tiap bobot, dan karena nilainya konstan, keseluruhannya bisa berubah menjadi sekumpulan penjumlah sederhana, sehingga throughput pipeline penuh bisa mencapai satu token per clock
Dengan begitu, satu keping silikon bisa melayani jutaan pengguna sekaligus, dan bus output mungkin bisa mengeluarkan 500 juta token per detik
Kekurangannya, chip akan menjadi sangat besar sampai-sampai bisa memakan satu wafer penuh
Cacat di tingkat wafer mungkin bukan masalah besar. Jaringan saraf cenderung tetap tahan meski sebagian bobot hilang atau salah
Karena laju industri sangat cepat, kemungkinan alurnya adalah bergerak sangat cepat dari bobot model ke produksi, membuat 50 wafer, memakainya selama setahun, lalu membuangnya saat modelnya usang
- Tepatnya, ini lebih dekat ke compute-in-memory (CIM) daripada sekadar menaruh bobot di ROM
  Ini adalah teknik di mana data, dalam hal ini nilai perkalian, menjadi bagian dari prosesor, dalam hal ini sebagian dari rangkaian pengali
  Ini sepenuhnya menghindari masalah "ambil lalu proses" dari sisi arsitektur
  Karena data berada di tempat komputasi berlangsung, data tidak perlu dipindahkan dan tidak ada latensi
- Dulu https://taalas.com/ pernah muncul, dan sepertinya ada lebih banyak pihak yang memikirkan ide serupa
  Pendekatan seperti ini tampak lebih cocok untuk model kecil daripada model frontier. Model terdepan berubah terlalu cepat
- Penasaran apakah sudah melihat Cerebras
  Mereka belum melangkah sejauh yang dijelaskan, tetapi memiliki sangat banyak core dan RAM; bobot tetap harus dimuat lewat perangkat lunak, dan untuk model besar masih harus di-stream ke dalam chip
  Meski begitu, ini tetap chip seukuran wafer penuh
- Sudah lama memikirkan ide menaruh bobot di ROM
  Untuk banyak pekerjaan, menaruh bobot di ROM mungkin tidak masalah
  Hanya saja, belum yakin apakah menaruh satu pengali untuk tiap bobot adalah ide yang bagus
  Jika dikuantisasi sampai sekitar 2 bit mungkin bisa, tetapi kalau tidak, mungkin lebih baik menaruh ROM kecil di dekat tiap pengali atau baris agar bisa menangani N operasi matriks berbeda tanpa memindahkan data dari jauh
  Gagasan menarik lain adalah menambahkan baris unit MAC ke DRAM agar baris DRAM bisa dipakai sebagai vektor
  Jika ukuran baris 64Kbit, itu berarti 8K bobot pada bobot 8 bit, dan bobot serta komputasi bisa tetap berada pada chip yang sama
  Hanya saja, belum tahu apakah mungkin menaruh cukup banyak pengali dalam satu chip
  Systolic array bisa berjumlah puluhan ribu hingga ratusan ribu, masing-masing menjalankan satu operasi per clock
- Orang-orang bilang memristor ideal untuk penggunaan ini dan juga bisa diprogram ulang, tetapi memristor tampak seperti carbon nanotube-nya dunia komputasi
Menarik karena tampaknya masih ada sangat banyak peningkatan efisiensi yang bisa dicapai di level chip
Penasaran bagaimana pendapat tentang Taalas
Katanya mereka benar-benar memanggang model LLM ke dalam silikon, lalu menyediakan sebagian memori onboard untuk fine-tuning
Mereka mengklaim keuntungan besar pada biaya dan latensi
Demo yang sangat cepat bisa dilihat di https://chatjimmy.ai/
https://taalas.com/
https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...
- Jika hanya memakai GPU serbaguna secara eksklusif, tentu banyak efisiensi yang terlewat
  Itulah sebabnya Google mulai membuat TPU lebih dari 10 tahun lalu
  Saya ingat kontroversi ketika Google memecat Gebru karena makalah Timnit Gebru yang menghitung dampak lingkungan LLM dengan menjadikan GPU sebagai acuan dan mengabaikan efisiensi TPU
  Tampaknya Jeff Dean sangat marah karena kesenjangan efisiensi yang besar itu
- Akan keren jika melihat lebih banyak yang seperti ini, tetapi kemampuan untuk memperbarui ke model yang benar-benar baru setiap kali model baru muncul tampaknya akan terbatas
  Kalau begitu, ini akan menjadi sangat sulit dijual
- Secara teknis menarik, tetapi detailnya tampak terlalu kurang
  Saya tidak suka gagasan menaruh satu model tunggal yang tidak akan pernah berubah di dalam chip
  Saya penasaran seberapa mahal silikonnya jika memakai ROM yang bisa ditulis ulang untuk bobot
  Dengan begitu, fine-tuning terhadap model target rancangan akan dimungkinkan, dan kekhawatiran bahwa model akan menjadi usang bisa dikurangi
- 17k token/detik pada chatbot memang keren, tetapi itu demo yang hampir tidak berguna
  Untuk agen coding, itu peningkatan yang bermakna, dan dalam robotika itu bisa menjadi revolusi total
  Model 8B tidak berguna untuk tujuan umum, tetapi untuk penggunaan tertentu bisa memberikan kecerdasan yang luar biasa
  Pesaing Tesla/Waymo milik Nvidia adalah LLM 7B dan model difusi 2B; jika itu bisa dijalankan pada kecepatan seperti itu, biayanya mungkin bisa turun satu digit dibanding solusi yang ada
- Saat perkembangan model sangat melambat, hardware seperti ini tampaknya akan menjadi masa depan penyedia LLM
  Bisa dibilang kita sudah mendekati titik itu sekarang
  Hyperscaler seperti AWS akan bisa memanfaatkan chip seperti ini dengan baik untuk melayani model yang tetap relevan selama beberapa tahun
  Tetapi saat ini, kualitas model masih melonjak besar setiap beberapa bulan, terutama pada model open-weight seperti Deepseek/Kimi/GLM
  Sampai saat itu, sulit melihat bagaimana pendekatan ini bisa lebih hemat biaya dibanding hardware serbaguna
  Selain itu, tampaknya versi kecil dari hal semacam ini akan masuk ke hardware mobile, menyediakan LLM on-device yang sangat cepat dan efisien
Ini langkah yang cukup besar
Google dengan TPU tampaknya sudah sampai sekitar generasi ke-7, dan jika memikirkan upaya turunan seperti LPU atau Wafer Scale Engine milik Cerebras, mereka terlihat jauh lebih visioner
Namun kesan pertamanya, chip ini tampaknya menargetkan inferensi, bukan pelatihan, dan itu juga pilihan yang menarik
- Pelatihan hampir merupakan biaya sekali jalan, dan efisiensinya sudah menurun berkat perbaikan arsitektur
  Sebaliknya, inferensi adalah biaya yang terus terjadi dan seiring waktu akan menghabiskan jauh lebih banyak sumber daya, jadi dalam jangka panjang lebih menguntungkan untuk fokus membuatnya jauh lebih efisien
- Sekarang biaya inferensi tampaknya sudah lebih tinggi daripada biaya pelatihan
  Nvidia adalah raja chip pelatihan serbaguna, tetapi inferensi bisa dispesialisasikan
- Cerebras Codex Spark 5.3 adalah kegagalan besar
  Jendela konteksnya kecil dan modelnya juga sudah tua
  Meski begitu, akan bagus jika ini membaik sehingga kita bisa menikmati GPT 5.5 pada 1000 token per detik
- Mereka mengatakan bahwa “dalam pengujian awal, Jalapeño akan secara signifikan meningkatkan performa per watt dibandingkan state-of-the-art saat ini”, dan di sini mulai terlihat apa yang benar-benar penting
  Ungkapannya memang samar, tetapi TPU juga membuat klaim serupa
  Memo Google “kami tidak punya moat” tampaknya masih benar. Jika belum tahu, lihat https://newsletter.semianalysis.com/p/google-we-have-no-moat...
  Arus saat ini tampaknya makin mirip dengan persaingan hardware yang dijalankan IBM, DEC, Cray, dan Sun pada era 60–90-an
  Sejarah tidak berulang, tetapi sering berima, dan upaya-upaya ini tampaknya akan mengikuti lintasan yang sama
Melihat kecepatan perkembangan AI dan bagaimana AI membantu menciptakan AI yang lebih cepat dan lebih baik, saya terus bertanya-tanya apakah hardware seperti ini akan menjadi usang sebelum investasi yang berarti bisa kembali
Dengan kuantisasi dan offloading saja, model AI raksasa sudah bisa dijalankan dengan sumber daya yang lebih sedikit, tetapi itu baru permulaan
Suatu hari, mungkin tidak terlalu lama lagi, bisa saja muncul terobosan yang memungkinkan LLM raksasa kelas 200B berjalan dengan baik di desktop Dell berusia 5 tahun
Ini terdengar gila, tetapi lihat saja ukuran hard disk pada masa awal
IBM 350 adalah disk dengan 50 platter berdiameter 24 inci yang menyimpan 3.5Mb, dan disewakan seharga 35.000 dolar dalam nilai uang saat ini
https://www.computerhistory.org/storageengine/first-commerci...
Bandingkan itu dengan SSD multi-terabyte, lalu terapkan perbaikan yang sama pada arsitektur dan cara menjalankan LLM saat ini
Dengan bantuan AI juga, lompatan bisa terjadi dalam waktu dekat, dan data center yang penuh kartu Nvidia termutakhir saat ini bisa menjadi usang nyaris dalam semalam
- Jika terobosan seperti itu ada, bukankah dengan cara yang sama kita juga bisa menjalankan model 200T di data center masa kini?
- Ini pemikiran yang menarik, tetapi perbandingan dengan hard disk mungkin tidak adil
  IBM 350 dikomersialkan 70 tahun lalu, dan butuh 70 tahun sampai hari ini orang bisa membandingkannya dengan SSD multi-TB
  Lagi pula, tidak ada jaminan bahwa Hukum Moore pasti akan berlaku juga pada LLM selama beberapa dekade ke depan
- Karena paradoks Jevons dan scaling law, sepertinya itu tidak akan terjadi
  Jika model yang lebih besar selalu lebih baik, dan sejauh ini memang tampak demikian, maka kita akan selalu membutuhkan hardware berperforma tinggi
- Terobosan komputasi biasanya justru meningkatkan penggunaan komputasi, bukan menguranginya
- Pada akhirnya sepertinya akan muncul hardware khusus untuk LLM selain GPU
  TPU memang ada, tetapi terutama untuk data center, dan GPU sendiri awalnya berasal dari aplikasi grafis lalu diadaptasi
  Jika permintaan data center mengering, inovasi mungkin akan benar-benar melaju
Ada bagian yang belum banyak dibahas di sini
CEO Broadcom Hock Tan mengatakan dalam wawancara bahwa akselerator ini sejauh ini menunjukkan penghematan biaya sekitar 50% dibandingkan unit pemrosesan grafis AI pada umumnya [0]
Situasinya berubah terlalu cepat dan masih banyak buah rendah yang mudah dipetik, sehingga perdebatan tentang pemasok mana yang punya moat atau apakah mereka bisa mengembalikan investasinya tampaknya tidak terlalu bermakna
[0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...
- Jika margin GPU 75%, maka 50% lebih murah bukan hal yang mengejutkan
- Kata “umumnya” berperan besar di sini
  Itu bisa saja berarti chip yang jauh lebih tua daripada chip yang sedang dijual Nvidia sekarang
Jika targetnya “deploy awal pada akhir 2026 lalu diperluas selama beberapa tahun berikutnya”, ini terasa seperti akan dipasang besar-besaran di materi penjualan IPO sebagai janji masa depan setelah IPO
Pengumuman apa pun sebelum IPO saya lihat dengan skeptis
- Narasinya terasa seperti akal-akalan menjelang IPO, dan bentuknya mirip tutup keranjang cucian
  Kalau ternyata penipuan pun saya tidak akan terlalu terkejut
- Saya tidak tahu IPO siapa yang dimaksud
  Broadcom dan Google tentu saja sudah perusahaan publik
Microsoft, Google, dan Amazon juga melakukan hal seperti ini, tetapi mereka juga punya infrastruktur data center hyperscale untuk meng-host chip tersebut
Mendesain chip dan tape-out adalah hal yang sama sekali berbeda dari packaging, pendinginan, deployment, suplai daya, dan manajemen armada
Saya penasaran dari mana bagian itu akan datang
- Jangan lupakan Stargate
  Pembaruan: seseorang di Twitter mengatakan bahwa ini akan di-host 50:50 oleh Microsoft dan Oracle
Dulu saya pernah meminta Opus 4.5 mendesain mesin inferensi LLM berbasis Verilog, termasuk firmware dan verifikasi otomatis: https://github.com/cpldcpu/smollm.c
Tentu saja ini jauh dari optimal, tetapi ini menegaskan bahwa pendekatan menurunkan tingkat abstraksi sampai ke implementasi sangat kuat
- Saya penasaran apakah ada yang bisa merekomendasikan tutorial yang layak untuk mempelajari Verilog dan FPGA secara umum
  Saya masih punya satu Tang Nano 9k, tetapi saya tidak cukup percaya diri untuk membiarkan Claude membuat solusi hanya dengan vibe coding, dan saya ingin setidaknya punya pemahaman dasar minimal

OpenAI mengungkap Jalapeño, chip inferensi kustom pertamanya yang dibuat bersama Broadcom

Pengungkapan chip Jalapeño

Struktur chip dan performa

Performa dan efisiensi

Verifikasi operasi

Tape-out 9 bulan, dipercepat oleh model OpenAI

Platform multigenerasi dan para mitra

Struktur kolaborasi

Permintaan yang meledak

Strategi full-stack dan lanskap persaingan

Mengurangi ketergantungan pada Nvidia

Makna bisnis

Demokratisasi AI canggih

Bacaan terkait

1 komentar

Pendapat Hacker News