3 poin oleh GN⁺ 3 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Jalapeño adalah akselerator yang dioptimalkan untuk inferensi LLM sekaligus hasil pertama dari platform komputasi multigenerasi yang dibangun bersama Broadcom
  • Dari mulai desain hingga tape-out manufaktur hanya memakan waktu 9 bulan, diperkirakan menjadi siklus pengembangan ASIC tercepat dalam sejarah semikonduktor canggih berperforma tinggi
  • Dalam pengujian awal, biaya turun sekitar 50% dibanding GPU AI umum, dan performa per watt juga jauh lebih unggul daripada teknologi mutakhir saat ini
  • Sebagai bagian dari strategi full-stack yang mencakup desain langsung dari arsitektur chip hingga kernel, memori, dan jaringan, langkah ini menargetkan pengurangan ketergantungan pada GPU Nvidia dan ekspansi dari perusahaan perangkat lunak menjadi penyedia infrastruktur AI
  • Mulai ditempatkan di pusat data skala gigawatt bersama mitra seperti Microsoft pada akhir 2026, sehingga maknanya makin menonjol di tengah tekanan untuk membuktikan profitabilitas menjelang IPO bernilai 1 triliun dolar

Pengungkapan chip Jalapeño

  • Pada hari Rabu, OpenAI dan Broadcom (NASDAQ: AVGO) mengungkap Intelligence Processor pertama OpenAI, Jalapeño
  • Ini adalah akselerator yang dirancang untuk masa depan inferensi LLM, sekaligus akselerator AI pertama dari platform komputasi multigenerasi yang dibangun kedua perusahaan bersama
  • Chairman sekaligus CEO Broadcom Hock Tan dan presiden Charlie Kawwas secara langsung menyerahkan sampel chip kepada CEO OpenAI Sam Altman dan presiden Greg Brockman
  • Ini merupakan tahap penting dalam strategi OpenAI untuk melompat dari produk konsumen menjadi penyedia infrastruktur AI

Struktur chip dan performa

  • Jalapeño bukan chip serbaguna hasil modifikasi dari akselerator untuk beban kerja AI yang sudah ada, melainkan desain blank-slate untuk inferensi LLM modern
  • Sebagai ASIC yang dapat dirancang sesuai tugas AI tertentu, fleksibilitasnya lebih rendah daripada GPU Nvidia tetapi biayanya lebih murah
  • Performa dan efisiensi

    • Dalam pengujian awal, biaya turun sekitar 50% dibanding GPU AI umum (wawancara Hock Tan)
    • Performa akhir masih diukur, tetapi performa per watt berada pada tingkat yang jauh meningkat dibanding teknologi mutakhir saat ini
    • Dengan mengurangi perpindahan data dan menyeimbangkan sumber daya komputasi, memori, dan jaringan, pemanfaatan nyata dibuat mendekati performa maksimum teoretis
    • Pada gambar chip yang dipublikasikan, terlihat 8 situs HBM dan compute die di bagian tengah
  • Verifikasi operasi

    • Sampel engineering sedang menjalankan beban kerja ML pada frekuensi dan daya target produksi massal, termasuk GPT‑5.3‑Codex‑Spark
    • Laporan teknis terperinci dijadwalkan dirilis dalam beberapa bulan ke depan
    • Implementasi silikon Broadcom dan silikon jaringan Tomahawk mendukung produksi massal berskala besar

Tape-out 9 bulan, dipercepat oleh model OpenAI

  • Dari desain awal hingga tape-out manufaktur, pengembangan bersama selesai hanya dalam 9 bulan, diperkirakan sebagai siklus pengembangan ASIC tercepat dalam sejarah semikonduktor canggih berperforma tinggi
  • Sebagian proses desain dan optimasi memanfaatkan model internal OpenAI, dan Brockman menyebut tingkat percepatan dari model tersebut sebagai sesuatu yang "mengejutkan"
  • Model yang sama yang disediakan kepada pengguna nantinya juga akan berkontribusi pada peningkatan infrastruktur untuk menjalankan model berikutnya
  • Jika AI membantu insinyur merancang chip lebih cepat, hal itu berpotensi menurunkan biaya komputasi di seluruh industri dan memperluas akses ke AI canggih

Platform multigenerasi dan para mitra

  • Jalapeño adalah tahap pertama dari platform komputasi multigenerasi yang akan diperluas selama beberapa tahun, dengan target penempatan awal pada akhir 2026
  • Struktur kolaborasi

    • OpenAI — desain akselerator, berdasarkan pemahaman mendalam atas fondasi LLM
    • Broadcom — implementasi chip, teknologi jaringan dan konektivitas
    • Celestica — keahlian board, rack, dan integrasi sistem
  • Tahun lalu OpenAI dan Broadcom mengumumkan rencana pengembangan chip kustom untuk komputasi skala 10 gigawatt, dan kali ini chip pertamanya diperkenalkan
  • Permintaan yang meledak

    • CEO Broadcom Hock Tan menyebut chip ini memungkinkan penempatan di pusat data skala gigawatt bersama mitra seperti Microsoft mulai 2026, dengan rencana ekspansi setelah prototipe kecil pada akhir 2026
    • Brockman mengatakan, "kita tidak bisa mendapatkan komputasi yang cukup cepat," sementara Tan menyebut permintaan dari enam pelanggan berada pada tingkat yang "benar-benar tidak bisa dipenuhi" dan akan tetap sama atau lebih tinggi pada 2027~2028
    • Kepala program perangkat keras OpenAI Richard Ho menjelaskan bahwa arsitektur dioptimalkan dengan fokus pada kernel, perpindahan memori, jaringan, dan pola serving yang paling penting bagi model AI frontier

Strategi full-stack dan lanskap persaingan

  • OpenAI melampaui pengembangan model frontier dan pembangunan produk, lalu merancang langsung infrastruktur di bawahnya — termasuk arsitektur chip, kernel, sistem memori, jaringan, penjadwalan, sistem deployment, dan pengalaman produk
  • Dengan ini, OpenAI bergabung dengan jajaran bisnis AI full-stack yang memiliki silikon sendiri seperti Google (TPU), Amazon (Trainium), dan Microsoft (Azure Maia 100)
  • Mengurangi ketergantungan pada Nvidia

    • "Tidak ada yang ingin bergantung pada Nvidia" (Ben Barringer, kepala riset teknologi Quilter Cheviot), mencerminkan arus diversifikasi pemasok chip
    • OpenAI adalah salah satu pelanggan terbesar Nvidia, tetapi juga telah menandatangani kontrak pasokan dengan AMD (seri Instinct MI450), Cerebras, dan lainnya
  • Makna bisnis

    • Di tengah naiknya Nvidia menjadi perusahaan dengan valuasi tertinggi di dunia berkat pasokan komponen inti untuk pusat data AI, potensi keuntungan pasar infrastruktur AI makin disorot
    • Bagi OpenAI, yang disebut-sebut menuju IPO dengan valuasi 1 triliun dolar, penurunan biaya inferensi adalah kunci untuk menutup biaya pelatihan yang sangat besar dan membuktikan profitabilitas
    • Harga saham Broadcom naik sepanjang 2026, sekitar 7 kali dibanding akhir 2022, mencerminkan manfaat dari kemitraan ini

Demokratisasi AI canggih

  • Inferensi adalah titik pertemuan AI dengan manusia, sehingga peningkatan biaya, kecepatan, dan stabilitas langsung berarti respons ChatGPT yang lebih cepat, pekerjaan Codex tanpa antrean, produk API yang lebih murah, dan akses yang lebih stabil saat permintaan melonjak
  • Inti dari demokratisasi AI adalah membuat model canggih cukup tersedia, stabil, dan murah sehingga lebih banyak orang dapat memakainya setiap hari
  • Ini membantu mengubah infrastruktur menjadi kecerdasan yang berguna bagi pelajar, pengembang, pemilik usaha kecil, peneliti, perusahaan, dan semua orang yang ingin belajar, membangun, serta memecahkan masalah sulit

1 komentar

 
GN⁺ 3 jam lalu
Pendapat Hacker News
  • Saya ingin melihat lebih detail bagian “mempercepat desain dan optimasi dengan model OpenAI”
    Dari ungkapannya sekarang, ini terlihat seperti kalimat pemasaran yang seolah mengatakan pengembangan jadi lebih cepat berkat Microsoft Office atau monitor 5K LG Ultrafine 40 inci
    Jika ini benar-benar sebesar yang diisyaratkan, rasanya OpenAI akan menekankannya jauh lebih besar

    • Dari sudut pandang CEO perusahaan chip, semuanya sangat berbeda tergantung apa yang dimaksud dengan “desain” dan “produksi”
      Tidak jelas apakah “desain” berarti desain selesai, dan apakah “produksi” berarti dimulainya produksi, yakni tape-out
      Jika dari pembekuan RTL sampai tape-out hanya 9 bulan, untuk chip 3nm besar dan kompleks itu cukup biasa, dan jika memperhitungkan isu tak terduga, jadwal itu bahkan tidak terlalu mengesankan
      Sebaliknya, jika dari tahap konsep — yakni belum ada RTL dan baru ada block diagram arsitektur — sampai tape-out, itu jadwal yang mengejutkan, dan kemungkinan kenyataannya ada di tengah-tengah
      Kalau pengumumannya lebih spesifik, seharusnya memakai milestone dan gate teknis yang nyata
    • Bahasa deskripsi perangkat keras (HDL) yang dipakai dalam pengembangan chip mirip dengan bahasa pemrograman, dan model yang sudah ada pun dapat memahaminya sehingga bisa melakukan cukup banyak hal
      Tidak wajib ada model khusus terpisah untuk memakai large language model dalam alur kerja desain chip
      Verifikasi desain juga banyak melibatkan pemrograman tradisional, jadi bisa mendapat bantuan dari large language model
      Ini bukan omong kosong sepenuhnya, dan kalau hari ini Anda mengunduh perangkat lunak desain chip open source, large language model bahkan bisa membantu memulai chip kecil secara langsung
    • Broadcom sudah memiliki banyak IP untuk AI SoC
      Bagian sulit dari chip inferensi ini kemungkinan sudah dirancang Broadcom, dan OpenAI mungkin hanya menyampaikan spesifikasi yang diinginkan ke Broadcom
      Kemungkinan juga cukup mirip dengan Google TPU
      Ada klaim bahwa “akselerator generasi pertama akan sangat meningkatkan performa per watt dibanding state of the art saat ini”, dan saya penasaran apa arti “sangat” di sini
      Vera Rubin dijadwalkan dikirim massal pada akhir tahun ini, dan diperkirakan memiliki efisiensi daya inferensi 10 kali lebih tinggi daripada Blackwell[0]
      Bahkan jika sudah tape-out, untuk perbaikan bug, manufaktur chip, alokasi HBM, desain rak, interkoneksi, hingga penempatan di data center tetap butuh setidaknya 12 bulan, kemungkinan malah lebih
      Saat chip ini masuk ke data center dalam jumlah besar, bisa jadi ia justru bersaing dengan Vera Rubin Ultra atau Feynman
      Secara pribadi saya rasa OpenAI seharusnya tidak berinvestasi pada proyek ini
      Ini masih terlalu dini; seharusnya mereka fokus dulu pada model seperti Anthropic, menang, lalu saat profitabilitas muncul baru mengerjakan proyek seperti ini
      Dalam AI ada batas keras berupa energi, jadi risikonya besar bagi OpenAI
      Jika Anda punya 1GW, Anda harus memasang chip terbaik yang ada, dan jika chip Nvidia lebih baik, maka proyek ini berarti membuang miliaran dolar
      [0]https://developer.nvidia.com/blog/scaling-token-factory-reve...
    • Secara garis besar ada dua makna yang mungkin, plus candaan di antaranya
      1. OpenAI benar-benar memiliki teknologi AI yang bisa meningkatkan desain chip — klaim yang berani dan kecil kemungkinannya, jadi butuh bukti
      2. OpenAI merancang model dan kernel untuk pengujian serta verifikasi yang akan menguji performa di perangkat keras simulasi
        Masalahnya, kalimat itu bisa saja hanya bermakna yang kedua tetapi ditulis agar terdengar seperti yang pertama, dan karena itu sulit dipercaya
    • Verilog sudah banyak tersedia secara publik, jadi sangat mungkin mereka memang merancang chip dengan bantuan AI untuk menulis lebih banyak Verilog
      Ini tidak harus revolusioner; bisa saja desain berbantuan AI cukup cocok sehingga membuat ASIC khusus menjadi layak
  • Meski tidak disebut dalam tulisan OpenAI, tampaknya hampir pasti chip ini dibuat oleh TSMC [1]
    Saya tidak yakin apakah Intel yang menanganinya

    1. https://www.investing.com/news/stock-market-news/openai-unve...
    • Klaim yang saya lihat di Twitter menyebut perusahaan seperti Google, Amazon, dan OpenAI memakai Broadcom bukan hanya karena kemampuan desainnya, tetapi juga karena Broadcom memiliki kontrak alokasi dengan TSMC dan produsen memori
    • Baru belakangan ini kepingan puzzle-nya terasa pas
      Broadcom menghasilkan banyak uang dengan menjadi mitra perangkat keras TPU Google dan berbagi kapasitas produksi TSMC dengan Google, dan sekarang tampaknya melakukan hal yang sama untuk OpenAI
      Cara yang benar-benar cerdas untuk memanfaatkan demam emas AI
      Hanya saja, semoga uang yang diperoleh seperti itu tidak dipakai untuk memeras industri perangkat lunak seperti yang terjadi pada VMWare dan Bitnami
  • Ingin melihat chip inferensi dengan bobot dimasukkan ke sebagian ROM chip
    Akan ada satu pengali untuk tiap bobot, dan karena nilainya konstan, keseluruhannya bisa berubah menjadi sekumpulan penjumlah sederhana, sehingga throughput pipeline penuh bisa mencapai satu token per clock
    Dengan begitu, satu keping silikon bisa melayani jutaan pengguna sekaligus, dan bus output mungkin bisa mengeluarkan 500 juta token per detik
    Kekurangannya, chip akan menjadi sangat besar sampai-sampai bisa memakan satu wafer penuh
    Cacat di tingkat wafer mungkin bukan masalah besar. Jaringan saraf cenderung tetap tahan meski sebagian bobot hilang atau salah
    Karena laju industri sangat cepat, kemungkinan alurnya adalah bergerak sangat cepat dari bobot model ke produksi, membuat 50 wafer, memakainya selama setahun, lalu membuangnya saat modelnya usang

    • Tepatnya, ini lebih dekat ke compute-in-memory (CIM) daripada sekadar menaruh bobot di ROM
      Ini adalah teknik di mana data, dalam hal ini nilai perkalian, menjadi bagian dari prosesor, dalam hal ini sebagian dari rangkaian pengali
      Ini sepenuhnya menghindari masalah "ambil lalu proses" dari sisi arsitektur
      Karena data berada di tempat komputasi berlangsung, data tidak perlu dipindahkan dan tidak ada latensi
    • Dulu https://taalas.com/ pernah muncul, dan sepertinya ada lebih banyak pihak yang memikirkan ide serupa
      Pendekatan seperti ini tampak lebih cocok untuk model kecil daripada model frontier. Model terdepan berubah terlalu cepat
    • Penasaran apakah sudah melihat Cerebras
      Mereka belum melangkah sejauh yang dijelaskan, tetapi memiliki sangat banyak core dan RAM; bobot tetap harus dimuat lewat perangkat lunak, dan untuk model besar masih harus di-stream ke dalam chip
      Meski begitu, ini tetap chip seukuran wafer penuh
    • Sudah lama memikirkan ide menaruh bobot di ROM
      Untuk banyak pekerjaan, menaruh bobot di ROM mungkin tidak masalah
      Hanya saja, belum yakin apakah menaruh satu pengali untuk tiap bobot adalah ide yang bagus
      Jika dikuantisasi sampai sekitar 2 bit mungkin bisa, tetapi kalau tidak, mungkin lebih baik menaruh ROM kecil di dekat tiap pengali atau baris agar bisa menangani N operasi matriks berbeda tanpa memindahkan data dari jauh
      Gagasan menarik lain adalah menambahkan baris unit MAC ke DRAM agar baris DRAM bisa dipakai sebagai vektor
      Jika ukuran baris 64Kbit, itu berarti 8K bobot pada bobot 8 bit, dan bobot serta komputasi bisa tetap berada pada chip yang sama
      Hanya saja, belum tahu apakah mungkin menaruh cukup banyak pengali dalam satu chip
      Systolic array bisa berjumlah puluhan ribu hingga ratusan ribu, masing-masing menjalankan satu operasi per clock
    • Orang-orang bilang memristor ideal untuk penggunaan ini dan juga bisa diprogram ulang, tetapi memristor tampak seperti carbon nanotube-nya dunia komputasi
  • Menarik karena tampaknya masih ada sangat banyak peningkatan efisiensi yang bisa dicapai di level chip
    Penasaran bagaimana pendapat tentang Taalas
    Katanya mereka benar-benar memanggang model LLM ke dalam silikon, lalu menyediakan sebagian memori onboard untuk fine-tuning
    Mereka mengklaim keuntungan besar pada biaya dan latensi
    Demo yang sangat cepat bisa dilihat di https://chatjimmy.ai/
    https://taalas.com/
    https://www.reddit.com/r/singularity/comments/1r9frzk/taalas...

    • Jika hanya memakai GPU serbaguna secara eksklusif, tentu banyak efisiensi yang terlewat
      Itulah sebabnya Google mulai membuat TPU lebih dari 10 tahun lalu
      Saya ingat kontroversi ketika Google memecat Gebru karena makalah Timnit Gebru yang menghitung dampak lingkungan LLM dengan menjadikan GPU sebagai acuan dan mengabaikan efisiensi TPU
      Tampaknya Jeff Dean sangat marah karena kesenjangan efisiensi yang besar itu
    • Akan keren jika melihat lebih banyak yang seperti ini, tetapi kemampuan untuk memperbarui ke model yang benar-benar baru setiap kali model baru muncul tampaknya akan terbatas
      Kalau begitu, ini akan menjadi sangat sulit dijual
    • Secara teknis menarik, tetapi detailnya tampak terlalu kurang
      Saya tidak suka gagasan menaruh satu model tunggal yang tidak akan pernah berubah di dalam chip
      Saya penasaran seberapa mahal silikonnya jika memakai ROM yang bisa ditulis ulang untuk bobot
      Dengan begitu, fine-tuning terhadap model target rancangan akan dimungkinkan, dan kekhawatiran bahwa model akan menjadi usang bisa dikurangi
    • 17k token/detik pada chatbot memang keren, tetapi itu demo yang hampir tidak berguna
      Untuk agen coding, itu peningkatan yang bermakna, dan dalam robotika itu bisa menjadi revolusi total
      Model 8B tidak berguna untuk tujuan umum, tetapi untuk penggunaan tertentu bisa memberikan kecerdasan yang luar biasa
      Pesaing Tesla/Waymo milik Nvidia adalah LLM 7B dan model difusi 2B; jika itu bisa dijalankan pada kecepatan seperti itu, biayanya mungkin bisa turun satu digit dibanding solusi yang ada
    • Saat perkembangan model sangat melambat, hardware seperti ini tampaknya akan menjadi masa depan penyedia LLM
      Bisa dibilang kita sudah mendekati titik itu sekarang
      Hyperscaler seperti AWS akan bisa memanfaatkan chip seperti ini dengan baik untuk melayani model yang tetap relevan selama beberapa tahun
      Tetapi saat ini, kualitas model masih melonjak besar setiap beberapa bulan, terutama pada model open-weight seperti Deepseek/Kimi/GLM
      Sampai saat itu, sulit melihat bagaimana pendekatan ini bisa lebih hemat biaya dibanding hardware serbaguna
      Selain itu, tampaknya versi kecil dari hal semacam ini akan masuk ke hardware mobile, menyediakan LLM on-device yang sangat cepat dan efisien
  • Ini langkah yang cukup besar
    Google dengan TPU tampaknya sudah sampai sekitar generasi ke-7, dan jika memikirkan upaya turunan seperti LPU atau Wafer Scale Engine milik Cerebras, mereka terlihat jauh lebih visioner
    Namun kesan pertamanya, chip ini tampaknya menargetkan inferensi, bukan pelatihan, dan itu juga pilihan yang menarik

    • Pelatihan hampir merupakan biaya sekali jalan, dan efisiensinya sudah menurun berkat perbaikan arsitektur
      Sebaliknya, inferensi adalah biaya yang terus terjadi dan seiring waktu akan menghabiskan jauh lebih banyak sumber daya, jadi dalam jangka panjang lebih menguntungkan untuk fokus membuatnya jauh lebih efisien
    • Sekarang biaya inferensi tampaknya sudah lebih tinggi daripada biaya pelatihan
      Nvidia adalah raja chip pelatihan serbaguna, tetapi inferensi bisa dispesialisasikan
    • Cerebras Codex Spark 5.3 adalah kegagalan besar
      Jendela konteksnya kecil dan modelnya juga sudah tua
      Meski begitu, akan bagus jika ini membaik sehingga kita bisa menikmati GPT 5.5 pada 1000 token per detik
    • Mereka mengatakan bahwa “dalam pengujian awal, Jalapeño akan secara signifikan meningkatkan performa per watt dibandingkan state-of-the-art saat ini”, dan di sini mulai terlihat apa yang benar-benar penting
      Ungkapannya memang samar, tetapi TPU juga membuat klaim serupa
      Memo Google “kami tidak punya moat” tampaknya masih benar. Jika belum tahu, lihat https://newsletter.semianalysis.com/p/google-we-have-no-moat...
      Arus saat ini tampaknya makin mirip dengan persaingan hardware yang dijalankan IBM, DEC, Cray, dan Sun pada era 60–90-an
      Sejarah tidak berulang, tetapi sering berima, dan upaya-upaya ini tampaknya akan mengikuti lintasan yang sama
  • Melihat kecepatan perkembangan AI dan bagaimana AI membantu menciptakan AI yang lebih cepat dan lebih baik, saya terus bertanya-tanya apakah hardware seperti ini akan menjadi usang sebelum investasi yang berarti bisa kembali
    Dengan kuantisasi dan offloading saja, model AI raksasa sudah bisa dijalankan dengan sumber daya yang lebih sedikit, tetapi itu baru permulaan
    Suatu hari, mungkin tidak terlalu lama lagi, bisa saja muncul terobosan yang memungkinkan LLM raksasa kelas 200B berjalan dengan baik di desktop Dell berusia 5 tahun
    Ini terdengar gila, tetapi lihat saja ukuran hard disk pada masa awal
    IBM 350 adalah disk dengan 50 platter berdiameter 24 inci yang menyimpan 3.5Mb, dan disewakan seharga 35.000 dolar dalam nilai uang saat ini
    https://www.computerhistory.org/storageengine/first-commerci...
    Bandingkan itu dengan SSD multi-terabyte, lalu terapkan perbaikan yang sama pada arsitektur dan cara menjalankan LLM saat ini
    Dengan bantuan AI juga, lompatan bisa terjadi dalam waktu dekat, dan data center yang penuh kartu Nvidia termutakhir saat ini bisa menjadi usang nyaris dalam semalam

    • Jika terobosan seperti itu ada, bukankah dengan cara yang sama kita juga bisa menjalankan model 200T di data center masa kini?
    • Ini pemikiran yang menarik, tetapi perbandingan dengan hard disk mungkin tidak adil
      IBM 350 dikomersialkan 70 tahun lalu, dan butuh 70 tahun sampai hari ini orang bisa membandingkannya dengan SSD multi-TB
      Lagi pula, tidak ada jaminan bahwa Hukum Moore pasti akan berlaku juga pada LLM selama beberapa dekade ke depan
    • Karena paradoks Jevons dan scaling law, sepertinya itu tidak akan terjadi
      Jika model yang lebih besar selalu lebih baik, dan sejauh ini memang tampak demikian, maka kita akan selalu membutuhkan hardware berperforma tinggi
    • Terobosan komputasi biasanya justru meningkatkan penggunaan komputasi, bukan menguranginya
    • Pada akhirnya sepertinya akan muncul hardware khusus untuk LLM selain GPU
      TPU memang ada, tetapi terutama untuk data center, dan GPU sendiri awalnya berasal dari aplikasi grafis lalu diadaptasi
      Jika permintaan data center mengering, inovasi mungkin akan benar-benar melaju
  • Ada bagian yang belum banyak dibahas di sini
    CEO Broadcom Hock Tan mengatakan dalam wawancara bahwa akselerator ini sejauh ini menunjukkan penghematan biaya sekitar 50% dibandingkan unit pemrosesan grafis AI pada umumnya [0]
    Situasinya berubah terlalu cepat dan masih banyak buah rendah yang mudah dipetik, sehingga perdebatan tentang pemasok mana yang punya moat atau apakah mereka bisa mengembalikan investasinya tampaknya tidak terlalu bermakna
    [0] - https://www.bloomberg.com/news/articles/2026-06-24/openai-an...

    • Jika margin GPU 75%, maka 50% lebih murah bukan hal yang mengejutkan
    • Kata “umumnya” berperan besar di sini
      Itu bisa saja berarti chip yang jauh lebih tua daripada chip yang sedang dijual Nvidia sekarang
  • Jika targetnya “deploy awal pada akhir 2026 lalu diperluas selama beberapa tahun berikutnya”, ini terasa seperti akan dipasang besar-besaran di materi penjualan IPO sebagai janji masa depan setelah IPO
    Pengumuman apa pun sebelum IPO saya lihat dengan skeptis

    • Narasinya terasa seperti akal-akalan menjelang IPO, dan bentuknya mirip tutup keranjang cucian
      Kalau ternyata penipuan pun saya tidak akan terlalu terkejut
    • Saya tidak tahu IPO siapa yang dimaksud
      Broadcom dan Google tentu saja sudah perusahaan publik
  • Microsoft, Google, dan Amazon juga melakukan hal seperti ini, tetapi mereka juga punya infrastruktur data center hyperscale untuk meng-host chip tersebut
    Mendesain chip dan tape-out adalah hal yang sama sekali berbeda dari packaging, pendinginan, deployment, suplai daya, dan manajemen armada
    Saya penasaran dari mana bagian itu akan datang

    • Jangan lupakan Stargate
      Pembaruan: seseorang di Twitter mengatakan bahwa ini akan di-host 50:50 oleh Microsoft dan Oracle
  • Dulu saya pernah meminta Opus 4.5 mendesain mesin inferensi LLM berbasis Verilog, termasuk firmware dan verifikasi otomatis: https://github.com/cpldcpu/smollm.c
    Tentu saja ini jauh dari optimal, tetapi ini menegaskan bahwa pendekatan menurunkan tingkat abstraksi sampai ke implementasi sangat kuat

    • Saya penasaran apakah ada yang bisa merekomendasikan tutorial yang layak untuk mempelajari Verilog dan FPGA secara umum
      Saya masih punya satu Tang Nano 9k, tetapi saya tidak cukup percaya diri untuk membiarkan Claude membuat solusi hanya dengan vibe coding, dan saya ingin setidaknya punya pemahaman dasar minimal