7 poin oleh GN⁺ 2025-05-10 | 1 komentar | Bagikan ke WhatsApp
  • LegoGPT adalah proyek inovatif yang dapat menghasilkan struktur LEGO yang stabil dan benar-benar dapat dirakit hanya dari input teks
  • Dengan membangun dataset StableText2Lego, proyek ini menyediakan lebih dari 47.000 struktur LEGO yang stabil secara fisik beserta deskripsi yang rinci
  • Algoritmenya menerapkan validasi cepat dan rollback berbasis fisika untuk secara otomatis menghapus struktur yang tidak realistis
  • Desain LEGO yang dihasilkan dapat benar-benar dirakit baik oleh manusia maupun robot, serta mendukung beragam ekspresi warna dan tekstur
  • Sistem ini membuka kemungkinan baru di berbagai bidang seperti prototyping desain kreatif, pendidikan, dan aplikasi robotika

Pengenalan proyek

  • LegoGPT adalah pendekatan pertama yang, berdasarkan prompt teks dari pengguna, menghasilkan struktur LEGO yang benar-benar dapat dirakit dan stabil secara fisik dengan cara yang sepenuhnya otomatis
  • Proyek ini dibangun dengan dataset struktur LEGO berskala besar beserta deskripsi terperinci, dan menghasilkan keluaran yang memiliki stabilitas, keragaman, dan kualitas estetika bahkan dalam proses perakitan nyata
  • Hasil pembuatan struktur LEGO telah diverifikasi secara eksperimental bahwa memang dapat dirakit langsung dengan tangan oleh manusia, atau dirakit secara otomatis dengan lengan robot

Dataset StableText2Lego

  • Dataset StableText2Lego dibuat dengan memvoxelisasi bentuk dari mesh 3D ShapeNetCore, lalu menerapkan berbagai metode penempatan brick untuk hanya memilih struktur yang lolos verifikasi stabilitas fisik
  • Dalam proses pembuatan data, setiap struktur dirender dari 24 sudut pandang, dan berdasarkan itu GPT-4o secara otomatis menghasilkan deskripsi yang mendetail
  • Dataset yang dibangun dengan cara ini mencakup lebih dari 47.000 struktur LEGO dan lebih dari 28.000 objek 3D unik dengan beragam bentuk, struktur, dan tekstur

Pipeline LegoGPT

  • Struktur LEGO ditokenisasi menjadi urutan token teks dengan metode dari bawah ke atas, raster-scan sebagai input
  • Dengan memasangkan setiap urutan brick dan deskripsi bahasa alami, dilakukan fine-tuning pada model berbasis LLaMA-3.2-Instruct-1B untuk mempelajari pemetaan deskripsi-ke-urutan brick
  • Pada tahap inferensi, LegoGPT secara bertahap menghasilkan struktur LEGO untuk prompt teks dengan cara memprediksi dan menambahkan brick satu per satu
  • Setiap kali brick ditambahkan, dilakukan validasi terhadap format, keberadaan di library brick, dan ada tidaknya tabrakan, lalu setelah seluruh struktur selesai dibuat dilakukan verifikasi ulang stabilitas fisik
  • Jika struktur akhir tidak stabil, sistem akan menghapus brick yang tidak stabil beserta semua brick yang ditambahkan setelahnya, lalu melakukan rollback hingga kondisi stabil sebelum menghasilkan ulang

Contoh pembuatan struktur LEGO langkah demi langkah

  • "Perahu ramping dengan lambung panjang dan sempit"
  • "Rak buku dengan rak horizontal"
  • "Bangku dengan sandaran tangan tanpa sandaran punggung"
  • Masing-masing contoh dihasilkan langkah demi langkah dari prompt teks menjadi struktur LEGO yang secara jelas mencerminkan karakteristik visualnya

Perakitan otomatis dengan robot

  • Model LEGO yang dihasilkan diterapkan pada perakitan nyata menggunakan lengan robot dan didemonstrasikan dalam video 8x kecepatan
  • Ini menunjukkan kemungkinan penerapan perakitan robot di dunia nyata untuk contoh seperti "Perahu ramping dengan lambung panjang dan sempit" dan "Gitar 6 senar asimetris"

Model LEGO bertekstur dan berwarna yang dihasilkan

  • Sistem ini menyediakan desain LEGO yang dapat mengekspresikan tekstur, material, hingga efek estetika tertentu dalam prompt bahasa alami, seperti "bangku berlumut", "material cyberpunk gradien neon", dan "rak ruang baca bergaya Victoria"
  • Bahkan warna yang beragam dan efek metalik seperti pada "Sunburst Les Paul with amber finish" juga dapat tercermin dalam rancangan LEGO hanya dari teks

Sitasi dan dukungan riset

  • Tercantum informasi makalah dan penulis, serta lembaga yang mendukung riset ini, seperti Packard Foundation dan Amazon Faculty Award
  • Proyek ini dijalankan dengan berbagai dukungan akademik dan industri, termasuk Microsoft Research PhD Fellowship untuk peneliti utamanya

Referensi proyek dan template

  • Template situs ini memanfaatkan tata letak yang merujuk pada proyek Custom Diffusion dan DreamFusion

1 komentar

 
GN⁺ 2025-05-10
Komentar Hacker News
  • Kami memanfaatkan validasi yang efisien dan rollback berbasis fisika untuk meningkatkan stabilitas hasil, sehingga memangkas prediksi token yang mustahil menurut hukum fisika dan batasan perakitan. Salah satu hal paling menarik saat menggunakan AI adalah cara ia menghasilkan dan mengoptimalkan kemungkinan di dalam batasan spesifik domain yang diprogram secara manual. Misalnya, AI lampu lalu lintas jelas perlu batasan keras untuk mencegah tabrakan. Di dalam batasan seperti itu, AI bisa bebas bereksperimen dengan ide optimisasi. Pada akhirnya, inti persoalannya adalah bagaimana kita merancang ruang masalah dan batasannya. Dalam kasus ini, itu adalah brick Lego, kombinasinya, dan kestabilannya
    • Pendekatan seperti ini adalah contoh klasik dari metaheuristics yang sudah ada selama beberapa dekade. Ada banyak algoritme berbeda, dan ada buku pengantar ringan yang layak dibaca https://cs.gmu.edu/~sean/book/metaheuristics/
    • Versi sederhananya sudah mulai bersinar di LLM saat ini. Jika Anda memakai mode JSON Schema untuk memblokir status ilegal sejak awal dan membatasi model di ruang yang terbatas, Anda setidaknya bisa menjamin bahwa hasilnya valid. Ini semacam konsep type safety. Logika validasi dan perbaikan juga bisa diterapkan ke berbagai skenario verifikasi. Semoga penggunaan seperti ini makin banyak
    • Untuk masalah seperti ini, saya kira model berbasis MILP atau CLP akan dipakai. Batasan mendefinisikan ruang pencarian, lalu algoritme solver menelusuri ruang itu
    • Mungkin juga menarik untuk melihat reinforcement learning. Jika sistem diberi penalti negatif, ia bisa mulai mematuhi aturan keselamatan. Meski begitu, dalam layanan nyata, pengaman tetap wajib dipertahankan https://en.wikipedia.org/wiki/Reinforcement_learning
    • Saya belum membaca bagaimana mereka menerapkan batasannya. Ini juga dipakai saat memaksa LLM mengeluarkan output terstruktur seperti JSON dengan cara serupa. Di llama.cpp juga ada dukungan pencocokan tata bahasa kustom
    • Saya sepenuhnya setuju dengan pendapat ini. Jika hasil generasi dibatasi oleh fisika, legalitas, dan batasan alat, model menjadi lebih mirip mesin pencarian dan verifikasi daripada sekadar prediktor kata. Ini lebih dekat ke sintesis program. Nilai sesungguhnya ada pada pendefinisian ruang masalah secara teliti, agar model dikurung di dalam "kotak" sehingga hanya bisa menghasilkan sesuatu yang benar-benar berguna
    • Ini bisa dicoba untuk iseng: suruh LLM mengatakan "APPLE", tetapi atur logit token terkait Apple ke -tak hingga agar kata itu tak bisa dipakai. Hasilnya akan seperti "Banana. Bercanda. Banana. Oh, saya salah karena enak. Saya coba lagi: Orange. Oh, sekarang malah grape. Tidak, sayuran renyah itu carrot"
    • Saya juga merasa inilah area di mana AI benar-benar bersinar. Manusia menetapkan aturan (hukum fisika, keselamatan lalu lintas, dan sebagainya), lalu AI menemukan solusi optimal di ruang pencarian yang sangat besar
    • Saya rasa umpan balik error adalah kunci yang benar-benar membuka kemungkinan. Misalnya, jika bot text-to-SQL diberi umpan balik error dari penyedia SQL, ia bisa menghasilkan kueri yang jauh lebih baik
    • Ada konsep serupa dalam combinatorial chemistry, jadi mungkin pantas disebut AI Chemistry https://en.wikipedia.org/wiki/Combinatorial_chemistry
  • Proyek ini besar kemungkinan akan menerima surat peringatan dari pengacara LEGO. Jika ingin aman, sebaiknya jangan gunakan kata LEGO dan pakai Bricks atau Klemmbausteine (bahasa Jerman) saja. Banyak orang pernah berselisih dengan tim legal LEGO dan itu benar-benar melelahkan
    • Karena mereka memang memakai brick LEGO sungguhan, tidak ada unsur menyesatkan. Hanya saja, bagian bahwa mereka tidak berafiliasi dengan LEGO memang tidak dinyatakan dengan jelas, jadi agak abu-abu. Di sisi lain, mereka tampaknya tidak berniat memonetisasi ini, jadi argumen bahwa LEGO dirugikan juga terlihat lemah, sehingga risikonya rendah
    • YouTuber atau situs hobi kecil pun kadang menerima pemberitahuan takedown hanya karena konteks penggunaan katanya
    • Sementara itu, Amazon santai saja menjual Boy and Tiger Adventure Blocks Set yang meniru LEGO dan Calvin & Hobbes sekaligus https://amazon.com/Adventure-Rotatable-Compatible-Characters-Stocking/…
    • Karena ini penelitian akademik, saya rasa ini akan masuk kategori fair use
    • Saya juga berpikir begitu! Masalah akan datang sebentar lagi
    • Saya heran kenapa orang bertindak seperti Nintendo dan tidak merangkul komunitas seperti Sega
  • Hasil ini tidak terlalu mengesankan. Brick yang dipakai terlalu sedikit dan hasilnya juga terlihat jauh dari bentuk yang dimaksud. Rasanya algoritme buatan tangan akan memberi hasil yang lebih baik
    • Hal keren dari riset ini bukan pada realisme fotonya, melainkan pada gabungan pemahaman bahasa dan kemungkinan perakitan fisik
    • Tekstur palsunya saja yang membuatnya tampak masuk akal. Kalau cuma memakai brick berwarna biasa, itu hanya akan jadi gumpalan
    • Mengingat ini model 1B yang di-fine-tune, ini sangat menarik
    • Yang benar-benar dibutuhkan adalah AI yang bisa diberi foto tumpukan brick saya lalu membuat instruksi perakitan berdasarkan brick yang saya punya. Secara teknis itu sudah mungkin sekarang, tetapi perlu melatih model khusus tersendiri
  • Di iPhone, kalau menggulir ke posisi GIF, GIF akan otomatis diputar sehingga navigasi situs jadi sangat tidak nyaman
    • Saya penasaran kapan semua orang akan belajar bahwa autoplay seharusnya tidak pernah dilakukan
    • Sebaliknya, di Firefox desktop saya bahkan tidak sadar ada GIF yang ditampilkan, jadi saya tidak tahu apa maksud gambarnya
    • Masalah seperti ini bisa diperbaiki dengan memberi atribut playsinline pada tag video https://developer.mozilla.org/en-US/docs/…. Sayang sekali ini jadi default di iOS
  • Saya tidak ingin perakitan LEGO diotomatisasi. Justru proses merakitnya yang menyenangkan! Yang lebih dibutuhkan adalah otomatisasi setelah perakitan selesai. Membereskan, memilah berdasarkan warna dan bentuk, lalu menyimpannya dengan rapi. Akan bagus kalau para ilmuwan mulai memecahkan masalah yang benar-benar dibutuhkan dunia nyata. Di sanalah nilai dan uang yang sesungguhnya ada
    • Ada artikel dan tautan tentang kasus memilah 2 ton Lego, serta mesin pertama untuk menyortir lego otomatis dengan AI https://jacquesmattheij.com/sorting-two-metric-tons-of-lego/, https://brothers-brick.com/2019/12/…
    • Sulitnya menyelesaikan masalah dunia nyata adalah karena budaya akademik yang menganggap publikasi makalah sebagai segalanya
    • Inovasi sejati bukan mengotomatisasi bagian yang menyenangkan, melainkan menghilangkan bagian yang membosankan
    • Saya juga datang untuk mengatakan ini. Masalah LEGO yang sebenarnya adalah bersih-bersih dan merapikannya
  • Proyek yang sangat keren! Menampilkan proses perakitan dalam GIF itu sangat adiktif. Bagi yang mencari info dataset, saya bagikan di sini https://huggingface.co/datasets/AvaLovelace/StableText2Lego. Di sana ada lebih dari 47.000 struktur LEGO dan lebih dari 28.000 objek 3D unik dari 21 kategori ShapeNetCore. Cara menjalankan inferensi lokal bisa dilihat di GitHub https://github.com/AvaLovelace1/LegoGPT/?tab=readme-ov-file
  • Pada "a basic sofa", kalau dibuat sesuai urutan animasinya, ada brick yang melayang di udara. Ini memberi petunjuk tentang batas cara model menghasilkan desain. Jika desain yang dihasilkan ingin dirakit otomatis dengan bantuan robot, saya rasa desain seperti ini akan jadi masalah besar
    • Saya juga datang untuk menunjukkan hal yang sama. Bentuk akhirnya terlihat oke, tetapi urutan perakitannya dalam animasi bermasalah. Dasar dua lapis harus dibuat lebih dulu agar lapisan atas mengunci brick di bawahnya. Baru setelah itu kaki-kakinya bisa dipasang
  • Lucu melihat robot seharga $50.000 merakit Lego bernilai beberapa dolar. Rasanya seperti melihat panti jompo untuk robot
    • Dalam 10 tahun, mungkin akan ada robot perakit yang jauh lebih cepat daripada manusia
    • Karena alasan inilah perakitan dengan tangan masih umum di Asia
    • Orang-orang bilang Lego mahal, tetapi begitu membeli robot untuk merakit Lego, barulah terasa betapa mahalnya itu
  • Ini tampaknya tidak lebih dari sekadar mengubah model 3D menjadi voxel lalu mengonversinya menjadi brick. Hasil yang keren baru muncul jika berbagai jenis brick, bukan hanya 2x2 dan 2x4, dimanfaatkan secara kreatif. Saya penasaran algoritme terbaik untuk menghasilkan MOC (rakitan kreasi) yang indah secara otomatis. Saya sedang berpikir membuat kompetisi kaggle berhadiah $50 ribu, ingin tahu pendapat orang-orang