- Barron Webster, yang memiliki lebih dari 8 tahun pengalaman dalam merancang produk AI, saat ini menjalankan peran 'model designer' pertama di dunia di Figma; ini menandai kemunculan peran hibrida baru di mana desainer berkolaborasi langsung dengan LLM
- Tugas inti model designer adalah menutupi keterbatasan foundation model dan memperkenalkan alat serta pola pikir baru ke organisasi desain untuk merancang fitur AI
- Berbeda dari desain UI tradisional, perancangan produk AI harus membuat prototipe perilaku model lebih dulu lalu merancang UI; jika tidak, ada risiko membuat UI yang tidak sesuai dengan cara kerja nyata
- Membangun sistem evaluasi (Evals) adalah inti dari pengendalian kualitas produk AI, dan dibutuhkan alat agar desainer bisa memanipulasi serta menjalankan kasus evaluasi dalam loop umpan balik yang cepat
- Di era AI, desainer harus memahami secara mendalam struktur input-output model dan memiliki kemampuan melihat keseluruhan sistem; mereka harus menjadi peserta pengambilan keputusan, bukan sekadar pembuat UI
Mengenal Barron Webster
- Seorang desainer yang telah terlibat mendalam di produk AI selama lebih dari 8 tahun, dengan wawasan yang mampu menembus hype cycle
- Berpartisipasi dalam perancangan Teachable Machine yang dirilis pada 2017 di Google Creative Lab, alat pertama yang memungkinkan konsumen melatih model AI
- Setelah itu mengerjakan fitur AI di Replit dan berkontribusi saat perusahaan tumbuh dari startup menjadi unicorn
- Baru-baru ini bergabung dengan Figma sebagai model designer pertama di dunia
Peran model designer
- Tergabung dalam tim riset AI Figma, dengan dua misi utama
- Menangani situasi ketika bahkan performa maksimum dari foundation model saja masih belum cukup
- Data Figma memiliki format eksklusif sehingga sulit diproses dengan baik oleh foundation model; perannya adalah menjembatani kesenjangan ini
- Memperkenalkan alat baru dan pola pikir AI-first ke organisasi desain
- Figma adalah perusahaan besar, dan banyak desainer belum punya pengalaman merancang pengalaman AI
- Merancang fitur AI berbeda dari desain produk tradisional
- Tujuannya adalah membangun alat agar desainer bisa membuat prototipe inti fitur AI di tahap awal proses tanpa harus menjadi engineer
- Jika mendesain UI untuk fitur yang belum pernah dialami secara langsung, ada risiko membuat UI yang sempurna hanya untuk kasus ideal tetapi tidak cocok dengan perilaku nyata
Masa depan alat desain AI
- Alat yang paling diharapkan adalah yang memungkinkan desainer memanipulasi dan menjalankan kasus evaluasi dalam loop umpan balik cepat
- Jika fitur AI gagal pada file Figma, kasus itu harus bisa langsung ditambahkan sebagai test case
- Penyesuaian system prompt, mencoba model lain, dan sebagainya harus bisa dilakukan seketika
- Masalah saat ini adalah loop umpan balik yang terlalu lambat
- Inti dari semua alat desain yang baik adalah menghilangkan atau memperkecil loop umpan balik
- Sebagian besar pekerjaan membangun evaluation set masih berupa kerja manual untuk merapikan data
- Ia juga memikirkan cara membedakan fitur AI di Figma
- Karena ini platform desain, hasil keluarannya diharapkan lebih dirancang dengan baik daripada Claude Code atau Cursor
- Kuncinya ada pada strategi evaluasi yang terarah dan menemukan proxy untuk desain yang baik
- Ini juga merupakan pertanyaan filosofis setingkat sekolah seni
Pengalaman awal Barron dengan AI
- Kelas RISD Computer Utopias 2014-2015: era sebelum LLM, saat riset machine learning berpusat pada classifier
- Model klasifikasi gambar adalah yang paling menarik, dan menjadi penggerak face filter Snapchat maupun pencarian gambar Google
- Moderasi konten dan sistem rekomendasi menjadi topik utama
- Masa kejayaan Facebook, Twitter, dan Cambridge Analytica, ketika penemuan feed algoritmik menciptakan material baru untuk dirancang
- Google Creative Lab 2016-2018: mengerjakan Google Lens, Google Assistant, dan Teachable Machine
- Hampir semua proyek menerapkan inovasi model
- Model digunakan bukan untuk generasi teks, melainkan untuk mengurutkan atau memberi anotasi pada konten yang sudah ada
- Ia mempromosikan kasus petani mentimun di Jepang yang memakai TensorFlow untuk mengklasifikasikan mentimun
Pengalaman di Replit
- Bekerja lebih dari 3 tahun, memulai saat belum ada fitur AI dan bertugas menilai cara memanfaatkan AI
- Seiring model terus membaik, ia mencari cara menambahkan fitur AI yang memanfaatkan kemampuan baru sekaligus tetap dapat dipercaya
- Dimulai dari fitur dasar yang dipicu manual, seperti penjelasan AI untuk kode yang dipilih atau pembuatan kode ke file yang sudah ada
- Setelah tiap fitur dirilis, siklus kenaikan ekspektasi pengguna terus berulang
- Diizinkan membuat code snippet → pengguna meminta file/proyek penuh
- Bisa menghasilkan keseluruhan → pengguna meminta edit yang spesifik
- Bisa melakukan edit spesifik → pengguna meminta mulai dari nol
- Polanya adalah mencoba fitur dengan model yang ada → jika gagal, menunggu → lalu mencoba lagi saat foundation model baru dirilis
- Keterbatasan produk di lingkungan pemrograman
- Walau model hebat menulis kode, tetap dibutuhkan cara mengedit di lokasi yang benar
- Sebelum Sonnet 3.5, model lemah dalam menangani nomor baris
- Diperlukan solusi sementara untuk akurasi edit, pencegahan duplikasi konten, dan penggantian fungsi
- Sebagian besar pekerjaan ini menjadi usang setelah 6 bulan sampai 1 tahun karena model baru
Contoh peralihan ke validasi pengguna
- Ketika agen Replit otomatis membuat file dan menulis kode, menguji aplikasi yang dibangun agen menjadi masalah teknis besar
- Misalnya: memverifikasi apakah halaman login benar-benar berfungsi
- Pendekatan dari sisi engineering: menjalankan sandbox, membangun fitur screenshot, lalu memberi screenshot ke model multimodal untuk menentukan lokasi klik/input
- Pada dasarnya ini adalah implementasi semacam penggunaan komputer oleh model
- Usulan Barron dan engineer lain: tampilkan situs ke pengguna dan minta mereka mengujinya langsung
- Dengan memindahkan verifikasi dan pengujian ke pengguna, seluruh masalah teknis kompleks bisa dilewati
- Jika ada orang yang fokus pada masalah pengguna, bukan masalah teknis, banyak hal bisa dilewati atau disederhanakan
Menemukan product-market fit
- Strategi produk tradisional sebelum AI: membuat rencana, memanfaatkan basis pengguna yang ada, lalu menyusun strategi ekspansi pasar/kategori
- Karena perubahan AI yang sangat cepat, strategi Replit menjadi jauh lebih reaktif
- Memiliki product-market fit yang kuat di pasar pendidikan, terutama setelah pendidikan jarak jauh pasca-COVID
- Peningkatan fitur AI menciptakan dilema
- Developer indie dan hacker menyukai AI
- Guru menolaknya karena siswa bisa melewati pembelajaran dasar
- Saat Replit Agent dirilis, pengguna targetnya belum jelas
- Dibanding proyek top-down, merilis fitur lalu mengamati respons ternyata lebih berhasil
- Setelah rilis, melalui percakapan ditemukan pengguna seperti staf operasional di perusahaan teknologi yang perlu mengumpulkan data penjualan atau membangun dashboard, mirip pengguna Zapier atau Retool
Sistem evaluasi (Evals)
- Dalam dua tahun pertama di Replit, evaluasi belum banyak dilakukan karena praktik ini belum tersebar luas saat itu
- Pada Agent, evaluasi digunakan lebih aktif, terutama sebagai metrik pengembangan produk
- Saat model baru dirilis, performa pada evaluasi pemrograman dilihat untuk memutuskan apakah pengujian aplikasi perlu dilakukan
- Di Sandbar, banyak waktu diinvestasikan untuk menulis evaluasi terhadap karakter model
- Di luar benchmark industri yang luas, membangun evaluasi yang spesifik untuk produk merupakan pekerjaan desain yang baru
- Alur kerja: menulis prompt → menyesuaikan prompt → membuat evaluasi → mengecek performa → menggabungkan dengan pengujian manual dan umpan balik subjektif
- Tanpa evaluasi, kerja manual untuk memverifikasi AI bekerja dengan benar meningkat drastis
- Contoh evaluasi di Sandbar
- Jika tidak tahu jawabannya, model harus mengajukan satu pertanyaan klarifikasi yang spesifik, bukan berhalusinasi
- Tidak boleh mengajukan lebih dari dua pertanyaan sekaligus
- Jawaban harus tetap ringkas, dengan pengecualian tertentu
Sulitnya evaluasi
- Sycophancy adalah salah satu topik tersulit dalam penulisan evaluasi
- Ini terkait gagasan bahwa model harus membantah pengguna ketika memang perlu
- Menentukan tingkat kegagalan yang bisa diterima menjadi keputusan produk dan desain, serta bagian dari filosofi desain produk
- Banyak hasil evaluasi buruk ternyata disebabkan evaluasi yang ditulis dengan keliru, bukan penurunan performa
- Contoh: dalam evaluasi “harus sangat ringkas”, bila pengguna berkata “ibuku meninggal”, jawaban “turut prihatin” mungkin mendapat skor tinggi tetapi bukan respons yang benar-benar diinginkan
- Evaluasi terutama digunakan untuk mencegah regresi dan memeriksa apakah karakteristik tertentu terpenuhi
- Mirip test coverage dalam pemrograman
- Sesuatu seperti test-driven development (TDD) dalam pemrograman tradisional masih jarang di AI engineering
- Yakni menulis evaluasi terlebih dahulu lalu menulis kode yang lolos evaluasi
- Ada kemungkinan muncul profesi masa depan bernama evaluation designer
- Mirip peran design system yang merancang dashboard agar tim bisa memahami performa AI
Gagasan fitur AI di Figma
- Sedang mempertimbangkan ide "kritik desain sebagai layanan"
- Meminta AI memberikan kritik desain
- Ini memunculkan pertanyaan menarik tentang karakter sistem tersebut
- Menyediakan pilihan persona yang bisa dipilih (misalnya gaya "Dieter Rams") vs menetapkan default
- Fokus pada masalah aksesibilitas atau kontras, yang memberi umpan balik lebih objektif, vs sasaran yang lebih luas
- Belum jelas sejauh mana hal ini akan tercermin dalam pengalaman produk nyata
Arah perkembangan alat evaluasi
- Menginginkan alat yang mengurangi kecepatan iterasi pembuatan evaluasi
- Pekerjaan yang pada dasarnya saat ini harus dilakukan semua orang yang mengerjakan evaluasi
- Menghubungkan mapping, format, pipeline, dan antarmuka tempat semua output bisa dilihat dalam satu lokasi
- Alat untuk teks sudah cukup baik, tetapi untuk format lain masih kurang
- Ada platform evaluasi serupa seperti Design Arena
- Orang memilih output terbaik melalui uji buta side-by-side
- Ia ingin bisa melakukan pekerjaan serupa langsung dari file Figma
- Termasuk memberi komentar dan menunjukkan isu
- Harus bisa cepat membuat test set, menjalankannya sekaligus, menerima 100 respons, lalu mengiterasi dalam 30 detik
- Saat ini semua potongannya sudah ada, tetapi memakan waktu terlalu lama
Peran desainer dalam pembuatan model
- Memiliki pengalaman dengan dua pendekatan: training from scratch dan fine-tuning
- Saat training from scratch: kontribusi terbesar desainer adalah memberi tahu organisasi di mana kebutuhan pengguna paling besar dan rasa frustrasi paling tinggi
- Di Replit, ada pelatihan custom model untuk error kode Python yang umum dan sederhana
- Ia lebih banyak terlibat dalam mendefinisikan masalah dan mencari cara menerapkan model terlatih ke produk daripada pada pelatihan itu sendiri
- Saat fine-tuning: sudah ada model, produk, dan evaluasi, lalu ingin meningkatkan performa
- Orang yang menulis prompt, evaluasi, dan berbicara dengan pengguna paling jelas memahami apakah ekspektasi terpenuhi
- Ketika prompt engineering mencapai batasnya, fine-tuning menjadi langkah berikutnya
- Peran penerjemah inti desainer adalah mengingat asumsi pengguna
- Engineer/desainer yang bekerja sangat dekat dengan model bisa lupa bahwa pengguna tidak tahu detailnya
- Perlu memakai “orang awam dalam diri sendiri” untuk mengomunikasikan apa yang akan dicoba pengguna naif dan di mana mereka akan tersendat karena tidak memahami sifat model AI
Saran untuk desainer produk AI
- Hal yang paling berkelanjutan dan berdampak adalah menginvestasikan banyak waktu di awal untuk benar-benar memahami input dan output model
- Apa itu prompt, informasi pengguna apa yang menjadi input, alat apa yang bisa dipanggil, evaluasi apa yang ada
- Memiliki intuisi tentang apa yang terjadi ketika berbagai tuas ini disesuaikan
- Jangan menjadi sekadar pembuat UI untuk output yang tidak benar-benar dipahami
- Jika hanya diberi tahu “model menghasilkan ini, jadi desainlah interfacenya”, itu memang bisa dilakukan, tetapi tidak akan bisa mengusulkan perbaikan berdasarkan wawasan pengguna
- Pekerjaan akan menjadi sangat reaktif terhadap perubahan model berikutnya
- Harus menjadi bagian dari pengambilan keputusan tentang apakah fitur baru memang yang diinginkan, bukan sekadar penerima keputusan
- Ini bisa sulit bagi desainer yang tidak terbiasa dengan kode
- Perlu ada interface seperti Langsmith atau belajar menjalankan environment pengembangan secara langsung
Contoh dampak terbesar
- Replit Agent: ia meyakinkan tim untuk meminta pengguna memverifikasi langsung apakah aplikasi yang dihasilkan benar-benar berfungsi
- Dengan fokus pada jalur paling sederhana untuk validasi pengguna, banyak upaya bisa dihemat
- Peluncuran LaMDA (LLM awal dari Google): ia menghabiskan banyak waktu mencoba model dengan berbagai cara untuk melihat apa yang paling berhasil
- Waktu itu belum disebut “prompting”, tetapi intinya adalah membuat model berpura-pura menjadi hal lain dan melakukannya dengan andal
- Demo yang memungkinkan orang berbicara dengan Pluto atau satelitnya adalah hasil menemukan apa yang paling berhasil setelah banyak percobaan
- Tanpa eksperimen luas, tidak mungkin memilih strategi secara tepat
Prompting oleh desainer
- Pertanyaan “apakah desainer harus melakukan prompting” berbeda sifatnya dari “apakah desainer harus bisa coding”
- Dalam coding, jawabannya relatif bisa dibuktikan: apakah teknologi ABC bisa membangun XYZ? Bertanya ke engineer hampir setara dengan tahu sendiri
- Perilaku model AI secara inheren lebih subjektif dan bernuansa
- Tidak ada pengganti untuk memahami materi itu secara langsung dan mendalam
Apakah ini masih desain
- Ini adalah merancang perilaku, yang mungkin tidak akan pernah sempurna, dan itu tidak masalah
- Ini membutuhkan mindset berbeda dari desain UI, yang sepenuhnya mengontrol setiap piksel dan memberi imbalan pada kesempurnaan
- Tetap membuat mockup dan memakai alat desain
- Membuat kasus evaluasi di Figma, meninjau output, dan memperbaiki bagian yang terasa janggal
- Rasanya hampir terapeutik, seperti fidget spinner
- Jika diberi mockup situs web dan 30 menit, ia akan senang mengutak-atik tipografi
- Ini adalah jenis pekerjaan yang tidak pernah benar-benar selesai selama fiturnya tidak dihapus; selalu ada yang bisa ditingkatkan
Belum ada komentar.