Munculnya 'model designer': peran desain dalam produk AI sedang berubah

(aidesignfieldguide.com)

12 poin oleh GN⁺ 2026-01-15 | Belum ada komentar. | Bagikan ke WhatsApp

Barron Webster, yang memiliki lebih dari 8 tahun pengalaman dalam merancang produk AI, saat ini menjalankan peran 'model designer' pertama di dunia di Figma; ini menandai kemunculan peran hibrida baru di mana desainer berkolaborasi langsung dengan LLM
Tugas inti model designer adalah menutupi keterbatasan foundation model dan memperkenalkan alat serta pola pikir baru ke organisasi desain untuk merancang fitur AI
Berbeda dari desain UI tradisional, perancangan produk AI harus membuat prototipe perilaku model lebih dulu lalu merancang UI; jika tidak, ada risiko membuat UI yang tidak sesuai dengan cara kerja nyata
Membangun sistem evaluasi (Evals) adalah inti dari pengendalian kualitas produk AI, dan dibutuhkan alat agar desainer bisa memanipulasi serta menjalankan kasus evaluasi dalam loop umpan balik yang cepat
Di era AI, desainer harus memahami secara mendalam struktur input-output model dan memiliki kemampuan melihat keseluruhan sistem; mereka harus menjadi peserta pengambilan keputusan, bukan sekadar pembuat UI

Mengenal Barron Webster

Seorang desainer yang telah terlibat mendalam di produk AI selama lebih dari 8 tahun, dengan wawasan yang mampu menembus hype cycle
Berpartisipasi dalam perancangan Teachable Machine yang dirilis pada 2017 di Google Creative Lab, alat pertama yang memungkinkan konsumen melatih model AI
Setelah itu mengerjakan fitur AI di Replit dan berkontribusi saat perusahaan tumbuh dari startup menjadi unicorn
Baru-baru ini bergabung dengan Figma sebagai model designer pertama di dunia

Peran model designer

Tergabung dalam tim riset AI Figma, dengan dua misi utama
- Menangani situasi ketika bahkan performa maksimum dari foundation model saja masih belum cukup
- Data Figma memiliki format eksklusif sehingga sulit diproses dengan baik oleh foundation model; perannya adalah menjembatani kesenjangan ini
Memperkenalkan alat baru dan pola pikir AI-first ke organisasi desain
- Figma adalah perusahaan besar, dan banyak desainer belum punya pengalaman merancang pengalaman AI
- Merancang fitur AI berbeda dari desain produk tradisional
Tujuannya adalah membangun alat agar desainer bisa membuat prototipe inti fitur AI di tahap awal proses tanpa harus menjadi engineer
- Jika mendesain UI untuk fitur yang belum pernah dialami secara langsung, ada risiko membuat UI yang sempurna hanya untuk kasus ideal tetapi tidak cocok dengan perilaku nyata

Masa depan alat desain AI

Alat yang paling diharapkan adalah yang memungkinkan desainer memanipulasi dan menjalankan kasus evaluasi dalam loop umpan balik cepat
- Jika fitur AI gagal pada file Figma, kasus itu harus bisa langsung ditambahkan sebagai test case
- Penyesuaian system prompt, mencoba model lain, dan sebagainya harus bisa dilakukan seketika
Masalah saat ini adalah loop umpan balik yang terlalu lambat
- Inti dari semua alat desain yang baik adalah menghilangkan atau memperkecil loop umpan balik
- Sebagian besar pekerjaan membangun evaluation set masih berupa kerja manual untuk merapikan data
Ia juga memikirkan cara membedakan fitur AI di Figma
- Karena ini platform desain, hasil keluarannya diharapkan lebih dirancang dengan baik daripada Claude Code atau Cursor
- Kuncinya ada pada strategi evaluasi yang terarah dan menemukan proxy untuk desain yang baik
- Ini juga merupakan pertanyaan filosofis setingkat sekolah seni

Pengalaman awal Barron dengan AI

Kelas RISD Computer Utopias 2014-2015: era sebelum LLM, saat riset machine learning berpusat pada classifier
- Model klasifikasi gambar adalah yang paling menarik, dan menjadi penggerak face filter Snapchat maupun pencarian gambar Google
- Moderasi konten dan sistem rekomendasi menjadi topik utama
- Masa kejayaan Facebook, Twitter, dan Cambridge Analytica, ketika penemuan feed algoritmik menciptakan material baru untuk dirancang
Google Creative Lab 2016-2018: mengerjakan Google Lens, Google Assistant, dan Teachable Machine
- Hampir semua proyek menerapkan inovasi model
- Model digunakan bukan untuk generasi teks, melainkan untuk mengurutkan atau memberi anotasi pada konten yang sudah ada
- Ia mempromosikan kasus petani mentimun di Jepang yang memakai TensorFlow untuk mengklasifikasikan mentimun

Pengalaman di Replit

Bekerja lebih dari 3 tahun, memulai saat belum ada fitur AI dan bertugas menilai cara memanfaatkan AI
Seiring model terus membaik, ia mencari cara menambahkan fitur AI yang memanfaatkan kemampuan baru sekaligus tetap dapat dipercaya
Dimulai dari fitur dasar yang dipicu manual, seperti penjelasan AI untuk kode yang dipilih atau pembuatan kode ke file yang sudah ada
Setelah tiap fitur dirilis, siklus kenaikan ekspektasi pengguna terus berulang
- Diizinkan membuat code snippet → pengguna meminta file/proyek penuh
- Bisa menghasilkan keseluruhan → pengguna meminta edit yang spesifik
- Bisa melakukan edit spesifik → pengguna meminta mulai dari nol
Polanya adalah mencoba fitur dengan model yang ada → jika gagal, menunggu → lalu mencoba lagi saat foundation model baru dirilis
Keterbatasan produk di lingkungan pemrograman
- Walau model hebat menulis kode, tetap dibutuhkan cara mengedit di lokasi yang benar
- Sebelum Sonnet 3.5, model lemah dalam menangani nomor baris
- Diperlukan solusi sementara untuk akurasi edit, pencegahan duplikasi konten, dan penggantian fungsi
- Sebagian besar pekerjaan ini menjadi usang setelah 6 bulan sampai 1 tahun karena model baru

Contoh peralihan ke validasi pengguna

Ketika agen Replit otomatis membuat file dan menulis kode, menguji aplikasi yang dibangun agen menjadi masalah teknis besar
- Misalnya: memverifikasi apakah halaman login benar-benar berfungsi
Pendekatan dari sisi engineering: menjalankan sandbox, membangun fitur screenshot, lalu memberi screenshot ke model multimodal untuk menentukan lokasi klik/input
- Pada dasarnya ini adalah implementasi semacam penggunaan komputer oleh model
Usulan Barron dan engineer lain: tampilkan situs ke pengguna dan minta mereka mengujinya langsung
- Dengan memindahkan verifikasi dan pengujian ke pengguna, seluruh masalah teknis kompleks bisa dilewati
Jika ada orang yang fokus pada masalah pengguna, bukan masalah teknis, banyak hal bisa dilewati atau disederhanakan

Menemukan product-market fit

Strategi produk tradisional sebelum AI: membuat rencana, memanfaatkan basis pengguna yang ada, lalu menyusun strategi ekspansi pasar/kategori
Karena perubahan AI yang sangat cepat, strategi Replit menjadi jauh lebih reaktif
Memiliki product-market fit yang kuat di pasar pendidikan, terutama setelah pendidikan jarak jauh pasca-COVID
Peningkatan fitur AI menciptakan dilema
- Developer indie dan hacker menyukai AI
- Guru menolaknya karena siswa bisa melewati pembelajaran dasar
Saat Replit Agent dirilis, pengguna targetnya belum jelas
- Dibanding proyek top-down, merilis fitur lalu mengamati respons ternyata lebih berhasil
- Setelah rilis, melalui percakapan ditemukan pengguna seperti staf operasional di perusahaan teknologi yang perlu mengumpulkan data penjualan atau membangun dashboard, mirip pengguna Zapier atau Retool

Sistem evaluasi (Evals)

Dalam dua tahun pertama di Replit, evaluasi belum banyak dilakukan karena praktik ini belum tersebar luas saat itu
Pada Agent, evaluasi digunakan lebih aktif, terutama sebagai metrik pengembangan produk
- Saat model baru dirilis, performa pada evaluasi pemrograman dilihat untuk memutuskan apakah pengujian aplikasi perlu dilakukan
Di Sandbar, banyak waktu diinvestasikan untuk menulis evaluasi terhadap karakter model
- Di luar benchmark industri yang luas, membangun evaluasi yang spesifik untuk produk merupakan pekerjaan desain yang baru
Alur kerja: menulis prompt → menyesuaikan prompt → membuat evaluasi → mengecek performa → menggabungkan dengan pengujian manual dan umpan balik subjektif
Tanpa evaluasi, kerja manual untuk memverifikasi AI bekerja dengan benar meningkat drastis
Contoh evaluasi di Sandbar
- Jika tidak tahu jawabannya, model harus mengajukan satu pertanyaan klarifikasi yang spesifik, bukan berhalusinasi
- Tidak boleh mengajukan lebih dari dua pertanyaan sekaligus
- Jawaban harus tetap ringkas, dengan pengecualian tertentu

Sulitnya evaluasi

Sycophancy adalah salah satu topik tersulit dalam penulisan evaluasi
- Ini terkait gagasan bahwa model harus membantah pengguna ketika memang perlu
- Menentukan tingkat kegagalan yang bisa diterima menjadi keputusan produk dan desain, serta bagian dari filosofi desain produk
Banyak hasil evaluasi buruk ternyata disebabkan evaluasi yang ditulis dengan keliru, bukan penurunan performa
- Contoh: dalam evaluasi “harus sangat ringkas”, bila pengguna berkata “ibuku meninggal”, jawaban “turut prihatin” mungkin mendapat skor tinggi tetapi bukan respons yang benar-benar diinginkan
Evaluasi terutama digunakan untuk mencegah regresi dan memeriksa apakah karakteristik tertentu terpenuhi
- Mirip test coverage dalam pemrograman
Sesuatu seperti test-driven development (TDD) dalam pemrograman tradisional masih jarang di AI engineering
- Yakni menulis evaluasi terlebih dahulu lalu menulis kode yang lolos evaluasi
Ada kemungkinan muncul profesi masa depan bernama evaluation designer
- Mirip peran design system yang merancang dashboard agar tim bisa memahami performa AI

Gagasan fitur AI di Figma

Sedang mempertimbangkan ide "kritik desain sebagai layanan"
- Meminta AI memberikan kritik desain
- Ini memunculkan pertanyaan menarik tentang karakter sistem tersebut
Menyediakan pilihan persona yang bisa dipilih (misalnya gaya "Dieter Rams") vs menetapkan default
Fokus pada masalah aksesibilitas atau kontras, yang memberi umpan balik lebih objektif, vs sasaran yang lebih luas
Belum jelas sejauh mana hal ini akan tercermin dalam pengalaman produk nyata

Arah perkembangan alat evaluasi

Menginginkan alat yang mengurangi kecepatan iterasi pembuatan evaluasi
Pekerjaan yang pada dasarnya saat ini harus dilakukan semua orang yang mengerjakan evaluasi
- Menghubungkan mapping, format, pipeline, dan antarmuka tempat semua output bisa dilihat dalam satu lokasi
Alat untuk teks sudah cukup baik, tetapi untuk format lain masih kurang
Ada platform evaluasi serupa seperti Design Arena
- Orang memilih output terbaik melalui uji buta side-by-side
Ia ingin bisa melakukan pekerjaan serupa langsung dari file Figma
- Termasuk memberi komentar dan menunjukkan isu
- Harus bisa cepat membuat test set, menjalankannya sekaligus, menerima 100 respons, lalu mengiterasi dalam 30 detik
- Saat ini semua potongannya sudah ada, tetapi memakan waktu terlalu lama

Peran desainer dalam pembuatan model

Memiliki pengalaman dengan dua pendekatan: training from scratch dan fine-tuning
Saat training from scratch: kontribusi terbesar desainer adalah memberi tahu organisasi di mana kebutuhan pengguna paling besar dan rasa frustrasi paling tinggi
- Di Replit, ada pelatihan custom model untuk error kode Python yang umum dan sederhana
- Ia lebih banyak terlibat dalam mendefinisikan masalah dan mencari cara menerapkan model terlatih ke produk daripada pada pelatihan itu sendiri
Saat fine-tuning: sudah ada model, produk, dan evaluasi, lalu ingin meningkatkan performa
- Orang yang menulis prompt, evaluasi, dan berbicara dengan pengguna paling jelas memahami apakah ekspektasi terpenuhi
- Ketika prompt engineering mencapai batasnya, fine-tuning menjadi langkah berikutnya
Peran penerjemah inti desainer adalah mengingat asumsi pengguna
- Engineer/desainer yang bekerja sangat dekat dengan model bisa lupa bahwa pengguna tidak tahu detailnya
- Perlu memakai “orang awam dalam diri sendiri” untuk mengomunikasikan apa yang akan dicoba pengguna naif dan di mana mereka akan tersendat karena tidak memahami sifat model AI

Saran untuk desainer produk AI

Hal yang paling berkelanjutan dan berdampak adalah menginvestasikan banyak waktu di awal untuk benar-benar memahami input dan output model
- Apa itu prompt, informasi pengguna apa yang menjadi input, alat apa yang bisa dipanggil, evaluasi apa yang ada
- Memiliki intuisi tentang apa yang terjadi ketika berbagai tuas ini disesuaikan
Jangan menjadi sekadar pembuat UI untuk output yang tidak benar-benar dipahami
- Jika hanya diberi tahu “model menghasilkan ini, jadi desainlah interfacenya”, itu memang bisa dilakukan, tetapi tidak akan bisa mengusulkan perbaikan berdasarkan wawasan pengguna
- Pekerjaan akan menjadi sangat reaktif terhadap perubahan model berikutnya
Harus menjadi bagian dari pengambilan keputusan tentang apakah fitur baru memang yang diinginkan, bukan sekadar penerima keputusan
Ini bisa sulit bagi desainer yang tidak terbiasa dengan kode
- Perlu ada interface seperti Langsmith atau belajar menjalankan environment pengembangan secara langsung

Contoh dampak terbesar

Replit Agent: ia meyakinkan tim untuk meminta pengguna memverifikasi langsung apakah aplikasi yang dihasilkan benar-benar berfungsi
- Dengan fokus pada jalur paling sederhana untuk validasi pengguna, banyak upaya bisa dihemat
Peluncuran LaMDA (LLM awal dari Google): ia menghabiskan banyak waktu mencoba model dengan berbagai cara untuk melihat apa yang paling berhasil
- Waktu itu belum disebut “prompting”, tetapi intinya adalah membuat model berpura-pura menjadi hal lain dan melakukannya dengan andal
- Demo yang memungkinkan orang berbicara dengan Pluto atau satelitnya adalah hasil menemukan apa yang paling berhasil setelah banyak percobaan
- Tanpa eksperimen luas, tidak mungkin memilih strategi secara tepat

Prompting oleh desainer

Pertanyaan “apakah desainer harus melakukan prompting” berbeda sifatnya dari “apakah desainer harus bisa coding”
Dalam coding, jawabannya relatif bisa dibuktikan: apakah teknologi ABC bisa membangun XYZ? Bertanya ke engineer hampir setara dengan tahu sendiri
Perilaku model AI secara inheren lebih subjektif dan bernuansa
- Tidak ada pengganti untuk memahami materi itu secara langsung dan mendalam

Apakah ini masih desain

Ini adalah merancang perilaku, yang mungkin tidak akan pernah sempurna, dan itu tidak masalah
Ini membutuhkan mindset berbeda dari desain UI, yang sepenuhnya mengontrol setiap piksel dan memberi imbalan pada kesempurnaan
Tetap membuat mockup dan memakai alat desain
Membuat kasus evaluasi di Figma, meninjau output, dan memperbaiki bagian yang terasa janggal
Rasanya hampir terapeutik, seperti fidget spinner
- Jika diberi mockup situs web dan 30 menit, ia akan senang mengutak-atik tipografi
Ini adalah jenis pekerjaan yang tidak pernah benar-benar selesai selama fiturnya tidak dihapus; selalu ada yang bisa ditingkatkan

Munculnya 'model designer': peran desain dalam produk AI sedang berubah

Mengenal Barron Webster

Peran model designer

Masa depan alat desain AI

Pengalaman awal Barron dengan AI

Pengalaman di Replit

Contoh peralihan ke validasi pengguna

Menemukan product-market fit

Sistem evaluasi (Evals)

Sulitnya evaluasi

Gagasan fitur AI di Figma

Arah perkembangan alat evaluasi

Peran desainer dalam pembuatan model

Saran untuk desainer produk AI

Contoh dampak terbesar

Prompting oleh desainer

Apakah ini masih desain

Bacaan terkait

Belum ada komentar.