Membangun Tim Data di Startup
(erikbern.com)-
Kisah seseorang yang bergabung untuk membangun tim data kecil beranggotakan sekitar 4 orang di startup Mid-Stage dengan pendapatan tahunan sekitar 10 miliar won
-
Ini adalah tulisan bernada kiasan berdasarkan beberapa pengalaman, dan bisa saja bias*, jadi bacalah dengan mempertimbangkan hal tersebut
1 Juli : pagi
-
Hari pertama masuk kerja sebagai kepala tim data
-
Berkenalan dengan CMO
(CMO sangat bersemangat karena saya datang; dia bercerita bahwa perusahaan temannya melakukan segmentasi pelanggan menggunakan AI dan itu terlihat keren)
(Setelah obrolan singkat, meninjau praktik data tim marketing)
DATA: "Bagaimana biaya akuisisi pelanggan (CAC)?"
CMO: "Hmm.. sebenarnya sangat bagus. Data scientist kami mengukur angkanya, dan biaya per klik terus menurun"
DATA: (Saya dengar semua data scientist melapor ke tim data, tapi ada data scientist di organisasi lain?)
CMO: "Masalah sebenarnya adalah tim Growth tidak bisa mengonversi semua traffic yang kami bawa ke situs"
DATA: "Apakah ada dashboard untuk melihat conversion funnel?"
CMO: "Mengonversi lead itu kan pekerjaan tim Growth."
- Percakapan dengan salah satu Product Manager
PM yang mendesain ulang total halaman awal sangat bersemangat karena jumlah pendaftaran pengguna meningkat 14%
DATA: "Apakah selisih angka itu signifikan secara statistik?"
PM: "Itu bukan pekerjaan saya, itu pekerjaan tim Anda"
PM: "Waktu kami tanya sebelumnya, tim data bilang datanya tidak ada, dan butuh beberapa bulan untuk mendapatkannya"
PM: "Yang menakjubkan, kami tidak mengubah ini secara incremental. Kami memutuskan untuk tidak melakukan A/B test untuk perubahan ini. Kadang-kadang Anda harus memasang taruhan besar untuk keluar dari local maxima."
PM: "Steve Jobs tidak melakukan A/B test saat meluncurkan iPhone. Tim kami meluncurkan ini 2 hari sebelum tenggat, dan itu yang penting!"
DATA: (Mencoret-coret di catatan sambil berpura-pura terlihat sibuk)
- Percakapan dengan anggota tim baru
→ Tim beranggotakan 3 orang, tetapi sudah mendapat anggaran untuk bertambah menjadi 10 orang sampai akhir tahun
→ Sepertinya anggota tim bersemangat karena saya datang
→ Mereka menunjukkan hal-hal yang sudah dibuat. Cukup banyak, dan beberapa di antaranya keren
✓ Neural network untuk prediksi churn pengguna
✓ Notebook dengan sistem rekomendasi produk terkait yang sudah diimplementasikan
→ Banyak kode dimulai dengan tahap preprocessing yang sangat kompleks dan harus mengambil data dari berbagai sistem
✓ Sepertinya untuk menjalankan sebagian pekerjaan ini, ada beberapa script yang harus dieksekusi manual dalam urutan yang benar
→ Saat saya bertanya mengapa belum diterapkan ke production
✓ Para engineer mengatakan bahwa menjadikannya setingkat production akan menjadi proyek yang sangat besar
✓ Product Manager memang sudah memasukkannya ke backlog, tetapi terus tertunda karena pekerjaan lain terus muncul
✓ Mereka bilang dukungan manajemen diperlukan untuk ini
1 Juli : siang
- Percakapan dengan Head of Supply Chain ( sepertinya dia tidak seantusias CMO )
"Sejujurnya saya tidak yakin butuh bantuan dari tim data"
"Kami tidak punya masalah seperti itu. Yang kami butuhkan adalah business analyst"
"Saya punya satu tim penuh, dan mereka menghabiskan beberapa jam setiap hari mengerjakan model yang sangat kompleks"
"Mereka bahkan tidak punya waktu untuk menjawab pertanyaan-pertanyaan dasar yang saya miliki."
"Saya punya spreadsheet penuh pertanyaan yang ingin saya dapatkan jawabannya"
(Melihat spreadsheet itu, isinya hal-hal seperti ini)
"Bandingkan conversion rate pelanggan yang tiketnya dibuat lalu diselesaikan dalam 1 jam, dengan pelanggan yang diselesaikan setelah 1 jam, lalu kelompokkan per interval nilai pesanan $100"
(Saat ditanya soal modelnya)
-
Sepertinya harus disalin ke tab yang tepat dalam format yang benar pada Google Sheets yang terdiri dari banyak VLOOKUP
-
Data diperbarui setiap hari, dan output model menentukan prioritas tim pada hari itu
-
Biaya yang dibayarkan ke pemasok (vendor) juga dihitung dengan spreadsheet
(Pulang ke rumah dan menuangkan segelas penuh wiski.. )
[ Apa yang sebenarnya terjadi?]
-
Ini pada dasarnya adalah gambaran (agak sinis) tentang hal-hal yang terjadi di banyak perusahaan pada tahap awal kematangan data
-
Kekurangan data dan data yang terpecah-pecah
→ Produk sering kali tidak di-instrument dengan benar sehingga datanya sejak awal memang tidak ada
→ Fragmentasi sistem data, dengan data tersebar di berbagai sistem
→ Proses bisnis yang rapuh, yang memang dijalankan secara data-driven tetapi hampir tanpa otomatisasi, atau sama sekali tidak ada
- Ekspektasi yang tidak jelas tentang apa sebenarnya pekerjaan tim data
→ Data scientist yang direkrut untuk melakukan R&D dan menerapkan AI - akibatnya tidak ada tujuan bisnis yang jelas
→ Tim data mengeluh bahwa sulit memproductionkan ML, tetapi tim produk sendiri sebenarnya tidak terlalu peduli pada fitur tersebut
→ Orang-orang yang membutuhkan "penerjemah English-to-SQL"
- Tim produk yang tidak mendapat pelatihan data-driven
→ Product manager tidak menganggap data sebagai alat untuk membangun fitur yang lebih baik
→ Kurangnya alignment antara apa yang ingin dibangun tim produk dan apa yang dimiliki tim data
- Budaya yang pada dasarnya bertentangan dengan budaya yang berpusat pada data
→ Budaya yang merayakan shipping, bukan merayakan kemajuan dan pembelajaran yang bisa diukur
→ Bahkan tim yang benar-benar menggunakan metrik pun tidak konsisten, pengukurannya tidak dilakukan dengan baik, dan dalam beberapa kasus bahkan bertabrakan dengan tim lain
- Tidak ada kepemimpinan data
→ Organisasi data yang terpecah, dengan berbagai personel data melapor ke berbagai departemen (fungsi) yang berbeda
→ Departemen lain tidak mendapatkan bantuan yang mereka butuhkan, sehingga mereka merekrut banyak analis di sekitar tim data
→ Kurangnya standardisasi toolchain dan best practice
(Wah, ini suram. Lalu apa yang harus dilakukan untuk menyelesaikan masalah ini?)
8 Juli
-
Mulai menetapkan arah baru untuk tim data mulai minggu depan
-
Salah satu orang tampaknya punya pengalaman di infrastruktur, jadi saya memintanya membangun centralized data warehouse
-
Untuk saat ini, yang dibutuhkan hanyalah jalur tercepat untuk mengumpulkan data ke satu tempat
-
Rencananya pada dasarnya adalah men-dump production DB ke data warehouse setiap jam
-
Framework yang digunakan di frontend untuk tracking iklan juga bisa mengirim event log dalam jumlah besar, tetapi itu disimpan dulu sebagai utang teknis
-
Mendefinisikan Generalist Data Role bersama tim rekrutmen
→ Menekankan kemampuan software inti, tetapi juga sikap generalist (mengerjakan segalanya) dan orang yang bisa sangat berempati pada kebutuhan bisnis
→ Untuk sementara, semua penyebutan tentang artificial intelligence dan machine learning dihapus
- Menghabiskan waktu dengan personel data lain yang tidak melapor ke tim data
→ Data scientist di tim marketing ternyata masih muda. "Saya selalu ingin menjadi data scientist. Saya ingin banyak belajar dari Anda"
-
Saya bertanya kepada teman yang menjalankan coding bootcamp apakah ada "kelas pelatihan SQL" yang bagus, dan ternyata ada, jadi diputuskan untuk mengadopsinya akhir bulan ini
-
Membuat materi presentasi untuk tim produk yang menjelaskan apa itu A/B test dan bagaimana cara kerjanya
→ Menunjukkan banyak contoh tes yang menghasilkan hasil tak terduga,
→ dan membuatnya interaktif agar mereka bisa menebak mana yang menang
-
Temui asisten CEO dan cari tahu metrik apa saja yang “ingin dilaporkan melalui email yang dikirim otomatis setiap minggu”
-
Setelah berbicara dengan analis bisnis tim Supply Chain, terlihat bahwa mereka orang-orang yang rasional, tetapi sebelumnya pernah terluka saat berurusan dengan tim data
-
Salah satu dari mereka pernah menggunakan SQL di masa lalu. Melihat dia bertanya tentang conversion rate, saya memberinya akses ke data warehouse
-
Siapkan pertemuan 1:1 mingguan dengan orang-orang di seluruh organisasi yang membutuhkan data
→ Intinya adalah menemukan gap data dan peluang, lalu mengirimkannya ke data scientist
→ Para data scientist bisa merasa kecewa karena prioritas riset mereka terdorong mundur
→ Sambil mengatakan, “Fokuslah memberi nilai bisnis secepat mungkin,” saya juga bilang, “Kita mungkin bisa kembali ke pekerjaan terkait machine learning sebentar lagi. Kita lihat saja nanti.”
1 September: pagi
-
Setelah 3 bulan, sekarang mulai terasa seperti semuanya perlahan berjalan
-
Dengan bertemu 1:1 setiap minggu dengan berbagai stakeholder, saya terus menemukan blind spot dan peluang tempat data bisa menciptakan perubahan
-
Gunakan temuan-temuan itu untuk memaksa pekerjaan platform inti bergerak
-
Untuk membuat dataset “turunan”, perlu membangun banyak pipeline. Biaya awalnya tinggi, tetapi setelah dataset yang tepat terbentuk, analisis lanjutan jadi jauh lebih mudah
-
Mulai membuka akses data warehouse ke departemen lain
-
Mereka mulai melakukan analisis dasar langsung dengan SQL
→ Hal yang sangat bagus: seorang junior product manager menemukan bahwa conversion rate di iOS Safari sangat buruk. Ternyata itu bug frontend terkait local storage, dan diperbaiki hanya dengan satu baris kode
- Kepala supply chain mengirim email marah
→ Karena database berubah, query sepanjang 500 baris gagal dijalankan..
→ Saya meminta data scientist yang mengeluh untuk memperbaikinya sambil memberi umpan lain: “Nanti akhir bulan ini saya carikan masalah machine learning yang keren untukmu”
1 September: sore
-
Product manager tim checkout masih belum melakukan analisis metrik
-
Data scientist di tim marketing berbicara dengan manajernya dan memutuskan untuk melapor langsung kepada saya
[ Apa yang sedang terjadi? ]
- Sedang membangun fondasi dasar untuk hal-hal yang paling mendesak
→ Membuat data penting bisa di-query dari satu tempat
→ Membuka akses SQL dan membuat tim lain memakainya sehingga banyak pekerjaan “penerjemahan SQL” hilang
-
Sebaliknya, tim lain bisa jadi ingin melangkah terlalu jauh karena kebebasan ini. Hal itu bisa dicegah dengan menetapkan izin akses data, tetapi kerugiannya lebih banyak
-
Tim checkout tidak melakukan analisis data karena mereka tidak tahu harus bertanya kepada siapa
-
Ini terutama masalah organisasi
→ Tim-tim tidak tahu cara bekerja sama dengan tim data
→ Tanpa disadari, tim data juga bisa menjadi bottleneck
- Hal yang paling masuk akal adalah “sentralisasi pelaporan, distribusikan manajemen pekerjaan”
→ Karena data dan keputusan menciptakan feedback loop yang lebih rapat
→ Agar anggota tim data bisa berkolaborasi dengan masing-masing tim dan hanya melapor kepada saya (lead tim data)
2 September
- Tim data bertambah menjadi 6 orang
→ 1 orang untuk infrastruktur data warehouse
→ 5 orang masing-masing dialokasikan ke tim: onboarding, supply chain, checkout, marketing, serta dukungan CEO dan pembuatan materi presentasi untuk investor/dewan
-
Menjelaskan perubahan ini ke seluruh perusahaan, dan memperjelas dengan siapa mereka harus bekerja untuk kebutuhan data
-
Ke depan, kalau merekrut personel data lagi pun rencananya akan ditempatkan ke tim lain
3 Januari
-
Salah satu data scientist memutuskan untuk pergi. Karena memang tidak banyak pekerjaan yang bisa membuatnya senang, saya memutuskan untuk tidak menahannya
-
Ada banyak orang baru di tim. Orang-orang yang punya sedikit pengetahuan software engineering dan SQL, serta ingin menemukan hal-hal menarik dari data
→ Karena mereka mencari “scoop” di dalam data, saya menganggap mereka sebagai “jurnalis data”
- Untuk anggota yang bekerja dengan tim onboarding
→ Dia menemukan bahwa dalam alur onboarding, pelanggan ditanya alamat meskipun alamat itu tidak diperlukan
→ Menghapusnya meningkatkan conversion rate sebesar 21% dalam A/B test
→ Ini tidak mudah karena perlu pekerjaan ETL agar data lebih mudah di-query, tetapi sedikit bantuan dari Python membuatnya jadi mungkin
- Laporan kuartalan dengan CEO
→ PM dari inisiatif pertumbuhan memperkenalkan redesign landing page yang baru diluncurkan
→ PM menekankan bahwa 20 engineer lembur untuk mengejar tenggat waktu
→ CMO juga sangat terlibat karena menaruh harapan besar pada Direct Mail sebagai bagian dari redesign ini
→ Pertanyaan CEO: “Bagaimana metrik saat ini? Apakah customer acquisition cost sudah turun?”
(Anda sudah menduga CEO akan menanyakan ini, jadi saat itu benar-benar keluar, Anda tersenyum)
→ PM menunjukkan angka-angka di lampiran bahwa mereka memang menjalankan A/B test
→ Beberapa metrik naik, beberapa turun, sehingga tidak ada hasil yang menunjukkan kesimpulan signifikan, dan angka customer acquisition cost terlihat tidak bagus
→ CMO menekankan bahwa angkanya masih sedang dibentuk, dan kampanye seperti ini bisa memakan waktu beberapa bulan
[ Apa yang sedang terjadi? ]
-
Kabar baiknya, tim produk mulai melakukan A/B test
-
Kabar buruknya, hasilnya diabaikan dan proyek sebagian besar tetap berjalan mengikuti milestone dan deadline buatan
-
Kabar terbaiknya, CEO mendorong setiap tim agar menggunakan data sebagai kebenaran (truth)
-
Ketika organisasi mendapat tekanan untuk menjadi lebih data-driven, tim data harus mempercepat cara mereka berkolaborasi dengan tim lain
-
Khususnya para eksekutif puncak akan semakin fokus pada metrik, dan tugas Anda adalah memastikan tim data mengerjakan metrik-metrik itu
-
Salah satu cara paling sederhana adalah memastikan setiap tim memiliki dashboard untuk metrik yang mereka anggap penting
1 April
-
Pekerjaan machine learning lama yang pernah dilakukan tim data masih tetap ada
-
Data scientist yang bekerja di tim produk inventory tertarik pada pekerjaan sistem rekomendasi yang dibuat sebelumnya
-
Salah satu anggota baru yang direkrut adalah seorang generalist, jadi dia mengubah notebook sistem rekomendasi itu menjadi aplikasi Flask kecil dan mendeploy-nya secara internal
-
Product manager tim inventory melihatnya dan menyukainya: “Bagaimana kita mendeploy ini?”
-
Salah satu metrik utama tim inventory adalah “average order value”, dan rekomendasi ini diperkirakan bisa sangat meningkatkannya
-
Bahkan dengan estimasi singkat saja, deployment besar tampaknya akan sulit, tetapi muncul ide, “Bagaimana kalau kita deploy hanya ke 1% pelanggan?”
-
“Memang agak bodoh, tapi kita bisa pre-generate produk rekomendasi dengan Cron Job, dan sepertinya bisa dibuat dalam beberapa hari”
-
Saat bekerja dengan tim supply chain, ditemukan lebih banyak query SQL raksasa
-
Query-query itu terus rusak, tetapi tim data sedang mengubahnya menjadi pipeline yang layak
-
Kepala tim supply chain meminta agar lebih banyak data scientist direkrut
[ OK, sebenarnya apa yang sedang terjadi? ]
-
Pertama, mulai ada harapan untuk pekerjaan machine learning yang keren
-
Tim produk akhirnya antusias meluncurkan sistem rekomendasi sebagai eksperimen kecil
-
Dulu, hal seperti ini tidak bisa maju karena tim engineering produk sulit memperkirakan pekerjaannya, tidak ingin berkontribusi langsung, dan tim data tidak punya skill untuk memproductionkannya
-
Yang menyelesaikan masalah ini adalah tim data benar-benar membangun demo-nya. Dengan begitu, bukan hanya membuatnya lebih dekat ke production, tetapi juga memperjelas kemungkinannya
-
Hal lain adalah apa yang terjadi di tim supply chain
→ Awalnya dimulai dengan “analis bisnis” internal mereka sendiri, tetapi untuk mendapatkan data mereka tetap harus meminta tim data menjalankan query
→ Para analis mulai menjalankan query sendiri dengan bantuan tim data
→ Pertama-tama mulai menghapus "utang teknis bayangan" (kueri SQL berukuran monster) yang sempat menimbulkan gesekan dengan tim data
→ Tim data mulai menempel pada tim rantai pasok untuk membantu
→ Saat anggota tim data di-embed, kebutuhan akan analis bisnis berkurang dan jumlah data scientist meningkat
-
Ingatlah bahwa ketika pada awalnya mulai membuang production DB langsung ke data warehouse, Anda juga mengambil alih "utang teknis"
-
Pada awalnya banyak hal akan rusak, tetapi Anda harus menambahkan layer agar kueri bisa berjalan stabil. Ini bisa menjadi pekerjaan yang sangat besar
1 Juli
- Rapat perencanaan kuartal 3
→ Dulu orang-orang berdebat tentang apa yang akan dipertaruhkan perusahaan pada kuartal berikutnya
→ Kali ini Anda mempresentasikan metrik tingkat tertinggi perusahaan, dan tiap tim mempresentasikan rincian metrik tingkat tertinggi itu melalui sub-metrik mereka
- Pekerjaan tim manajemen produk membuahkan hasil
→ PM membenarkan investasi pada proyek sambil membicarakan apa yang dipelajari saat menjalankan tes atau apa yang ditemukan dari data
- Pencapaian besar adalah data scientist yang bekerja dengan tim checkout menemukan bahwa objek keranjang menjadi aneh ketika pengguna menekan tombol kembali di halaman konfirmasi
→ Setelah masalah ini diperbaiki, conversion rate meningkat tajam
- Insight lain adalah bahwa traffic yang datang melalui kampanye iklan yang berbeda memiliki profil konversi yang sangat berbeda
→ Beberapa kampanye memiliki biaya klik yang murah tetapi conversion rate-nya buruk sekali, sementara kampanye lain mahal tetapi conversion rate-nya sangat tinggi
- Dengan melacak variabel UTM dan menghubungkannya ke pembuatan akun, kini menjadi memungkinkan mengukur conversion rate dari klik iklan hingga pembelian
→ Ini sebelumnya mustahil sebelum semua data dibawa ke data warehouse yang sama dan dinormalisasi agar mudah di-query
→ Melalui kolaborasi dengan marketing, KPI utama menjadi biaya akuisisi pelanggan end-to-end, bukan biaya per klik
- Kabar menarik lainnya adalah tes 1% untuk sistem rekomendasi berhasil secara luar biasa
→ Memperluasnya hingga 100% pengguna adalah proyek yang sangat besar, tetapi CEO telah menyetujui proyek tersebut
- Tidak semua hasil positif, dan banyak tes gagal.
→ Salah satu slide menjelaskan tes di mana ongkos kirim tidak ditagihkan terpisah, melainkan dimasukkan ke dalam harga
→ CEO berkata, "Apa yang kita pelajari dari sini?"
→ Ini kemudian berlanjut menjadi percakapan untuk merencanakan serangkaian eksperimen lanjutan
(Pulang ke rumah lalu membuka sampanye)
[ Apa yang sebenarnya terjadi? ]
-
Anda berhasil.
-
Anda telah mengubah organisasi menjadi benar-benar data-native.
-
Tim data bekerja lintas fungsi dengan berbagai pemangku kepentingan.
-
Data dan insight digunakan dalam perencanaan, dan data dipakai untuk menciptakan nilai bisnis, bukan untuk riset dengan tujuan yang tidak jelas.
-
Perusahaan menggunakan siklus umpan balik cepat berbasis data untuk bekerja secara iteratif alih-alih perencanaan gaya "waterfall" berskala besar.
-
Metrik didefinisikan dengan cara yang dapat menciptakan nilai bisnis dan memungkinkan adanya akuntabilitas atasnya.
-
Budaya data didorong bersama dari atas (oleh CEO) dan dari bawah (oleh para karyawan).
-
Gagal tidak masalah, asalkan setidaknya ada sesuatu yang dipelajari.
(Selamat. Anda pantas mengangkat sampanye)
7 komentar
Baru baca bagian awalnya, rasanya seperti sedang membaca tentang perusahaan kami,,,, sedih (tentu saja di tempat kami bahkan tidak ada tim data, hehe)
Sangat menarik untuk dibaca. Terima kasih~!
Rasanya seperti menonton sebuah episode drama tentang startup teknologi yang pasti disukai para engineer. Seru! 👍
22222
Kelihatannya orangnya banyak, tapi ternyata segini sudah termasuk mid-stage.
Mungkin skalanya agak berbeda dibanding yang dilihat di dalam negeri.
Terkait istilah opinionated (bias), sulit menerjemahkannya dengan rapi, tetapi saya biasanya menggunakannya sebagai "bias karena mencerminkan pendapat sendiri".
Untuk hal ini, ada tulisan orang lain yang membahasnya, jadi silakan jadikan referensi
Selain itu, tulisan aslinya dijelaskan secara panjang lebar, tetapi saya menyusunnya ulang dalam gaya percakapan agar sedikit lebih mudah dibaca.