8 poin oleh GN⁺ 2024-07-05 | 1 komentar | Bagikan ke WhatsApp
  • Ingin memahami pasar kerja dan tren saat ini melalui thread "Ask HN: Who Is Hiring" di Hacker News
  • Menggunakan Selenium untuk menelusuri Google setiap bulan dengan kueri "ask hn who is hiring {month} {year}" guna mengumpulkan ID thread
  • Menggunakan HN-API untuk mengumpulkan ID komentar tingkat atas dan menyimpannya ke database sqlite3
  • Mengklasifikasikan komentar menggunakan GPT-4o
  • Menggunakan metode llm.batch(array) dari LangChain untuk pemrosesan paralel sehingga data dapat diproses dengan cepat

Hasil

Berapa banyak pekerjaan yang mengizinkan kerja jarak jauh?
  • Selama pandemi, hanya sekitar seperlima pekerjaan yang tidak mendukung kerja jarak jauh
  • Proporsi dukungan kerja jarak jauh tidak menurun sebesar yang diperkirakan
Berapa banyak pekerjaan yang mensponsori visa?
  • Proporsi pekerjaan dengan sponsor visa relatif stabil selama dua tahun terakhir
  • Mencari pekerjaan dengan sponsor visa tetap sulit
Bagaimana distribusi tingkat pengalaman berubah?
  • Dalam 6–12 bulan ke depan, penting untuk memiliki pengalaman lebih dari 8 tahun
Berapa jumlah pekerjaan per negara bagian di AS?
  • Pekerjaan yang tersedia di Bay Area dan NYC jauh lebih banyak dibanding wilayah lain
Database apa yang digunakan?
  • PostgreSQL digunakan jauh lebih dominan dibanding database lain
Framework JavaScript apa yang paling banyak diminati?
  • Permintaan untuk React sangat tinggi
  • Membuat bubble chart interaktif dengan three.js tanpa menggunakan skala logaritmik
Bagaimana distribusi gaji?
  • Tidak ada rincian spesifik yang diberikan mengenai distribusi gaji

Hal yang dipelajari

  • Field model harus dijelaskan seakurat mungkin
  • Saat melakukan klasifikasi, kelas-kelas harus disebutkan secara eksplisit dalam deskripsi
  • Saat mengekstrak himpunan, pemisah harus disebutkan secara eksplisit dalam deskripsi

Pekerjaan selanjutnya

  • Berdasarkan pekerjaan awal ini, tampaknya bisa dibuat mini SaaS yang mengklasifikasikan kebutuhan pengguna dan mencocokkannya per bulan jika mereka menjelaskan pekerjaan yang mereka cari di thread "Ask HN: Who is hiring?"

Opini GN⁺

  • Tulisan ini menunjukkan dengan baik cara menganalisis pasar kerja menggunakan data science dan teknologi pemrosesan bahasa alami
  • Pemrosesan paralel menggunakan GPT-4o dan LangChain berguna untuk memproses data skala besar dengan cepat
  • Fakta bahwa pekerjaan dengan sponsor visa tetap sulit ditemukan mencerminkan realitas saat ini dan akan berguna bagi orang yang mencari informasi terkait
  • Tingginya permintaan untuk React dan PostgreSQL menjadi referensi yang baik bagi orang yang ingin mempelajari teknologi tersebut
  • Ide mini SaaS ini bisa sangat membantu banyak pencari kerja jika benar-benar diwujudkan

1 komentar

 
GN⁺ 2024-07-05
Opini Hacker News
  • Analisis yang menggunakan GPT-4o menarik

    • Baru-baru ini ada analisis dataset "Who is Hiring" dan "Who wants to be hired" dengan pandas dan spacy
    • Sepertinya akan berguna jika LLM bisa membedakan 'go' dan 'rust'
    • Disayangkan node.js dan nodejs, serta react-native dan react native tidak digabungkan
    • Penasaran mengapa skrip selenium digunakan untuk mengulang pencarian Google
    • Membagikan skrip yang langsung memakai API dan regex untuk mencocokkan judul
  • Disayangkan kode sumber proyek ini tidak bisa ditemukan di GitHub

    • Ini pertama kalinya melihat langchain, dan API-nya ternyata kurang konsisten dari yang diduga
    • Penasaran apakah ini juga bisa dilakukan dengan Ollama
    • Membingungkan karena banyak wrapper yang saling bertumpuk dengan rumit
    • Perlu tutorial untuk pemula
  • Terima kasih sudah menginvestasikan waktu dan uang ke proyek ini

    • Statistik tambahan tentang "remote" dan "in-person" menarik
    • Alasan perusahaan in-person terus berulang kali merekrut bisa jadi karena sedang bertumbuh, atau karena sulit menemukan kandidat
    • Alasan perusahaan remote menghilang bisa jadi karena sudah menemukan talenta yang dibutuhkan, atau menutup usahanya
  • Kombinasi yang sangat bagus antara LLM dan analisis tradisional

    • LLM sangat baik dalam memahami nuansa manusia, sindiran, dan idiom
    • ML unggul dalam mengekstrak informasi dari konteks
    • LLM tidak dapat diandalkan untuk perhitungan angka yang sebenarnya
  • Menumpuk batang pada grafik bukan pendekatan yang baik

    • Karena lapisan kedua tidak bisa dinilai dengan baik
    • Akan lebih baik jika remote dan non-remote ditempatkan berdampingan pada setiap stempel waktu
  • Perlu memakai skala log agar grafiknya tidak terlihat aneh

    • Sebagai gantinya, dibuat bubble chart dengan three.js dalam 300 baris kode
    • Hacker bertindak sebagaimana layaknya hacker
  • Akan menarik jika analisis yang sama dilakukan dengan Claude 3 Haiku

    • Harganya 1/40 dari GPT-4o
    • Ada firasat hasilnya akan mirip
  • Akan menarik jika dibandingkan dengan sampel acak dari Indeed atau LinkedIn

    • Hacker News adalah kelompok yang bias dibandingkan industri secara umum
  • Pada grafik framework JS, ada bubble "React Native" dan "React-Native" secara bersamaan

  • Ingin melihat analisis serupa untuk "Who Wants to be Hired"

    • Bisa membantu menangkap tren orang-orang yang kesulitan mencari kerja
    • Ini dapat membantu orang yang menargetkan pertumbuhan karier