1 poin oleh GN⁺ 2024-04-19 | 1 komentar | Bagikan ke WhatsApp

Apa itu Effort?

  • Effort adalah energi, waktu, dan sumber daya yang dicurahkan untuk menyelesaikan suatu pekerjaan atau mencapai tujuan
  • Ini berarti usaha dan jerih payah yang diperlukan untuk mengatasi hambatan atau memperoleh hasil yang diinginkan
  • Effort bisa bersifat fisik maupun mental
    • Usaha fisik seperti energi yang digunakan untuk mengangkat benda berat atau berlari maraton
    • Usaha mental seperti konsentrasi dan daya pikir yang diperlukan untuk memecahkan masalah kompleks atau mempelajari keterampilan baru
  • Merupakan elemen kunci untuk meraih keberhasilan di berbagai bidang kehidupan, seperti pertumbuhan pribadi, pekerjaan, dan pendidikan

Opini GN⁺

  • Effort bukan sekadar jumlah waktu atau energi yang dicurahkan, tetapi konsep yang dipengaruhi oleh berbagai faktor seperti keberlanjutan, fokus, dan motivasi. Karena itu, bekerja keras tidak selalu menjamin keberhasilan
  • Terutama pada pekerjaan yang menuntut Effort mental, perlu berhati-hati agar tidak mengalami burn out. Penting untuk menemukan cara mempertahankan Effort melalui istirahat dan penghargaan yang tepat
  • Cara setiap orang mencurahkan Effort bisa berbeda. Ada yang mampu fokus secara intensif dalam jangka pendek, ada pula yang bisa mencurahkan Effort secara konsisten dalam jangka panjang. Menemukan cara yang paling sesuai untuk diri sendiri adalah pendekatan yang efektif

1 komentar

 
GN⁺ 2024-04-19
Opini Hacker News
  • Algoritme ini memangkas parameter secara real-time, lalu membuat matriks bobot menjadi sparse dengan menetapkan bobot yang peringkat nilai absolutnya rendah dalam setiap grup menjadi 0
  • Dari hasil pencarian tentang pruning model, banyak paper yang membahas "magnitude-based pruning" sebagai baseline
    • Namun paper-paper ini mengimplementasikan baseline dengan sangat buruk untuk melebih-lebihkan metode mereka sendiri, dan menjelaskan metodenya dengan banyak istilah matematika
    • Sebaliknya, postingan blog aslinya menjelaskan metodenya dengan cara yang mudah dipahami bahkan oleh orang yang hampir tidak punya pengetahuan latar belakang
  • Satu kalimat di bagian implementasi GPU sangat berkesan
    • "Pemula dalam pemrograman GPU akan bertanya, 'bagaimana ini bekerja?', dan orang yang berpengalaman akan bertanya, 'ini sebenarnya bekerja bagaimana?'"
  • Membalik matriks, mengurutkan elemen per baris, lalu meninjau kembali perkalian dari arah itu disebut format "compressed sparse row (CSR)"
    • Untuk melakukan perkalian, prosesnya berjalan seperti mengambil 1 dari vektor, mengalikannya dengan 256, lalu menambahkannya ke baris ketiga dari vektor output
    • Ada usulan untuk melihat apa yang terjadi jika kolom terakhir yang memiliki nilai terkecil dipotong
  • Usulan nama untuk ide ini: "lobotomize"
  • Ini tampak mirip dengan sparsitas semi-terstruktur (2:4), jadi layak dibandingkan secara eksplisit
    • Teknik ini dioptimalkan untuk Apple Silicon, ~2x lebih cepat pada sparsitas 75%, bersifat dinamis dan berubah sesuai input, diterapkan saat runtime, dan tingkat sparsitasnya bisa dipilih
    • Sebaliknya, sparsitas semi-terstruktur 2:4 dioptimalkan untuk GPU yang memiliki sparse tensor core, ~2x lebih cepat pada sparsitas 50%, bersifat statis dan diterapkan saat model sedang idle, dan tampaknya memberi hasil yang lebih buruk daripada teknik ini pada sparsitas 50%
    • Akan menarik untuk membandingkan hasil sparsitas semi-terstruktur pada 50% sparsitas (peningkatan kecepatan 2x) dengan hasil teknik ini pada 75% sparsitas (peningkatan kecepatan 2x)
  • Berdasarkan pengalaman menggunakan CSR, ini tidak mengejutkan, dan beberapa format yang lebih baru seperti block ELL meski kodenya lebih rumit tetap bisa lebih selaras dengan karakteristik mesin karena menghindari pembacaan/pengumpulan yang tidak terurut
  • Latensi 15ms terlihat mirip dengan vsync 60Hz (16.7ms), jadi jika layar diperbarui sekali per token, sinkronisasi bisa saja terjadi dengan satu atau lain cara
  • Terima kasih atas kontribusi yang keren dan terbuka seperti ini. Saya akan mengamati dengan saksama implementasinya di llama.cpp. Saya sedang mencari cara untuk meningkatkan kecepatan inferensi CPU, dan menyukai ide "effort" ini
  • Tulisan yang keren! Saya sangat penasaran dengan performa per VRAM dibandingkan dengan kuantisasi. Apakah ada rencana untuk membuat versi lintas platform?
  • Ini tampaknya terkait dengan https://arxiv.org/abs/2312.12456 dan https://github.com/SJTU-IPADS/PowerInfer