11 poin oleh xguru 2023-07-26 | 3 komentar | Bagikan ke WhatsApp
  • "Overview of SHARD: A System for Highly Available Replicated Data" 1988
    • Makalah pertama yang memperkenalkan database sharding dan telah dikutip oleh banyak makalah, tetapi "tidak ada"
  • "Integral Neural Networks"
  • "Blue Is the New Black (Market): Privacy Leaks and Re-Victimization from Police-Auctioned Cellphones"
  • "Latency Lags Bandwidth"
  • "Liquid solution centrifugation for safe, scalable, and efficient isotope separation"
  • "Co-cultivation enhanced microbial protein production based on autotrophic nitrogen-fixing hydrogen-oxidizing bacteria"
  • "Enso: A Streaming Interface for NIC-Application Communication"
  • "Search-Based Regular Expression Inference on a GPU"
  • "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm"
  • "FP2: Fully in-Place Functional Programming"
  • "Enabling tabular deep learning when d ≫ n with an auxiliary knowledge graph"
  • "A Holistic Approach to Undesired Content Detection in the Real World"

3 komentar

 
cosine20 2023-07-26

Integral Neural Networks sangat mengesankan.
Tampaknya inti konsepnya adalah mendiskretkan distribusi bobot; kurang lebih idenya seperti teori sampling, yaitu distribusi bobot yang direpresentasikan sebagai fungsi kontinu didiskretkan untuk mengoptimalkan jumlah komputasi.
Kalau melihat LLM belakangan ini, ada juga model yang dibuat dengan mengkuantisasi model sehingga membutuhkan komputasi lebih sedikit dengan performa yang mirip, jadi rasanya metodologinya serupa.

 
xguru 2023-07-26

Poin pertama agak absurd, tapi cukup menarik
Where is the original "Overview of SHARD" paper?

 
cosine20 2023-07-26

Melihat komentar di tautan tersebut, ternyata penulisnya sendiri baru-baru ini memberikan jawaban.
Karena itu adalah dokumen internal perusahaan/lembaga riset, memang tidak ada cara untuk mengaksesnya secara publik.

"I'm the Ronni Rosenberg. This was an internal CCA paper (not from academia or a published journal), from 35 years ago! I don't have a copy and I have no idea how to get it. Sorry about that. It does seem to be the earliest reference to data "sharding." (The other early reference mentioned in Wikipedia is from much later, 1997.)

Fortunately, you need not go back 35 years to read about sharding; it's easy to get current info. Cheers."

Sebenarnya kasus seperti itu cukup sering terjadi; alasan tetap mencantumkan sitasi meski isi aslinya tidak bisa diperiksa adalah untuk memperjelas asal-usul konsep atau riset spesifik yang disebut dalam paper tersebut. Dari sudut pandang peneliti lain, mereka perlu memastikan apakah sharding yang dimaksud dalam riset itu adalah sharding yang juga dipahami sama oleh orang lain, atau konsep lain yang berbeda tetapi hanya kebetulan namanya sama, atau bahkan konsep yang sebenarnya tidak ada dan hanya disebut dengan nama sharding untuk menipu.
Bahkan dalam deep learning pun, ada cukup sering model jaringan dengan nama yang sama tetapi merupakan hasil riset yang berbeda.