2 poin oleh GN⁺ 3 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • πfs adalah sistem file yang mewujudkan gagasan menyimpan data di π alih-alih di hard drive sehingga tidak memakai ruang penyimpanan, dengan premis inti bahwa π memuat semua file yang mungkin ada
  • Penjelasannya didasarkan pada dugaan bahwa jika π adalah bilangan normal (normal), maka semua file berhingga ada di dalam representasi heksadesimalnya
  • Jika mengetahui indeks file di dalam π dan panjangnya, file dapat diekstrak menggunakan Bailey–Borwein–Plouffe formula, dan implementasi ini mengambil setiap byte file secara terpisah dari π demi kinerja
  • Saat dijalankan, gunakan format πfs -o mdd=<metadata directory> <mountpoint>, dan metadata directory menyimpan metadata seperti nama file dan posisi file di dalam π
  • Untuk build diperlukan paket autoconf, automake, libfuse, dan proses build mengikuti alur ./autogen.sh, ./configure, make, make install
  • Implementasi saat ini masih berupa prototipe awal, dan ada contoh bahwa menyimpan file teks 400 baris memerlukan waktu 5 menit
  • Kemungkinan ke depan yang disebutkan mencakup pencarian dan pengambilan variable run length, Arithmetic Coding, pengambilan paralel, pengambilan π berbasis cloud, dan πfs untuk Hadoop

1 komentar

 
GN⁺ 3 jam lalu
Komentar Hacker News
  • Ini mengingatkanku pada saat pernah mencoba memakai Library of Babel sebagai alat kompresi data
    Gara-gara itu aku terjerumus ke rabbit hole yang menarik, dan pertama kali mengenal teori informasi
    Kesimpulannya, untuk merepresentasikan alamat lokasi data saja dibutuhkan jumlah informasi yang hampir sama besar dengan data itu sendiri, jadi tidak terlalu efektif untuk kompresi dan lebih mirip eksperimen pemikiran yang menarik
    Hal yang menarik menurut standar masa kini adalah bahwa LLM dalam arti tertentu benar-benar mencapai inti tujuan yang gagal dicapai alat-alat seperti ini, sebagai salah satu bentuk kompresi lossy. Tentu saja ada kehilangan informasi, dan butuh basis yang sangat besar

    • Video ini sepertinya menarik: Reinventing Entropy Compression is Intelligence Part 1, 3Blue1Brown
      https://youtu.be/l6DKRf-fAAM?is=ne73FCJ7ErXhzZ-v
    • 3Blue1Brown baru saja mengunggah video tentang hubungan antara kecerdasan dan kompresi
      https://youtu.be/l6DKRf-fAAM
    • Dalam arti tertentu, sains adalah bentuk kompresi yang paling ekstrem. Mekanika Newton menjelaskan sangat banyak fenomena hanya dengan beberapa baris tulisan
    • Kalau memikirkan tingkat kompresinya, ini cukup mengesankan. Menurutku komentar yang kutulis dulu masih benar, tetapi salah di bagian bahwa seharusnya bit, bukan byte: https://news.ycombinator.com/item?id=39559969
      Perkiraan kasar untuk menyimpan 4-gram yang valid, yaitu urutan empat kata, adalah 10 miliar × 14 bit per kata = sekitar 17GB untuk keseluruhan 10 miliar. Namun bahkan LLM yang 100 kali lebih kecil dari ini pun bisa menulis prosa yang konsisten
  • Ini mengingatkanku pada nsafs, atau National Security Agency Filesystem. Karena biayanya ditanggung pemerintah, pengaturannya dianggap “gratis”: https://github.com/freedomtools/nsafs

    • Ini adalah memori tulis-saja yang diberi lebih banyak prosedur
      https://en.wikipedia.org/wiki/Write-only_memory_(joke)
    • Dulu, dalam sebuah wawancara kerja di suatu perusahaan, pewawancara mengatakan bahwa sebagai investor ventura dia pernah berinvestasi dalam proyek untuk menghasilkan stream bilangan acak yang sangat besar
      Idenya adalah memilih indeks acak dan membagikan private key itu kepada lawan bicara, lalu setelah itu teks bisa dipakai sebagai one-time pad. Logikanya, agar NSA bisa memecahkannya, mereka harus membuffer dan menyimpan seluruh stream yang dihasilkan pada laju GB/s, tetapi itu tampak tidak terlalu praktis
  • Patut dicatat bahwa semakin panjang datanya, kemungkinan indeks dan panjang urutan itu di dalam π lebih kecil daripada data aslinya menjadi sangat rendah

    • Kelihatannya bisa diselesaikan dengan mudah. Cukup catat lagi indeks dan panjang di dalam π itu sebagai indeks dan panjang di dalam π
    • Saat kuliah aku sempat berpikir nomor telepon bisa dikompresi dengan memberi tahu indeksnya di dalam π, tetapi nomor telepon 7 digit ternyata berada pada indeks 8 digit
      Aku tidak punya sumber daya komputasi untuk mencari nomor 10 digit yang termasuk kode area
    • Indeks untuk file 20 baris menjadi <angka 20TB>
    • Artikel aslinya membahas bagian ini

      Now, we all know that it can take a while to find a long sequence of digits in π, so for practical reasons, we should break the files up into smaller chunks that can be more readily found.
      In this implementation, to maximise performance, we consider each individual byte of the file separately, and look it up in π.

  • Ini posting terkait. Ada lagi?
    πfs – A data-free filesystem - https://news.ycombinator.com/item?id=36357466 - Juni 2023, 107 komentar
    πfs – A data-free filesystem - https://news.ycombinator.com/item?id=28699499 - September 2021, 30 komentar
    PiFS – The Data-Free Filesystem - https://news.ycombinator.com/item?id=26208704 - Februari 2021, 1 komentar
    Πfs: Never worry about data again - https://news.ycombinator.com/item?id=21359338 - Oktober 2019, 1 komentar
    The π Filesystem for FUSE: Store Your Data in π - https://news.ycombinator.com/item?id=19223032 - Februari 2019, 1 komentar
    pifs - Avoid disk space usage by saving your files in the digits of Pi - https://news.ycombinator.com/item?id=18687275 - Desember 2018, 1 komentar
    πfs – A data-free filesystem - https://news.ycombinator.com/item?id=13869691 - Maret 2017, 105 komentar
    Πfs: Stores your data in π - https://news.ycombinator.com/item?id=10856108 - Januari 2016, 1 komentar
    Πfs: Never worry about data again - https://news.ycombinator.com/item?id=10847693 - Januari 2016, 1 komentar
    File system that stores location of file in Pi - https://news.ycombinator.com/item?id=8018818 - Juli 2014, 98 komentar
    100% Compression Using Pi - https://news.ycombinator.com/item?id=6698852 - November 2013, 32 komentar
    Repost biasanya tidak masalah kalau sudah lewat sekitar 1 tahun, dan tautan ke thread lama ini untuk pembaca yang ingin tahu lebih jauh

    • Saya penasaran bagaimana daftar seperti ini dibuat
  • Ini juga mengingatkan saya pada: https://www.spronck.net/sloot.html
    Bacaan tambahan: https://en.wikipedia.org/wiki/Sloot_Digital_Coding_System

    • Saya sempat mencari tahu sedikit dulu, dan setidaknya sebagian dari yang dilakukan Sloot memang cukup baru
      Skema encoding sebenarnya adalah menyimpan setiap baris video ke dalam database, lalu mengenkode tiap frame sebagai urutan lookup baris, kemudian menyimpan frame yang sudah dienkode itu ke database lain. Tiap video menjadi urutan lookup frame
      Inilah sebabnya dia bisa mendemonstrasikan 16 video diputar mulus secara bersamaan pada perangkat keras akhir 90-an. Karena setiap frame adalah urutan lookup baris, membagi layar secara horizontal menjadi 16 bagian dan memutar 16 video sekaligus tidak lebih berat daripada memutar satu video di seluruh layar
      Demikian juga, karena tiap frame didekode secara individual, fast-forward dan rewind juga mulus. Tidak perlu menghitung delta dari setiap keyframe seperti pada kompresi video tradisional, jadi pemutaran 2x juga tidak lebih berat daripada 1x
      Tentu saja Anda tidak bisa menyimpan file video dalam ukuran seperti 8KB, tetapi misalnya jika satu musim serial TV ada di database, kredit pembuka dan penutup cukup disimpan satu kali
    • The SDCS is only possible if keys are allowed to become infinite, or the data store is allowed to become infinite (...) This would, of course, make the idea useless.
      Tetapi π itu tak hingga. Jadi selama Hukum Moore tetap memihak kita, perangkat jenius ini akan bekerja

  • One of the properties that π is conjectured to have is that it is normal
    Kata kuncinya di sini adalah conjectured
    Senang melihat masalah ketelitian kecil yang sering saya obsesikan muncul di sini. Belum ada satu pun bilangan irasional yang tidak dikonstruksi yang terbukti merupakan bilangan normal atau mengandung semua string hingga

    • Saya penasaran apa maksud dari “tidak dikonstruksi” di sini
  • In this implementation, to maximise performance, we consider each individual byte of the file separately, and look it up in π.
    Akan lebih cepat jika melihat tiap bit secara terpisah. Anda hanya butuh indeks 2 dan 33, dan itu bisa dipetakan secara efisien ke bit-bit dalam penyimpanan

  • Menyadari bahwa π memuat semua pengetahuan masa lalu dan masa depan, bahkan kapan saya akan mati, terasa tidak nyaman

    • Hal yang sama juga berlaku untuk semua deret bit acak tak hingga lainnya. Bagian yang bertentangan dengan intuisi bukan berasal dari π, melainkan dari ketakterhinggaan
      Selain itu, tidak bisa benar-benar dikatakan bahwa ia memuat semua pengetahuan masa lalu dan masa depan. Ini karena semua kemungkinan kepalsuan tentang masa lalu dan masa depan juga ada di dalamnya dengan cara yang tak bisa dibedakan dari kebenaran
      Mengodekan informasi sebagai offset dalam urutan pseudorandom tidak lebih efisien untuk penyimpanan dibanding menyimpan informasi itu secara langsung
    • Yang paling buruk adalah bahwa Star Wars 4~6 dari garis waktu alternatif, di mana Chris Pratt dipilih sebagai Han Solo, juga ada di dalamnya
      Fakta menarik: “Chrispratt” dalam bahasa California kuno berarti “Joel McHale tidak menginginkan peran itu”
    • Sepertinya dia akan menikmati The Library of Babel karya Jorge Borges
      https://dn760100.eu.archive.org/0/items/TheLibraryOfBabel/ba...
    • Siapa pun yang mulai membaca lebih cepat dari π akan selalu mendapatkan angka yang paling segar. Ini adalah sandi yang sempurna
    • Semua berita palsu dari masa lalu dan masa depan juga ada di dalamnya, dan tidak ada cara untuk mengetahui mana yang asli
  • Saya samar-samar ingat pernah ada peserta benchmark kompresi yang lolos dengan licik dengan memperlakukan nama file sebagai sebagian dari input algoritme dekompresi
    Benchmark itu hanya mengukur ukuran file, jadi metriknya bisa dikalahkan dengan cara itu

  • Bukankah ini bergantung pada sifat π yang belum terbukti? Diperlukan ketercakupan semua string berhingga atau kenormalan, tetapi keduanya belum terbukti