1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Perpustakaan Nasional Norwegia memasukkan penyimpanan flash Huawei OceanStor Dorado 2PB ke dalam pipeline pelatihan AI untuk membangun LLM berdaulat yang memahami bahasa Norwegia
  • Di tengah situasi ketika penyedia LLM komersial tidak membuat model lokal bahasa Norwegia, LLM yang berpusat pada bahasa Inggris sulit menangani sejarah, berita, dan budaya yang terdokumentasi dalam bahasa daerah dengan baik
  • Sejak 2005, perpustakaan nasional telah mendigitalkan buku, surat kabar, halaman web, suara, dan video, serta memiliki 20PB data unik, dengan sekitar 60PB tersimpan menggunakan metode 3-2-1
  • Hambatannya bukan pada komputasi, melainkan pada kualitas data, pemurnian, dan throughput pemrosesan; data disiapkan di DGX H200 internal, klaster CPU, dan flash Huawei, lalu dilatih di Sigma2 Olivia
  • Arsip preservasi dan pipeline AI memiliki kebutuhan berbeda antara durabilitas dan biaya versus latensi rendah dan I/O paralel, sehingga LLM berdaulat juga memerlukan kemampuan pengelolaan dan pengarsipan

Proyek LLM berdaulat Perpustakaan Nasional Norwegia

  • Perpustakaan Nasional Norwegia (Nasjonalbiblioteket) sedang mengembangkan large language model (LLM) yang memahami bahasa Norwegia, dan menggunakan penyimpanan flash Huawei OceanStor Dorado 2PB dalam pipeline data pelatihan AI
  • Marius Husnes, kepala platform TI perpustakaan nasional, mengatakan di Huawei ID Forum 2026 Paris bahwa penyedia LLM komersial tidak sedang mengembangkan LLM bahasa daerah Norwegia
  • Negara yang tidak memiliki LLM berdaulat yang dilatih dalam bahasa sendiri akan bergantung pada LLM yang dilatih dengan data global dan berpusat pada bahasa Inggris, dan model semacam itu sulit memahami sejarah, berita, dan budaya yang ditulis dalam bahasa lokal
  • Kementerian Kebudayaan Norwegia menugaskan perpustakaan nasional untuk membangun AI berdaulat, yaitu LLM, dan perpustakaan nasional memiliki koleksi digital buku, surat kabar, dan halaman web terbesar di Norwegia
  • Perpustakaan nasional berhak menerima salinan semua buku terbitan dan konten siaran, dan kewajiban serah simpan telah meluas dari buku menjadi peran mengumpulkan dan melestarikan seluruh warisan budaya Norwegia
  • Berdasarkan kesepakatan dengan perusahaan surat kabar Norwegia, konten berhak cipta juga dapat digunakan untuk pelatihan LLM, dan Husnes mengatakan, “perusahaan swasta tidak memiliki ini”

Skala data dan fondasi digitalisasi

  • Sejak 2005, perpustakaan nasional telah mendigitalkan koleksinya dan mengumpulkan 20PB data unik
  • Data ini disimpan dengan metode 3-2-1
    • 3 salinan
    • 2 jenis media
    • 1 penyimpanan di luar lokasi
  • Karena struktur ini, total kapasitas penyimpanan mencapai sekitar 60PB
  • Objek digitalisasi mencakup teks asli, suara, video, gambar diam, dan konten web
  • Dalam proses digitalisasi, banyak pemindaian OCR dilakukan, dan juga dibuat metadata dalam jumlah besar serta API untuk akses online
  • Sebagian besar data disimpan dalam sistem preservasi yang terdiri dari disk digital dan arsip tape

Tantangan memindahkan data dari arsip ke pipeline AI

  • Tantangan utamanya adalah mengirim data dari sistem preservasi ke sistem pelatihan LLM
  • Hambatannya bukan komputasi, melainkan kualitas data, pemurnian, dan throughput pipeline
  • Proses ini terbagi antara persiapan data di lingkungan komputasi internal perpustakaan nasional dan eksekusi pelatihan aktual di superkomputer nasional
  • Lingkungan internal terdiri dari perangkat berikut
    • Sistem Nvidia DGX H200
    • Klaster CPU 384 core
    • Beberapa array all-flash Huawei OceanStor Dorado dengan total kapasitas flash 2PB
  • Penyimpanan flash Huawei digunakan sebagai penyimpanan latensi rendah untuk pipeline data dan persiapan pelatihan
  • Pipeline mencakup tahap pengumpulan data, pembersihan, deduplikasi, normalisasi format, validasi, dan persiapan

Lingkungan eksekusi pelatihan: Sigma2 Olivia

  • Data yang telah melewati pipeline dikirim ke sistem Olivia milik Sigma2, superkomputer nasional Norwegia, untuk eksekusi pelatihan yang sebenarnya
  • Olivia adalah sistem HPE Cray Supercomputing EX
  • Konfigurasi Olivia adalah sebagai berikut
    • 448 GPU
    • 64.512 core CPU
    • Sistem penyimpanan 5.3PB Cray ClusterStor E1000
  • Lingkungan AI on-premise milik perpustakaan nasional menyiapkan data, sementara Olivia menangani eksekusi pelatihan

Kebutuhan penyimpanan yang berbeda

  • Arsip preservasi dan penyimpanan pipeline AI memiliki kebutuhan yang berbeda
  • Sistem preservasi 60PB dioptimalkan untuk durabilitas dan biaya, dan tidak dioptimalkan untuk I/O cepat
  • Sistem preservasi dirancang dengan asumsi akses yang jarang sehingga memiliki latensi baca yang tinggi
  • Penyimpanan pipeline AI dirancang untuk throughput tinggi, latensi rendah, dan I/O data paralel
  • Tim harus mencari sendiri cara memindahkan dan memproses dataset skala PB dari arsip ke pipeline data AI

Tantangan yang masih diselesaikan

  • Evaluasi

    • Tidak ada alat evaluasi standar untuk menilai LLM bahasa Norwegia berdaulat
    • Bahasa Norwegia memiliki dua bentuk bahasa tulis, serta berbagai dialek dan perubahan historis
    • Tim perpustakaan nasional sedang membangun alat evaluasinya sendiri
  • Tata kelola

    • Perlu ditentukan siapa yang akan mengendalikan hak akses ke LLM berdaulat
    • Menentukan siapa yang akan memutuskan untuk apa LLM berdaulat boleh digunakan juga merupakan tantangan
    • Ini adalah pertanyaan kelembagaan dan politik, dan tidak memiliki jawaban mudah
  • Orkestrasi

    • Pekerjaan untuk membuat tiga sistem—arsip preservasi, lingkungan AI on-premise, dan superkomputer nasional Sigma2—berjalan mulus bersama masih terus berlangsung

Makna dan kesimpulan

  • Penyimpanan Huawei memainkan peran penting dan nyata di pasar Eropa
  • Negara yang ingin mengembangkan LLM bahasa daerah berdaulat dapat memperoleh manfaat dengan berdiskusi dengan Husnes dan memahami pekerjaan yang diperlukan
  • Norwegia digambarkan sebagai negara kecil yang menangani masalah yang akan dihadapi semua negara non-Inggris
  • Pertanyaan intinya adalah bagaimana membangun AI yang mencerminkan bahasa, budaya, dan sejarah negaranya sendiri
  • AI tidak hanya memerlukan pembangun, tetapi juga pengelola dan penjaga arsip

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Sebagai orang Norwegia, saya memakai Perpustakaan Nasional hampir setiap hari untuk pencarian teks
    Antarmuka pengguna dan fitur untuk menelusuri teks dalam jumlah besar benar-benar kelas atas

    • Benar-benar luar biasa. Hanya saja saya berharap ada lebih sedikit pembatasan pada konten yang bisa diakses
      Banyak di antaranya hanya bisa diakses dari IP Norwegia, jadi salah satu alasan utama saya tetap berlangganan VPN meski tinggal di Inggris adalah karena saya orang Norwegia. Sebagian lainnya hanya bisa diakses dari IP perpustakaan atau lembaga riset, tetapi tetap saja jumlah materi yang terbuka untuk umum sangat banyak
    • Tidak adanya mesin pencari terpadu sangat membuat frustrasi. Saya tidak mengerti kenapa kita tidak bisa mencari di dalam subtitle TV
    • Ini membuat saya sadar betapa terbiasanya saya dengan stemming dan toleransi ejaan dasar yang sudah ada di semua mesin pencari sejak era Altavista
  • Saya penasaran seberapa benar pernyataan ini: “Negara yang punya bahasa sendiri akan dirugikan jika tidak memiliki LLM berdaulat yang dilatih dalam bahasa tersebut. Sebab LLM berbahasa Inggris yang dilatih dari materi seluruh dunia tidak mengetahui sejarah, berita, dan budaya negara itu yang ditulis dalam bahasa lokal”
    Saya kira para pemain besar sudah melatih model mereka dengan hampir semua materi yang dapat diakses, tanpa terlalu peduli bahasa atau kualitasnya, jadi pandangan ini terasa seperti gagasan yang terbentuk pada masa awal LLM umum

    • Jika ingin LLM memiliki pengetahuan bahasa Norwegia, bukankah cara yang paling obvious adalah membuat dataset pelatihan yang bagus lalu merilisnya secara luas?
      Saya tidak paham alasan menghabiskan biaya besar untuk melatih model sendiri, apalagi jika kemungkinan besar hasilnya akan kalah dari model terdepan
    • LLM asing mungkin memang belum dilatih dengan materi dari Perpustakaan Nasional Norwegia
      Karena genealogi, saya sering menemukan materi di sana lewat pencarian kata kunci biasa, dan baik mesin pencari maupun model bahasa tidak mengetahui hal-hal itu
      Tentu saja informasi yang saya minati biasanya juga saya unggah di suatu tempat yang bisa di-scrape AI, tetapi butuh waktu sangat lama untuk benar-benar menggali semua materi menarik yang ada di sana
    • Menurut penilaian saya, itu hampir tidak benar. Saya tidak terlalu bisa bahasa Norwegia, tetapi saya bisa bahasa Swedia, dan kedua bahasa itu sangat mirip sehingga saya umumnya juga memahami bahasa Norwegia
      Semua model yang pernah saya ajak bicara dalam bahasa Swedia menanganinya dengan sempurna. Saya rasa besar kemungkinan hal yang sama juga sudah berlaku untuk bahasa Norwegia
    • Setidaknya mungkin ini bisa membuat model menulis seperti orang Norwegia, bukan sekadar seperti terjemahan bahasa Inggris ke bahasa Norwegia
      Mungkin menarik juga jika eksperimen seperti https://arxiv.org/pdf/2507.22445 diterapkan
    • Model terbaik saat ini sudah cukup fasih dalam bahasa dan budaya utama, jadi setidaknya pembatasan “semua” itu tidak tepat
      Dampaknya terhadap performa bisa nyaris tidak ada, atau kadang malah lebih baik. Hanya saja pola berbahasa Inggris bisa sedikit merembes ke pola yang lebih natural bagi penutur asli bahasa lain
      Untuk bahasa berdaya rendah, ini masalah yang sama sekali berbeda, tetapi untuk memperbaikinya dibutuhkan lebih banyak data, bukan model baru
  • “Sistem Olivia adalah sistem HPE Cray Supercomputing EX dengan 448 GPU dan 64.512 inti CPU”
    Ingin melatih LLM berdaulat dengan perangkat keras yang sekecil ini, alih-alih cukup menambahkan LoRA di atas model open source, terlihat seperti kesalahan besar sekaligus tanda bahaya
    Mustahil sumber dayanya cukup untuk melatih LLM penuh, jadi mengklaim itulah targetnya terasa seperti tanda bahwa mereka memang tidak berniat membuat LLM ini benar-benar berguna. Kalau begitu, orang jadi bertanya uang siapa yang diboroskan dan untuk apa

    • Mungkin ini tidak berguna bagi orang luar, tetapi salah satu tujuannya bisa saja adalah pembelajaran organisasi
      Artinya, pengetahuan untuk membuat LLM diinternalisasi ke dalam organisasi itu sendiri
      Secara nominal yang memimpin adalah perpustakaan nasional, tetapi menurut artikel, mereka tampaknya dipilih karena secara legal memiliki dan boleh memakai materi berbahasa Norwegia untuk tujuan ini. Peneliti dari institusi terkait seperti universitas kemungkinan juga akan ikut terlibat dalam prosesnya
    • Mereka sebelumnya sudah berhasil membuat model fine-tuning sebagai bukti konsep, jadi langkah berikutnya memang melatih LLM penuh
      Meski begitu, saya tidak melihatnya sebagai upaya menuju sesuatu yang benar-benar bernilai. Model fine-tuning itu sangat rusak, lebih mirip langkah membangun metodologi. Saya juga tidak yakin itu akan sangat berguna, tetapi bukan saya yang berhak menentukan orang lain boleh melakukan apa dengan dana riset
      Salah satu model fine-tuning yang saya coba sering mengejek manusia yang mengekspresikan emosi dalam chat
      Model fine-tuning lain, bahkan kalau saya hanya menulis “hei”, selalu berhalusinasi bahwa saya seorang dokter dan bayi saya mengidap penyakit mengerikan. Mungkin perilaku itu dipicu oleh system prompt yang biasa dan netral
      Menurut saya, Olivia sudah cukup besar untuk kegunaan yang dituju. Untuk saat ini, lebih baik mengikuti arah perkembangan terbaru tanpa membuang terlalu banyak uang untuk perangkat keras
    • Model bahasa multibahasa dan internasionalisasi bukan area yang sedang mendapat konsentrasi sumber daya besar dari laboratorium riset terdepan, dan terutama bahasa Norwegia tampaknya lebih tidak lagi
      Korpus bahasa Norwegia mungkin tidak memerlukan klaster yang sangat besar, dan kalaupun perlu, ini barangkali yang terbaik yang bisa dilakukan perpustakaan. Dalam konteks investasi untuk model Norwegia, ini kemungkinan memang salah satu upaya terbesar
      Model kelas atas mungkin tidak bisa mengakses kualitas konten yang dimiliki perpustakaan nasional. Artikel itu juga menyebut lisensi dengan perusahaan surat kabar, selain arsip perpustakaan itu sendiri
      Bahasa Inggris dan Norwegia bukan keluarga bahasa yang berdekatan, jadi LoRA mungkin bukan pendekatan terbaik
      Saya penasaran apakah ada riset publik tentang seberapa baik lokalisasi berbasis LoRA bekerja tergantung seberapa jauh tata bahasa dan kosakata bahasa sasaran dari bahasa Inggris
      Proyek seperti ini biasanya tidak punya satu tujuan saja; bukan sekadar membuat model tercanggih, tetapi juga membangun dan melatih talenta lokal, seperti universitas yang meluncurkan satelit
    • Dengan sumber daya sebesar ini, mestinya cukup untuk memakai sesuatu seperti resep Olmo 3, dengan campuran data yang memprioritaskan data mereka sendiri serta pelatihan lanjutan untuk tugas-tugas internal mereka
      Jika mereka membuat model embedding sendiri, mengindeks seluruh perpustakaan, lalu melatih model agar menjawab pertanyaan sejarah, budaya, hukum, dan strategi dari sudut pandang negara mereka sambil mengambil data tersebut, hasilnya bisa cukup menarik dan berguna
      Mereka mungkin tidak akan mengalahkan Anthropic dalam menghasilkan kode React, tetapi tidak ada alasan juga untuk menyalin itu
    • Masalah terbesar yang sebenarnya adalah data pelatihan yang tersedia
      Mereka sudah bereksperimen dengan fine-tuning maupun pelatihan dari nol menggunakan beberapa model di bawah 10 miliar parameter, dan terakhir kali saya cek, model yang dilatih dari nol menangkap bahasanya dengan lebih baik
  • Saya merasa akan lebih baik jika Norwegia, sebagai pengganti atau berjalan paralel, membuat dataset pelatihan dan membagikannya gratis kepada semua pembuat model
    Itu tampak seperti cara yang lebih baik, atau setidaknya tambahan, untuk mencapai tujuan membuat model-model terdepan memahami bahasa Norwegia dan budayanya

    • Model-model terdepan sudah cukup memahami bahasa Norwegia. Mereka juga bisa menyesuaikan diri dengan dialek-dialek Norwegia, dan cukup meyakinkan dalam meniru Norwegia Kuno
      Misalnya, saya meminta Claude menjelaskan novel tahun 1911 “De knyttede næver” dengan ejaan bahasa Norwegia sekitar tahun 1911, dan hasilnya bagus
      Yang kurang adalah pemahaman tentang sastra, budaya, dan sejarah Norwegia. “De knyttede næver” adalah salah satu novel Norwegia yang tergolong bestseller pada masa terbitnya, tetapi Claude baru bisa memberi sesuatu setelah mencarinya terlebih dahulu. ChatGPT lebih baik, terutama dalam mode berpikir, karena memberikan ringkasan yang rinci
      Karya itu memang tidak luas dikenal saat ini, tetapi penulisnya adalah jurnalis surat kabar ternama selama beberapa dekade, dan seri ini cukup dikenal sampai ada penyanyi Norwegia yang mengambil nama panggung dari nama tokoh utamanya. Karena pandangan politik sang penulis dan pengaruhnya terhadap novel tersebut, karya ini juga dibahas selama beberapa dekade di surat kabar dan buku-buku Norwegia, jadi ini terasa sebagai uji yang cukup masuk akal dan mengungkap celah pengetahuan yang cukup besar
      Saya setuju bahwa akan lebih baik jika dataset perpustakaan nasional dibuat lebih mudah diakses. Hanya saja, unsur tambahan besar di sini tampaknya adalah mereka membuat perjanjian yang memungkinkan pelatihan menggunakan materi berhak cipta yang terikat di arsip dan penggunaannya dibatasi
      Meski begitu, membuka hanya data dari koleksi mereka yang hak ciptanya sudah kedaluwarsa pun akan menjadi titik awal yang sangat baik
    • Saya tidak paham mengapa semua data ini harus dibagikan seluruhnya kepada perusahaan-perusahaan Amerika yang rakus, yang mencuri data semua orang demi keuntungan mereka sendiri
      Jauh lebih baik mempertahankan kesepakatan hukum dengan lembaga negara dan mengembangkan sesuatu yang benar-benar berguna bagi negaranya sendiri
  • Melihat bagian ketika Marius Husnes berkata bahwa “penyedia LLM komersial tidak mengembangkan LLM Norwegia lokal, dan negara yang tidak memiliki LLM berdaulat yang dilatih dalam bahasanya sendiri akan dirugikan”, saya tidak terlalu yakin bahwa dia benar-benar paham apa yang dia bicarakan di sini

    • Dia benar. Hanya saja ini bukan semata-mata soal korpus pelatihan, tetapi juga soal tokenizer yang men-tokenisasi substring dengan lebih efisien berdasarkan bias yang dibutuhkan bahasa sasaran
      Salah satu alasan LLM yang berorientasi bahasa Inggris lebih kuat dalam bahasa Inggris adalah karena ruang token dialokasikan lebih ringkas untuk bahasa Inggris. Jika Anda memasukkan kata-kata umum bahasa Inggris dan Norwegia ke tokenizer online yang memanggil API Anthropic, bahasa Inggris biasanya menjadi satu token atau kurang, sementara bahasa Norwegia sering menjadi 2–4 token, kadang lebih. Bahasa seperti Thai sangat dirugikan
      Pemilihan korpus juga sering sangat condong ke bahasa target. Ini karena mendapatkan karya dalam bahasa tersebut memerlukan lebih banyak usaha
      Karena pengaruh timbal balik dari embedding yang secara semantik mirip antarbahasa, ruang vektor juga menghasilkan baseline budaya dan bias makna yang berbeda. Terakhir, fine-tuning sangat memengaruhi ekspresi budaya sebuah LLM. Efek-efek ini tidak sepele
      Ada banyak upaya untuk membangun model bahasa bagi bahasa yang sedang menghilang dan dengan model lintas budaya, tetapi untuk bahasa dengan fondasi literasi yang kuat, ada alasan yang cukup untuk membuat LLM warisan yang dikhususkan bagi bahasa dan budayanya sendiri. Mengharapkan OpenAI atau Anthropic memprioritaskan bahasa Anda di atas pelanggan target mereka ketika harus memilih adalah hal yang tidak masuk akal
    • Saat berbicara dengan ChatGPT, bahkan jika menggunakan bahasa Denmark, cukup jelas bahwa ia itu Amerika
      Bahasa ibu, gaya, dan sikapnya terasa Amerika
      Sama seperti kita tidak bisa bergantung pada Netflix dan HBO, meskipun sekarang mereka membuat acara TV Skandinavia, kita juga harus membuat milik kita sendiri di ranah ini
      Seiring waktu, teknologi yang memungkinkan hal ini akan menjadi lebih murah dan lebih mudah diperoleh
    • Polandia punya LLM sendiri bernama Bielik
      Bukan hanya lebih baik dalam mempertahankan ekspresi yang terasa benar-benar Polandia, tetapi juga lebih baik dalam menyusun dokumen pemerintah. Mengapa lebih baik? Karena sudah dilakukan evaluasi arena, dan hasilnya secara statistik lebih baik
    • Saya penasaran apakah ada yang bisa menunjukkan dasar bahwa dia salah
      Pernyataannya tegas, tetapi tampaknya tidak ada dasar. Mengapa hanya memiliki LLM bahasa Inggris tidak dianggap merugikan?
      Apakah model-model saat ini bisa menangkap nuansa sejarah dan budaya Norwegia?
    • Kedengarannya cukup bagus untuk mendapatkan subsidi
  • Bahasa Wales juga sedang mendapatkan pelatihan LLM dengan Nemotron
    https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...

  • Ini mungkin bukan cara yang paling efisien, tetapi untuk bahasa dengan aksara non-Latin tampaknya masih ada kasus penggunaan yang jelas untuk membangun dari nol
    Lihat saja sarvam.ai dan contoh peningkatan tokenisasi bahasa lokal [1]. Tidak semua LLM harus membantu coding, dan juga tidak semuanya harus sudah menjadi Babelfish
    Bahasa adalah budaya, jadi saya paham motivasi mereka. Mampu melakukannya sendiri tampaknya adalah hal yang baik
    [1] https://www.sarvam.ai/blogs/sarvam-30b-105b

    • Meningkatkan tokenisasi tidak selalu berarti harus membangun dari nol
      T-Bank dari Rusia mengganti tokenizer Qwen dasar untuk memasukkan 5x lebih banyak token Kiril, lalu melakukan pelatihan lanjutan dengan korpus bahasa Rusia, dan mereka bisa meningkatkan kecepatan generasi 1.5–3x
  • Ini adalah deployment storage yang sangat besar
    Mengingat kebutuhan I/O pelatihan LLM, terutama checkpointing, masuk akal untuk beralih ke NVMe flash pada skala ini dibanding array disk tradisional

  • “Norwegia adalah negara kecil yang mencoba menyelesaikan masalah yang akan dihadapi semua negara non-Inggris. Bagaimana cara membuat AI yang mencerminkan bahasa, budaya, dan sejarahnya sendiri? AI membutuhkan bukan hanya pembuat, tetapi juga pengelola”
    Sayangnya, menurut saya jawabannya pada umumnya lebih dekat ke “tidak bisa”
    Untuk hal seperti ini dibutuhkan kemauan politik yang kuat, dan setidaknya di sekitar saya, menyelaraskan itu tampak nyaris mustahil
    Biayanya juga sulit ditanggung, tetapi lebih dari itu, orang-orang yang peduli pada keterwakilan lokal seperti ini biasanya sepenuhnya baik-baik saja jika perusahaan asing yang mewujudkannya, atau sejak awal justru menentang AI itu sendiri. Kalau mau, orang juga bisa memakai ChatGPT dalam bahasa Basque

    • Untuk kasus Norwegia, masih bisa diperdebatkan apakah biayanya benar-benar tidak tertanggungkan
      Negara itu kecil tetapi sangat kaya, dan saat ini melalui investasi dana kekayaan negara mereka memiliki kepemilikan saham yang setara dengan 1,5% dari seluruh perusahaan tercatat di dunia
    • Jika Norwegia mendekati lembaga-lembaga riset di AS dengan tujuan membuat dataset terkurasi untuk pelatihan, mereka hampir pasti akan diberi jalan agar bisa masuk ke proses pelatihan
      Dan model seperti itu kemungkinan besar akan jauh lebih unggul daripada apa pun yang bisa dibuat di dalam negeri
      Tentu saja, sambil mengatakan ini saya juga bisa merasakan banyak orang bergidik di seberang layar