- Perpustakaan Nasional Norwegia memasukkan penyimpanan flash Huawei OceanStor Dorado 2PB ke dalam pipeline pelatihan AI untuk membangun LLM berdaulat yang memahami bahasa Norwegia
- Di tengah situasi ketika penyedia LLM komersial tidak membuat model lokal bahasa Norwegia, LLM yang berpusat pada bahasa Inggris sulit menangani sejarah, berita, dan budaya yang terdokumentasi dalam bahasa daerah dengan baik
- Sejak 2005, perpustakaan nasional telah mendigitalkan buku, surat kabar, halaman web, suara, dan video, serta memiliki 20PB data unik, dengan sekitar 60PB tersimpan menggunakan metode 3-2-1
- Hambatannya bukan pada komputasi, melainkan pada kualitas data, pemurnian, dan throughput pemrosesan; data disiapkan di DGX H200 internal, klaster CPU, dan flash Huawei, lalu dilatih di Sigma2 Olivia
- Arsip preservasi dan pipeline AI memiliki kebutuhan berbeda antara durabilitas dan biaya versus latensi rendah dan I/O paralel, sehingga LLM berdaulat juga memerlukan kemampuan pengelolaan dan pengarsipan
Proyek LLM berdaulat Perpustakaan Nasional Norwegia
- Perpustakaan Nasional Norwegia (Nasjonalbiblioteket) sedang mengembangkan large language model (LLM) yang memahami bahasa Norwegia, dan menggunakan penyimpanan flash Huawei OceanStor Dorado 2PB dalam pipeline data pelatihan AI
- Marius Husnes, kepala platform TI perpustakaan nasional, mengatakan di Huawei ID Forum 2026 Paris bahwa penyedia LLM komersial tidak sedang mengembangkan LLM bahasa daerah Norwegia
- Negara yang tidak memiliki LLM berdaulat yang dilatih dalam bahasa sendiri akan bergantung pada LLM yang dilatih dengan data global dan berpusat pada bahasa Inggris, dan model semacam itu sulit memahami sejarah, berita, dan budaya yang ditulis dalam bahasa lokal
- Kementerian Kebudayaan Norwegia menugaskan perpustakaan nasional untuk membangun AI berdaulat, yaitu LLM, dan perpustakaan nasional memiliki koleksi digital buku, surat kabar, dan halaman web terbesar di Norwegia
- Perpustakaan nasional berhak menerima salinan semua buku terbitan dan konten siaran, dan kewajiban serah simpan telah meluas dari buku menjadi peran mengumpulkan dan melestarikan seluruh warisan budaya Norwegia
- Berdasarkan kesepakatan dengan perusahaan surat kabar Norwegia, konten berhak cipta juga dapat digunakan untuk pelatihan LLM, dan Husnes mengatakan, “perusahaan swasta tidak memiliki ini”
Skala data dan fondasi digitalisasi
- Sejak 2005, perpustakaan nasional telah mendigitalkan koleksinya dan mengumpulkan 20PB data unik
- Data ini disimpan dengan metode 3-2-1
- 3 salinan
- 2 jenis media
- 1 penyimpanan di luar lokasi
- Karena struktur ini, total kapasitas penyimpanan mencapai sekitar 60PB
- Objek digitalisasi mencakup teks asli, suara, video, gambar diam, dan konten web
- Dalam proses digitalisasi, banyak pemindaian OCR dilakukan, dan juga dibuat metadata dalam jumlah besar serta API untuk akses online
- Sebagian besar data disimpan dalam sistem preservasi yang terdiri dari disk digital dan arsip tape
Tantangan memindahkan data dari arsip ke pipeline AI
- Tantangan utamanya adalah mengirim data dari sistem preservasi ke sistem pelatihan LLM
- Hambatannya bukan komputasi, melainkan kualitas data, pemurnian, dan throughput pipeline
- Proses ini terbagi antara persiapan data di lingkungan komputasi internal perpustakaan nasional dan eksekusi pelatihan aktual di superkomputer nasional
- Lingkungan internal terdiri dari perangkat berikut
- Sistem Nvidia DGX H200
- Klaster CPU 384 core
- Beberapa array all-flash Huawei OceanStor Dorado dengan total kapasitas flash 2PB
- Penyimpanan flash Huawei digunakan sebagai penyimpanan latensi rendah untuk pipeline data dan persiapan pelatihan
- Pipeline mencakup tahap pengumpulan data, pembersihan, deduplikasi, normalisasi format, validasi, dan persiapan
Lingkungan eksekusi pelatihan: Sigma2 Olivia
- Data yang telah melewati pipeline dikirim ke sistem Olivia milik Sigma2, superkomputer nasional Norwegia, untuk eksekusi pelatihan yang sebenarnya
- Olivia adalah sistem HPE Cray Supercomputing EX
- Konfigurasi Olivia adalah sebagai berikut
- 448 GPU
- 64.512 core CPU
- Sistem penyimpanan 5.3PB Cray ClusterStor E1000
- Lingkungan AI on-premise milik perpustakaan nasional menyiapkan data, sementara Olivia menangani eksekusi pelatihan
Kebutuhan penyimpanan yang berbeda
- Arsip preservasi dan penyimpanan pipeline AI memiliki kebutuhan yang berbeda
- Sistem preservasi 60PB dioptimalkan untuk durabilitas dan biaya, dan tidak dioptimalkan untuk I/O cepat
- Sistem preservasi dirancang dengan asumsi akses yang jarang sehingga memiliki latensi baca yang tinggi
- Penyimpanan pipeline AI dirancang untuk throughput tinggi, latensi rendah, dan I/O data paralel
- Tim harus mencari sendiri cara memindahkan dan memproses dataset skala PB dari arsip ke pipeline data AI
Tantangan yang masih diselesaikan
-
Evaluasi
- Tidak ada alat evaluasi standar untuk menilai LLM bahasa Norwegia berdaulat
- Bahasa Norwegia memiliki dua bentuk bahasa tulis, serta berbagai dialek dan perubahan historis
- Tim perpustakaan nasional sedang membangun alat evaluasinya sendiri
-
Tata kelola
- Perlu ditentukan siapa yang akan mengendalikan hak akses ke LLM berdaulat
- Menentukan siapa yang akan memutuskan untuk apa LLM berdaulat boleh digunakan juga merupakan tantangan
- Ini adalah pertanyaan kelembagaan dan politik, dan tidak memiliki jawaban mudah
-
Orkestrasi
- Pekerjaan untuk membuat tiga sistem—arsip preservasi, lingkungan AI on-premise, dan superkomputer nasional Sigma2—berjalan mulus bersama masih terus berlangsung
Makna dan kesimpulan
- Penyimpanan Huawei memainkan peran penting dan nyata di pasar Eropa
- Negara yang ingin mengembangkan LLM bahasa daerah berdaulat dapat memperoleh manfaat dengan berdiskusi dengan Husnes dan memahami pekerjaan yang diperlukan
- Norwegia digambarkan sebagai negara kecil yang menangani masalah yang akan dihadapi semua negara non-Inggris
- Pertanyaan intinya adalah bagaimana membangun AI yang mencerminkan bahasa, budaya, dan sejarah negaranya sendiri
- AI tidak hanya memerlukan pembangun, tetapi juga pengelola dan penjaga arsip
1 komentar
Komentar Hacker News
Sebagai orang Norwegia, saya memakai Perpustakaan Nasional hampir setiap hari untuk pencarian teks
Antarmuka pengguna dan fitur untuk menelusuri teks dalam jumlah besar benar-benar kelas atas
Banyak di antaranya hanya bisa diakses dari IP Norwegia, jadi salah satu alasan utama saya tetap berlangganan VPN meski tinggal di Inggris adalah karena saya orang Norwegia. Sebagian lainnya hanya bisa diakses dari IP perpustakaan atau lembaga riset, tetapi tetap saja jumlah materi yang terbuka untuk umum sangat banyak
Saya penasaran seberapa benar pernyataan ini: “Negara yang punya bahasa sendiri akan dirugikan jika tidak memiliki LLM berdaulat yang dilatih dalam bahasa tersebut. Sebab LLM berbahasa Inggris yang dilatih dari materi seluruh dunia tidak mengetahui sejarah, berita, dan budaya negara itu yang ditulis dalam bahasa lokal”
Saya kira para pemain besar sudah melatih model mereka dengan hampir semua materi yang dapat diakses, tanpa terlalu peduli bahasa atau kualitasnya, jadi pandangan ini terasa seperti gagasan yang terbentuk pada masa awal LLM umum
Saya tidak paham alasan menghabiskan biaya besar untuk melatih model sendiri, apalagi jika kemungkinan besar hasilnya akan kalah dari model terdepan
Karena genealogi, saya sering menemukan materi di sana lewat pencarian kata kunci biasa, dan baik mesin pencari maupun model bahasa tidak mengetahui hal-hal itu
Tentu saja informasi yang saya minati biasanya juga saya unggah di suatu tempat yang bisa di-scrape AI, tetapi butuh waktu sangat lama untuk benar-benar menggali semua materi menarik yang ada di sana
Semua model yang pernah saya ajak bicara dalam bahasa Swedia menanganinya dengan sempurna. Saya rasa besar kemungkinan hal yang sama juga sudah berlaku untuk bahasa Norwegia
Mungkin menarik juga jika eksperimen seperti https://arxiv.org/pdf/2507.22445 diterapkan
Dampaknya terhadap performa bisa nyaris tidak ada, atau kadang malah lebih baik. Hanya saja pola berbahasa Inggris bisa sedikit merembes ke pola yang lebih natural bagi penutur asli bahasa lain
Untuk bahasa berdaya rendah, ini masalah yang sama sekali berbeda, tetapi untuk memperbaikinya dibutuhkan lebih banyak data, bukan model baru
“Sistem Olivia adalah sistem HPE Cray Supercomputing EX dengan 448 GPU dan 64.512 inti CPU”
Ingin melatih LLM berdaulat dengan perangkat keras yang sekecil ini, alih-alih cukup menambahkan LoRA di atas model open source, terlihat seperti kesalahan besar sekaligus tanda bahaya
Mustahil sumber dayanya cukup untuk melatih LLM penuh, jadi mengklaim itulah targetnya terasa seperti tanda bahwa mereka memang tidak berniat membuat LLM ini benar-benar berguna. Kalau begitu, orang jadi bertanya uang siapa yang diboroskan dan untuk apa
Artinya, pengetahuan untuk membuat LLM diinternalisasi ke dalam organisasi itu sendiri
Secara nominal yang memimpin adalah perpustakaan nasional, tetapi menurut artikel, mereka tampaknya dipilih karena secara legal memiliki dan boleh memakai materi berbahasa Norwegia untuk tujuan ini. Peneliti dari institusi terkait seperti universitas kemungkinan juga akan ikut terlibat dalam prosesnya
Meski begitu, saya tidak melihatnya sebagai upaya menuju sesuatu yang benar-benar bernilai. Model fine-tuning itu sangat rusak, lebih mirip langkah membangun metodologi. Saya juga tidak yakin itu akan sangat berguna, tetapi bukan saya yang berhak menentukan orang lain boleh melakukan apa dengan dana riset
Salah satu model fine-tuning yang saya coba sering mengejek manusia yang mengekspresikan emosi dalam chat
Model fine-tuning lain, bahkan kalau saya hanya menulis “hei”, selalu berhalusinasi bahwa saya seorang dokter dan bayi saya mengidap penyakit mengerikan. Mungkin perilaku itu dipicu oleh system prompt yang biasa dan netral
Menurut saya, Olivia sudah cukup besar untuk kegunaan yang dituju. Untuk saat ini, lebih baik mengikuti arah perkembangan terbaru tanpa membuang terlalu banyak uang untuk perangkat keras
Korpus bahasa Norwegia mungkin tidak memerlukan klaster yang sangat besar, dan kalaupun perlu, ini barangkali yang terbaik yang bisa dilakukan perpustakaan. Dalam konteks investasi untuk model Norwegia, ini kemungkinan memang salah satu upaya terbesar
Model kelas atas mungkin tidak bisa mengakses kualitas konten yang dimiliki perpustakaan nasional. Artikel itu juga menyebut lisensi dengan perusahaan surat kabar, selain arsip perpustakaan itu sendiri
Bahasa Inggris dan Norwegia bukan keluarga bahasa yang berdekatan, jadi LoRA mungkin bukan pendekatan terbaik
Saya penasaran apakah ada riset publik tentang seberapa baik lokalisasi berbasis LoRA bekerja tergantung seberapa jauh tata bahasa dan kosakata bahasa sasaran dari bahasa Inggris
Proyek seperti ini biasanya tidak punya satu tujuan saja; bukan sekadar membuat model tercanggih, tetapi juga membangun dan melatih talenta lokal, seperti universitas yang meluncurkan satelit
Jika mereka membuat model embedding sendiri, mengindeks seluruh perpustakaan, lalu melatih model agar menjawab pertanyaan sejarah, budaya, hukum, dan strategi dari sudut pandang negara mereka sambil mengambil data tersebut, hasilnya bisa cukup menarik dan berguna
Mereka mungkin tidak akan mengalahkan Anthropic dalam menghasilkan kode React, tetapi tidak ada alasan juga untuk menyalin itu
Mereka sudah bereksperimen dengan fine-tuning maupun pelatihan dari nol menggunakan beberapa model di bawah 10 miliar parameter, dan terakhir kali saya cek, model yang dilatih dari nol menangkap bahasanya dengan lebih baik
Saya merasa akan lebih baik jika Norwegia, sebagai pengganti atau berjalan paralel, membuat dataset pelatihan dan membagikannya gratis kepada semua pembuat model
Itu tampak seperti cara yang lebih baik, atau setidaknya tambahan, untuk mencapai tujuan membuat model-model terdepan memahami bahasa Norwegia dan budayanya
Misalnya, saya meminta Claude menjelaskan novel tahun 1911 “De knyttede næver” dengan ejaan bahasa Norwegia sekitar tahun 1911, dan hasilnya bagus
Yang kurang adalah pemahaman tentang sastra, budaya, dan sejarah Norwegia. “De knyttede næver” adalah salah satu novel Norwegia yang tergolong bestseller pada masa terbitnya, tetapi Claude baru bisa memberi sesuatu setelah mencarinya terlebih dahulu. ChatGPT lebih baik, terutama dalam mode berpikir, karena memberikan ringkasan yang rinci
Karya itu memang tidak luas dikenal saat ini, tetapi penulisnya adalah jurnalis surat kabar ternama selama beberapa dekade, dan seri ini cukup dikenal sampai ada penyanyi Norwegia yang mengambil nama panggung dari nama tokoh utamanya. Karena pandangan politik sang penulis dan pengaruhnya terhadap novel tersebut, karya ini juga dibahas selama beberapa dekade di surat kabar dan buku-buku Norwegia, jadi ini terasa sebagai uji yang cukup masuk akal dan mengungkap celah pengetahuan yang cukup besar
Saya setuju bahwa akan lebih baik jika dataset perpustakaan nasional dibuat lebih mudah diakses. Hanya saja, unsur tambahan besar di sini tampaknya adalah mereka membuat perjanjian yang memungkinkan pelatihan menggunakan materi berhak cipta yang terikat di arsip dan penggunaannya dibatasi
Meski begitu, membuka hanya data dari koleksi mereka yang hak ciptanya sudah kedaluwarsa pun akan menjadi titik awal yang sangat baik
Jauh lebih baik mempertahankan kesepakatan hukum dengan lembaga negara dan mengembangkan sesuatu yang benar-benar berguna bagi negaranya sendiri
Melihat bagian ketika Marius Husnes berkata bahwa “penyedia LLM komersial tidak mengembangkan LLM Norwegia lokal, dan negara yang tidak memiliki LLM berdaulat yang dilatih dalam bahasanya sendiri akan dirugikan”, saya tidak terlalu yakin bahwa dia benar-benar paham apa yang dia bicarakan di sini
Salah satu alasan LLM yang berorientasi bahasa Inggris lebih kuat dalam bahasa Inggris adalah karena ruang token dialokasikan lebih ringkas untuk bahasa Inggris. Jika Anda memasukkan kata-kata umum bahasa Inggris dan Norwegia ke tokenizer online yang memanggil API Anthropic, bahasa Inggris biasanya menjadi satu token atau kurang, sementara bahasa Norwegia sering menjadi 2–4 token, kadang lebih. Bahasa seperti Thai sangat dirugikan
Pemilihan korpus juga sering sangat condong ke bahasa target. Ini karena mendapatkan karya dalam bahasa tersebut memerlukan lebih banyak usaha
Karena pengaruh timbal balik dari embedding yang secara semantik mirip antarbahasa, ruang vektor juga menghasilkan baseline budaya dan bias makna yang berbeda. Terakhir, fine-tuning sangat memengaruhi ekspresi budaya sebuah LLM. Efek-efek ini tidak sepele
Ada banyak upaya untuk membangun model bahasa bagi bahasa yang sedang menghilang dan dengan model lintas budaya, tetapi untuk bahasa dengan fondasi literasi yang kuat, ada alasan yang cukup untuk membuat LLM warisan yang dikhususkan bagi bahasa dan budayanya sendiri. Mengharapkan OpenAI atau Anthropic memprioritaskan bahasa Anda di atas pelanggan target mereka ketika harus memilih adalah hal yang tidak masuk akal
Bahasa ibu, gaya, dan sikapnya terasa Amerika
Sama seperti kita tidak bisa bergantung pada Netflix dan HBO, meskipun sekarang mereka membuat acara TV Skandinavia, kita juga harus membuat milik kita sendiri di ranah ini
Seiring waktu, teknologi yang memungkinkan hal ini akan menjadi lebih murah dan lebih mudah diperoleh
Bukan hanya lebih baik dalam mempertahankan ekspresi yang terasa benar-benar Polandia, tetapi juga lebih baik dalam menyusun dokumen pemerintah. Mengapa lebih baik? Karena sudah dilakukan evaluasi arena, dan hasilnya secara statistik lebih baik
Pernyataannya tegas, tetapi tampaknya tidak ada dasar. Mengapa hanya memiliki LLM bahasa Inggris tidak dianggap merugikan?
Apakah model-model saat ini bisa menangkap nuansa sejarah dan budaya Norwegia?
Bahasa Wales juga sedang mendapatkan pelatihan LLM dengan Nemotron
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
Ini mungkin bukan cara yang paling efisien, tetapi untuk bahasa dengan aksara non-Latin tampaknya masih ada kasus penggunaan yang jelas untuk membangun dari nol
Lihat saja sarvam.ai dan contoh peningkatan tokenisasi bahasa lokal [1]. Tidak semua LLM harus membantu coding, dan juga tidak semuanya harus sudah menjadi Babelfish
Bahasa adalah budaya, jadi saya paham motivasi mereka. Mampu melakukannya sendiri tampaknya adalah hal yang baik
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
T-Bank dari Rusia mengganti tokenizer Qwen dasar untuk memasukkan 5x lebih banyak token Kiril, lalu melakukan pelatihan lanjutan dengan korpus bahasa Rusia, dan mereka bisa meningkatkan kecepatan generasi 1.5–3x
Ini adalah deployment storage yang sangat besar
Mengingat kebutuhan I/O pelatihan LLM, terutama checkpointing, masuk akal untuk beralih ke NVMe flash pada skala ini dibanding array disk tradisional
“Norwegia adalah negara kecil yang mencoba menyelesaikan masalah yang akan dihadapi semua negara non-Inggris. Bagaimana cara membuat AI yang mencerminkan bahasa, budaya, dan sejarahnya sendiri? AI membutuhkan bukan hanya pembuat, tetapi juga pengelola”
Sayangnya, menurut saya jawabannya pada umumnya lebih dekat ke “tidak bisa”
Untuk hal seperti ini dibutuhkan kemauan politik yang kuat, dan setidaknya di sekitar saya, menyelaraskan itu tampak nyaris mustahil
Biayanya juga sulit ditanggung, tetapi lebih dari itu, orang-orang yang peduli pada keterwakilan lokal seperti ini biasanya sepenuhnya baik-baik saja jika perusahaan asing yang mewujudkannya, atau sejak awal justru menentang AI itu sendiri. Kalau mau, orang juga bisa memakai ChatGPT dalam bahasa Basque
Negara itu kecil tetapi sangat kaya, dan saat ini melalui investasi dana kekayaan negara mereka memiliki kepemilikan saham yang setara dengan 1,5% dari seluruh perusahaan tercatat di dunia
Dan model seperti itu kemungkinan besar akan jauh lebih unggul daripada apa pun yang bisa dibuat di dalam negeri
Tentu saja, sambil mengatakan ini saya juga bisa merasakan banyak orang bergidik di seberang layar