Panduan pembajakan Harry Potter dari Microsoft untuk pelatihan LLM (2024) [Dihapus]

(devblogs.microsoft.com)

1 poin oleh GN⁺ 2026-02-20 | 1 komentar | Bagikan ke WhatsApp

Tulisan yang menunjukkan proses implementasi aplikasi RAG berbasis SQL menggunakan dataset Harry Potter yang diunggah secara ilegal ke Kaggle, tetapi kini sudah dihapus
Azure SQL dan Microsoft Fabric SQL DB mendukung pencarian vektor native, dan manajemen Vector Store dimungkinkan dengan langchain-sqlserver
Alur disusun mulai dari memuat Azure Blob Storage, melakukan text chunking, membuat embedding Azure OpenAI, lalu menyimpan vektor ke SQL
Membangun sistem Q&A yang akurat dengan memanfaatkan pencarian kemiripan vektor dan filter metadata
Diperluas lebih jauh dengan fitur pembuatan fan fiction berbasis GPT4o menggunakan vector store yang sama
Tautan Archive.is

Dukungan vektor native Azure SQL dan integrasi LangChain

Azure SQL dan Microsoft Fabric SQL DB menyediakan fitur pencarian vektor native dalam public preview
Dengan dirilisnya paket langchain-sqlserver, SQL Server dapat dikelola sebagai LangChain Vector Store
- Instalasi dan contoh kode tersedia melalui repositori PyPI dan GitHub
Dengan menggabungkan Azure SQL DB, LangChain, dan LLM, fitur AI generatif dapat ditambahkan hanya dengan beberapa baris kode

Konfigurasi dataset contoh

Menggunakan dataset teks 7 buku Harry Potter yang disediakan di Kaggle
- Termasuk 7 file .txt
- Dalam demo, hanya buku pertama Harry Potter and the Sorcerer’s Stone yang digunakan
Menggunakan dataset yang familier secara luas untuk membuat contoh yang mudah dipahami

Tahapan membangun aplikasi sampel

1. Instal paket langchain-sqlserver

Instal paket integrasi dengan perintah pip install langchain-sqlserver==0.1.1
Mengaktifkan fitur vector store berbasis SQL

2. Muat data Azure Blob Storage dan lakukan chunking

Simpan lalu muat file teks Harry Potter di Azure Blob Storage
Memanfaatkan fitur integrasi AzureBlobStorage dari LangChain
Membagi teks panjang menjadi chunk kecil dengan langchain-text-splitter
- Untuk menyesuaikan batas token input embedding Azure OpenAI

3. Definisikan embedding dan Chat Completion

Menggunakan Azure OpenAI untuk membuat embedding teks bagi tiap chunk
Dapat diganti dengan berbagai model embedding lain yang disediakan LangChain
Menyiapkan pemrosesan tanya-jawab melalui konfigurasi Chat Completion

4. Inisialisasi Vector Store dan masukkan dokumen

Inisialisasi Vector Store bersama embedding AzureOpenAI
Menyimpan dokumen dan embedding ke Azure SQL dengan fungsi add_documents
Pembuatan dan penyimpanan vektor dapat dilakukan dengan sedikit kode

5. Lakukan pencarian kemiripan

Menjalankan pencarian kemiripan vektor dengan fungsi similarity_search_with_score
Mendukung filter metadata
- Memungkinkan pembatasan cakupan pencarian berdasarkan atribut metadata tertentu

Use Case 1: Membangun sistem Q&A

Mengimplementasikan sistem Q&A cerita berbasis SQL Vector Store dan LangChain
Mengambil 10 dokumen paling relevan untuk pertanyaan pengguna lalu menghasilkan jawaban
Membuat retriever berbasis vector_store
Menyusun rantai tanya-jawab dengan create_stuff_documents_chain
Mendefinisikan format respons terstruktur dengan ChatPromptTemplate
Saat menggunakan create_retrieval_chain, dokumen yang diambil juga dikembalikan dengan key "context"
- Mendukung fitur penampilan sumber yang digunakan dalam pembuatan jawaban

Use Case 2: Membuat fan fiction Harry Potter

Mengimplementasikan fitur pembuatan fan fiction AI baru berbasis vector store
Saat pengguna memasukkan prompt, paragraf terkait akan dicari
- Menelusuri kemiripan konteks berdasarkan embedding yang disimpan di SQL vector store
Paragraf yang ditemukan dirapikan menjadi satu string untuk membentuk konteks input model
Konteks dan prompt pengguna dikirim bersama ke model GPT4o
- Menghasilkan cerita baru yang mencerminkan elemen konteks yang ada
Menampilkan hasil generasi beserta informasi sumber vektor yang dirujuk

Skenario pemanfaatan terintegrasi

Dengan menggabungkan sistem Q&A dan fitur pembuatan fan fiction, dapat diberikan pengalaman membaca interaktif
- Gunakan Q&A jika perlu memahami isi buku
- Dapat memperluas adegan tertentu atau membuat akhir alternatif

Contoh kode dan sumber daya

Tersedia repositori GitHub notebook LangChain-SQL-RAG
- https://github.com/Azure-Samples/azure-sql-db-vector-search
Permintaan perbaikan fitur dapat diajukan melalui portal umpan balik Azure SQL dan SQL Server

1 komentar

GN⁺ 2026-02-20

Komentar Hacker News

Insiden Microsoft kali ini tampaknya menunjukkan keruntuhan proses yang lebih mendasar daripada sekadar masalah hak cipta
Jika bahkan dokumen tidak ditinjau, muncul pertanyaan seberapa besar kemungkinan kode baru juga benar-benar direview dengan baik
Rasanya ingin bertanya kepada manajemen — dari tiga pilar keamanan, kualitas, dan inovasi AI, sebenarnya mana yang akan dipilih
(Scott Hanselman, saya suka Anda, tetapi jangan jawab ini sendiri dan tolong benar-benar sampaikan ke jajaran pimpinan)
- Saya pernah lama bekerja di Microsoft sambil mengelola blog
  Saat itu saya bisa memublikasikan tulisan pribadi tanpa proses persetujuan, dan karena itu blog terasa sebagai ruang yang lebih alami dan tulus
  Insiden ini tampaknya hanya akibat penilaian buruk seseorang, dan wajar kalau tulisannya diturunkan
  Namun yang lebih penting adalah apakah tim tempat penulis itu berada memang membenarkan pelanggaran hak cipta untuk pelatihan AI
  Sepertinya masalah ini akan diperiksa bukan hanya oleh pengacara internal, tetapi juga dari luar
- Tidak bisa langsung disimpulkan bahwa peninjauan dokumen lebih tidak penting daripada code review
  Kode punya potensi menimbulkan masalah serius akibat bug sehingga ada prosedur review formal,
  sedangkan dokumen tidak langsung memengaruhi perilaku perangkat lunak sehingga tingkat ketatnya memang berbeda
  Fakta bahwa dokumen tidak ditinjau bukan berarti kode juga tidak ditinjau
- Memang benar ini menunjukkan adanya masalah di suatu bagian organisasi, tetapi terlalu jauh jika digeneralisasi ke seluruh codebase
  Dalam organisasi besar, tingkat verifikasi diterapkan berbeda-beda di tiap divisi, dan kontrol terhadap kode jauh lebih ketat daripada dokumen
- Sejak dulu saya mendapat kesan bahwa blog developer Microsoft kebanyakan dikelola atas inisiatif masing-masing developer
- Saya juga pernah melihat tulisan di devblogs dengan kualitas serupa
  Isinya nyaris menyalin jawaban Stack Overflow mentah-mentah, dan saat menemukannya ketika mencari pesan error
  alih-alih marah, saya justru hanya merasa kecewa
Tulisan blog Microsoft itu menautkan ke halaman dataset Harry Potter di Kaggle
Halaman itu mengklaim CC0, yaitu domain publik, tetapi jelas berpotensi bermasalah dari sisi hak cipta
Selain itu, tulisan tersebut sudah terbit sejak November 2024, dan mengejutkan karena sampai sekarang belum juga diturunkan
- Saya cek langsung halaman Kaggle-nya, ternyata sudah begitu selama 2 tahun
  Ketika mencoba melaporkannya lewat fitur “Report Dataset”, saya diarahkan ke halaman pelaporan hak cipta Google
  Namun saya ditolak dengan pesan bahwa “Anda bukan pemegang hak cipta atau wakilnya”
  Benar-benar situasi yang terasa seperti komedi. Dataset itu jelas hasil pencurian
- Hanya karena menautkan, belum tentu Microsoft langsung memikul tanggung jawab
  Bisa jadi justru pihak yang paling bertanggung jawab adalah orang yang mengunggahnya dengan lisensi yang salah
  Namun begitu melihat nama “Harry Potter”, siapa pun tahu ini bukan domain publik,
  jadi secara akal sehat Microsoft juga sulit lepas dari tanggung jawab
Microsoft akhirnya menurunkan halaman tersebut
Tetapi salinan yang disimpan di archive.is masih ada
- Namun tulisan itu dipublikasikan pada 2024, jadi tampaknya seseorang melihat thread ini lalu mengambil tindakan
- Saya penasaran apakah tulisan ini juga ikut diturunkan
  Judulnya contoh membuat aplikasi RAG dalam 5 menit dengan Azure dan GPT
- Ini jelas merupakan bukti pelanggaran hak cipta. Jika Rowling mau, rasanya ia bisa mengajukan gugatan
- Ada kontroversi bahwa archive.is menyalahgunakan browser pengguna untuk DDoS lewat CAPTCHA
  Masih mengecewakan bahwa situs itu tetap dipakai
- Di sisi saya, halaman itu masih terlihat seperti biasa
Thumbnail buatan AI di blog itu (tautan gambar)
menampilkan Harry muda dan temannya di depan logo Microsoft. Benar-benar mengejutkan
- AI selalu punya bug menggambar kereta dengan aneh
  Mungkin kalau framenya lebih lebar, sambungan antargerbongnya malah tidak akan ada
Saya memang tidak suka Microsoft, tetapi menyebut insiden ini sebagai “panduan pembajakan” terasa berlebihan
Ini hanyalah contoh untuk riset, bukan integrasi produk
Reaksi berlebihan seputar monopoli hak cipta dan fair use juga terasa memalukan
- Meski begitu, kapitalisasi pasar Microsoft hampir 3 triliun dolar AS
  Bahkan untuk riset pun mereka jelas mampu membayar kompensasi yang layak atas teks yang digunakan
- Sebenarnya ini bukan masalah Microsoft saja
  Sebagian besar perusahaan LLM komersial melakukan hal serupa
- Judulnya bukan berlebihan; memang benar itu tulisan yang mengarahkan pembaca mengunduh dan memakai materi ilegal
  Artinya sebuah perusahaan memberi panduan tindakan yang ilegal bagi orang biasa melalui blog resminya
  Ada juga kasus Anthropic yang menyelesaikan perkara pelanggaran hak cipta senilai 1,5 miliar dolar AS
  Saya juga tidak suka rezim hak cipta yang sekarang, tetapi standar yang berbeda untuk perusahaan dan individu tidak bisa diterima
Ini bukan panduan pembajakan, melainkan sekadar tulisan yang menjelaskan cara memasukkan dataset ke SQL
Justru pihak Kaggle atau pengunggahnya, Shubham Maindola, yang lebih layak dimintai tanggung jawab
Penjelasan sumber datanya yang berbunyi “e-book Harry Potter dikonversi ke txt” terasa sangat menyeramkan
Namun tetap saja mengejutkan bahwa skor Kaggle-nya 10.0
- Bahkan kata pertama teksnya saja sudah salah ketik — “M r.”...
Tulisan ini diunggah pada 2024 dan datanya masih di-host oleh Kaggle
Jadi muncul pertanyaan mengapa pihak Rowling belum mengambil tindakan apa pun
- Mungkin karena memang luput dari perhatian
  Jumlah unduhan di Kaggle sekitar 10 ribu sehingga mungkin belum cukup menarik perhatian
  Namun ini jelas sudah melewati batas
  Dulu juga pernah ada kasus plagiarisme terkait AI di Microsoft,
  dan saat itu pun ada kritik bahwa proses peninjauan internal nyaris tidak ada
  Thread terkait: “Microsoft morged my diagram”
- Saya sudah menghubungi Rowling langsung lewat Twitter, dan tim hukumnya juga sudah saya beri tahu
- Dulu text mining untuk riset akademik memang ilegal, tetapi sering dibiarkan
  Namun sekarang situasinya benar-benar berbeda karena model komersial sudah muncul
  Dataset seperti Books3, yang memuat ratusan ribu buku berhak cipta, juga pernah dipublikasikan
Halamannya memang sudah dihapus, tetapi salinan di web archive masih ada
Mengkhawatirkan bahwa orang-orang yang kurang punya kesadaran etis justru membuat teknologi masa depan
- Yang lebih mengkhawatirkan, mereka tampaknya bahkan tidak sadar bahwa memublikasikan tulisan seperti ini adalah masalah
  Jika orang-orang yang lolos proses rekrutmen seketat itu membuat penilaian seperti ini,
  jadi bertanya-tanya seberapa berbahaya keputusan yang benar-benar penting nantinya
- Tentu pelanggaran hak cipta mungkin terlihat kecil dibanding tindakan tidak etis lain yang dilakukan perusahaan besar
  Tetapi itu tetap tidak bisa menjadi alasan pembenar
Rasanya sekarang hak kekayaan intelektual sudah menjadi tidak bermakna
Maka muncul guyonan menawarkan startup novel yang “membuat AI mencetak ulang Harry Potter apa adanya” kepada calon investor
- Ada yang menjawab bercanda, “kalau itu proses membuat budak robot, saya akan investasi”
- Mungkin justru lebih menarik membuat generator fanfic tanpa batas dengan AI
  Sampai sekarang, hal yang paling konsisten bisa dilakukan AI dengan baik adalah humor
- Ada juga ide startup AI yang bisa berkembang tanpa batas, dengan mengubah “Bee Movie” ke gaya Ghibli, mengubah audio menjadi teks, lalu memutarnya lagi lewat TTS
- Bahkan muncul lelucon tentang membuat sistem operasi baru bernama “Vindows”
  sebagai satire bahwa kemiripannya dengan produk yang ada itu “murni kebetulan”
- Tentu saja hal seperti ini hanya hak istimewa yang diberikan kepada para miliarder
  Kalau orang biasa melakukannya, mereka tetap bisa kehilangan segalanya dan masuk penjara
Melihat arah langkah Microsoft saat ini, insiden seperti ini sama sekali tidak mengejutkan
Kesan yang muncul adalah bahwa pada Microsoft tahun 2026, undang-undang hak cipta dan kekayaan intelektual seolah tak lagi berlaku

Panduan pembajakan Harry Potter dari Microsoft untuk pelatihan LLM (2024) [Dihapus]

Dukungan vektor native Azure SQL dan integrasi LangChain

Konfigurasi dataset contoh

Tahapan membangun aplikasi sampel

1. Instal paket langchain-sqlserver

2. Muat data Azure Blob Storage dan lakukan chunking

3. Definisikan embedding dan Chat Completion

4. Inisialisasi Vector Store dan masukkan dokumen

5. Lakukan pencarian kemiripan

Use Case 1: Membangun sistem Q&A

Use Case 2: Membuat fan fiction Harry Potter

Skenario pemanfaatan terintegrasi

Contoh kode dan sumber daya

Bacaan terkait

1 komentar

Komentar Hacker News