- Tulisan yang menunjukkan proses implementasi aplikasi RAG berbasis SQL menggunakan dataset Harry Potter yang diunggah secara ilegal ke Kaggle, tetapi kini sudah dihapus
- Azure SQL dan Microsoft Fabric SQL DB mendukung pencarian vektor native, dan manajemen Vector Store dimungkinkan dengan
langchain-sqlserver
- Alur disusun mulai dari memuat Azure Blob Storage, melakukan text chunking, membuat embedding Azure OpenAI, lalu menyimpan vektor ke SQL
- Membangun sistem Q&A yang akurat dengan memanfaatkan pencarian kemiripan vektor dan filter metadata
- Diperluas lebih jauh dengan fitur pembuatan fan fiction berbasis GPT4o menggunakan vector store yang sama
- Tautan Archive.is
Dukungan vektor native Azure SQL dan integrasi LangChain
- Azure SQL dan Microsoft Fabric SQL DB menyediakan fitur pencarian vektor native dalam public preview
- Dengan dirilisnya paket
langchain-sqlserver, SQL Server dapat dikelola sebagai LangChain Vector Store
- Instalasi dan contoh kode tersedia melalui repositori PyPI dan GitHub
- Dengan menggabungkan Azure SQL DB, LangChain, dan LLM, fitur AI generatif dapat ditambahkan hanya dengan beberapa baris kode
Konfigurasi dataset contoh
- Menggunakan dataset teks 7 buku Harry Potter yang disediakan di Kaggle
- Termasuk 7 file
.txt
- Dalam demo, hanya buku pertama Harry Potter and the Sorcerer’s Stone yang digunakan
- Menggunakan dataset yang familier secara luas untuk membuat contoh yang mudah dipahami
Tahapan membangun aplikasi sampel
1. Instal paket langchain-sqlserver
- Instal paket integrasi dengan perintah
pip install langchain-sqlserver==0.1.1
- Mengaktifkan fitur vector store berbasis SQL
2. Muat data Azure Blob Storage dan lakukan chunking
- Simpan lalu muat file teks Harry Potter di Azure Blob Storage
- Memanfaatkan fitur integrasi AzureBlobStorage dari LangChain
- Membagi teks panjang menjadi chunk kecil dengan
langchain-text-splitter
- Untuk menyesuaikan batas token input embedding Azure OpenAI
3. Definisikan embedding dan Chat Completion
- Menggunakan Azure OpenAI untuk membuat embedding teks bagi tiap chunk
- Dapat diganti dengan berbagai model embedding lain yang disediakan LangChain
- Menyiapkan pemrosesan tanya-jawab melalui konfigurasi Chat Completion
4. Inisialisasi Vector Store dan masukkan dokumen
- Inisialisasi Vector Store bersama embedding AzureOpenAI
- Menyimpan dokumen dan embedding ke Azure SQL dengan fungsi
add_documents
- Pembuatan dan penyimpanan vektor dapat dilakukan dengan sedikit kode
5. Lakukan pencarian kemiripan
- Menjalankan pencarian kemiripan vektor dengan fungsi
similarity_search_with_score
- Mendukung filter metadata
- Memungkinkan pembatasan cakupan pencarian berdasarkan atribut metadata tertentu
Use Case 1: Membangun sistem Q&A
- Mengimplementasikan sistem Q&A cerita berbasis SQL Vector Store dan LangChain
- Mengambil 10 dokumen paling relevan untuk pertanyaan pengguna lalu menghasilkan jawaban
- Membuat retriever berbasis
vector_store
- Menyusun rantai tanya-jawab dengan
create_stuff_documents_chain
- Mendefinisikan format respons terstruktur dengan
ChatPromptTemplate
- Saat menggunakan
create_retrieval_chain, dokumen yang diambil juga dikembalikan dengan key "context"
- Mendukung fitur penampilan sumber yang digunakan dalam pembuatan jawaban
Use Case 2: Membuat fan fiction Harry Potter
- Mengimplementasikan fitur pembuatan fan fiction AI baru berbasis vector store
- Saat pengguna memasukkan prompt, paragraf terkait akan dicari
- Menelusuri kemiripan konteks berdasarkan embedding yang disimpan di SQL vector store
- Paragraf yang ditemukan dirapikan menjadi satu string untuk membentuk konteks input model
- Konteks dan prompt pengguna dikirim bersama ke model GPT4o
- Menghasilkan cerita baru yang mencerminkan elemen konteks yang ada
- Menampilkan hasil generasi beserta informasi sumber vektor yang dirujuk
Skenario pemanfaatan terintegrasi
- Dengan menggabungkan sistem Q&A dan fitur pembuatan fan fiction, dapat diberikan pengalaman membaca interaktif
- Gunakan Q&A jika perlu memahami isi buku
- Dapat memperluas adegan tertentu atau membuat akhir alternatif
Contoh kode dan sumber daya
- Tersedia repositori GitHub notebook LangChain-SQL-RAG
- Permintaan perbaikan fitur dapat diajukan melalui portal umpan balik Azure SQL dan SQL Server
1 komentar
Komentar Hacker News
Insiden Microsoft kali ini tampaknya menunjukkan keruntuhan proses yang lebih mendasar daripada sekadar masalah hak cipta
Jika bahkan dokumen tidak ditinjau, muncul pertanyaan seberapa besar kemungkinan kode baru juga benar-benar direview dengan baik
Rasanya ingin bertanya kepada manajemen — dari tiga pilar keamanan, kualitas, dan inovasi AI, sebenarnya mana yang akan dipilih
(Scott Hanselman, saya suka Anda, tetapi jangan jawab ini sendiri dan tolong benar-benar sampaikan ke jajaran pimpinan)
Saat itu saya bisa memublikasikan tulisan pribadi tanpa proses persetujuan, dan karena itu blog terasa sebagai ruang yang lebih alami dan tulus
Insiden ini tampaknya hanya akibat penilaian buruk seseorang, dan wajar kalau tulisannya diturunkan
Namun yang lebih penting adalah apakah tim tempat penulis itu berada memang membenarkan pelanggaran hak cipta untuk pelatihan AI
Sepertinya masalah ini akan diperiksa bukan hanya oleh pengacara internal, tetapi juga dari luar
Kode punya potensi menimbulkan masalah serius akibat bug sehingga ada prosedur review formal,
sedangkan dokumen tidak langsung memengaruhi perilaku perangkat lunak sehingga tingkat ketatnya memang berbeda
Fakta bahwa dokumen tidak ditinjau bukan berarti kode juga tidak ditinjau
Dalam organisasi besar, tingkat verifikasi diterapkan berbeda-beda di tiap divisi, dan kontrol terhadap kode jauh lebih ketat daripada dokumen
Isinya nyaris menyalin jawaban Stack Overflow mentah-mentah, dan saat menemukannya ketika mencari pesan error
alih-alih marah, saya justru hanya merasa kecewa
Tulisan blog Microsoft itu menautkan ke halaman dataset Harry Potter di Kaggle
Halaman itu mengklaim CC0, yaitu domain publik, tetapi jelas berpotensi bermasalah dari sisi hak cipta
Selain itu, tulisan tersebut sudah terbit sejak November 2024, dan mengejutkan karena sampai sekarang belum juga diturunkan
Ketika mencoba melaporkannya lewat fitur “Report Dataset”, saya diarahkan ke halaman pelaporan hak cipta Google
Namun saya ditolak dengan pesan bahwa “Anda bukan pemegang hak cipta atau wakilnya”
Benar-benar situasi yang terasa seperti komedi. Dataset itu jelas hasil pencurian
Bisa jadi justru pihak yang paling bertanggung jawab adalah orang yang mengunggahnya dengan lisensi yang salah
Namun begitu melihat nama “Harry Potter”, siapa pun tahu ini bukan domain publik,
jadi secara akal sehat Microsoft juga sulit lepas dari tanggung jawab
Microsoft akhirnya menurunkan halaman tersebut
Tetapi salinan yang disimpan di archive.is masih ada
Judulnya contoh membuat aplikasi RAG dalam 5 menit dengan Azure dan GPT
Masih mengecewakan bahwa situs itu tetap dipakai
Thumbnail buatan AI di blog itu (tautan gambar)
menampilkan Harry muda dan temannya di depan logo Microsoft. Benar-benar mengejutkan
Mungkin kalau framenya lebih lebar, sambungan antargerbongnya malah tidak akan ada
Saya memang tidak suka Microsoft, tetapi menyebut insiden ini sebagai “panduan pembajakan” terasa berlebihan
Ini hanyalah contoh untuk riset, bukan integrasi produk
Reaksi berlebihan seputar monopoli hak cipta dan fair use juga terasa memalukan
Bahkan untuk riset pun mereka jelas mampu membayar kompensasi yang layak atas teks yang digunakan
Sebagian besar perusahaan LLM komersial melakukan hal serupa
Artinya sebuah perusahaan memberi panduan tindakan yang ilegal bagi orang biasa melalui blog resminya
Ada juga kasus Anthropic yang menyelesaikan perkara pelanggaran hak cipta senilai 1,5 miliar dolar AS
Saya juga tidak suka rezim hak cipta yang sekarang, tetapi standar yang berbeda untuk perusahaan dan individu tidak bisa diterima
Ini bukan panduan pembajakan, melainkan sekadar tulisan yang menjelaskan cara memasukkan dataset ke SQL
Justru pihak Kaggle atau pengunggahnya, Shubham Maindola, yang lebih layak dimintai tanggung jawab
Penjelasan sumber datanya yang berbunyi “e-book Harry Potter dikonversi ke txt” terasa sangat menyeramkan
Namun tetap saja mengejutkan bahwa skor Kaggle-nya 10.0
Tulisan ini diunggah pada 2024 dan datanya masih di-host oleh Kaggle
Jadi muncul pertanyaan mengapa pihak Rowling belum mengambil tindakan apa pun
Jumlah unduhan di Kaggle sekitar 10 ribu sehingga mungkin belum cukup menarik perhatian
Namun ini jelas sudah melewati batas
Dulu juga pernah ada kasus plagiarisme terkait AI di Microsoft,
dan saat itu pun ada kritik bahwa proses peninjauan internal nyaris tidak ada
Thread terkait: “Microsoft morged my diagram”
Namun sekarang situasinya benar-benar berbeda karena model komersial sudah muncul
Dataset seperti Books3, yang memuat ratusan ribu buku berhak cipta, juga pernah dipublikasikan
Halamannya memang sudah dihapus, tetapi salinan di web archive masih ada
Mengkhawatirkan bahwa orang-orang yang kurang punya kesadaran etis justru membuat teknologi masa depan
Jika orang-orang yang lolos proses rekrutmen seketat itu membuat penilaian seperti ini,
jadi bertanya-tanya seberapa berbahaya keputusan yang benar-benar penting nantinya
Tetapi itu tetap tidak bisa menjadi alasan pembenar
Rasanya sekarang hak kekayaan intelektual sudah menjadi tidak bermakna
Maka muncul guyonan menawarkan startup novel yang “membuat AI mencetak ulang Harry Potter apa adanya” kepada calon investor
Sampai sekarang, hal yang paling konsisten bisa dilakukan AI dengan baik adalah humor
sebagai satire bahwa kemiripannya dengan produk yang ada itu “murni kebetulan”
Kalau orang biasa melakukannya, mereka tetap bisa kehilangan segalanya dan masuk penjara
Melihat arah langkah Microsoft saat ini, insiden seperti ini sama sekali tidak mengejutkan
Kesan yang muncul adalah bahwa pada Microsoft tahun 2026, undang-undang hak cipta dan kekayaan intelektual seolah tak lagi berlaku