1 poin oleh GN⁺ 2026-02-20 | 1 komentar | Bagikan ke WhatsApp
  • Tulisan yang menunjukkan proses implementasi aplikasi RAG berbasis SQL menggunakan dataset Harry Potter yang diunggah secara ilegal ke Kaggle, tetapi kini sudah dihapus
  • Azure SQL dan Microsoft Fabric SQL DB mendukung pencarian vektor native, dan manajemen Vector Store dimungkinkan dengan langchain-sqlserver
  • Alur disusun mulai dari memuat Azure Blob Storage, melakukan text chunking, membuat embedding Azure OpenAI, lalu menyimpan vektor ke SQL
  • Membangun sistem Q&A yang akurat dengan memanfaatkan pencarian kemiripan vektor dan filter metadata
  • Diperluas lebih jauh dengan fitur pembuatan fan fiction berbasis GPT4o menggunakan vector store yang sama
  • Tautan Archive.is

Dukungan vektor native Azure SQL dan integrasi LangChain

  • Azure SQL dan Microsoft Fabric SQL DB menyediakan fitur pencarian vektor native dalam public preview
  • Dengan dirilisnya paket langchain-sqlserver, SQL Server dapat dikelola sebagai LangChain Vector Store
    • Instalasi dan contoh kode tersedia melalui repositori PyPI dan GitHub
  • Dengan menggabungkan Azure SQL DB, LangChain, dan LLM, fitur AI generatif dapat ditambahkan hanya dengan beberapa baris kode

Konfigurasi dataset contoh

  • Menggunakan dataset teks 7 buku Harry Potter yang disediakan di Kaggle
    • Termasuk 7 file .txt
    • Dalam demo, hanya buku pertama Harry Potter and the Sorcerer’s Stone yang digunakan
  • Menggunakan dataset yang familier secara luas untuk membuat contoh yang mudah dipahami

Tahapan membangun aplikasi sampel

1. Instal paket langchain-sqlserver

  • Instal paket integrasi dengan perintah pip install langchain-sqlserver==0.1.1
  • Mengaktifkan fitur vector store berbasis SQL

2. Muat data Azure Blob Storage dan lakukan chunking

  • Simpan lalu muat file teks Harry Potter di Azure Blob Storage
  • Memanfaatkan fitur integrasi AzureBlobStorage dari LangChain
  • Membagi teks panjang menjadi chunk kecil dengan langchain-text-splitter
    • Untuk menyesuaikan batas token input embedding Azure OpenAI

3. Definisikan embedding dan Chat Completion

  • Menggunakan Azure OpenAI untuk membuat embedding teks bagi tiap chunk
  • Dapat diganti dengan berbagai model embedding lain yang disediakan LangChain
  • Menyiapkan pemrosesan tanya-jawab melalui konfigurasi Chat Completion

4. Inisialisasi Vector Store dan masukkan dokumen

  • Inisialisasi Vector Store bersama embedding AzureOpenAI
  • Menyimpan dokumen dan embedding ke Azure SQL dengan fungsi add_documents
  • Pembuatan dan penyimpanan vektor dapat dilakukan dengan sedikit kode

5. Lakukan pencarian kemiripan

  • Menjalankan pencarian kemiripan vektor dengan fungsi similarity_search_with_score
  • Mendukung filter metadata
    • Memungkinkan pembatasan cakupan pencarian berdasarkan atribut metadata tertentu

Use Case 1: Membangun sistem Q&A

  • Mengimplementasikan sistem Q&A cerita berbasis SQL Vector Store dan LangChain
  • Mengambil 10 dokumen paling relevan untuk pertanyaan pengguna lalu menghasilkan jawaban
  • Membuat retriever berbasis vector_store
  • Menyusun rantai tanya-jawab dengan create_stuff_documents_chain
  • Mendefinisikan format respons terstruktur dengan ChatPromptTemplate
  • Saat menggunakan create_retrieval_chain, dokumen yang diambil juga dikembalikan dengan key "context"
    • Mendukung fitur penampilan sumber yang digunakan dalam pembuatan jawaban

Use Case 2: Membuat fan fiction Harry Potter

  • Mengimplementasikan fitur pembuatan fan fiction AI baru berbasis vector store
  • Saat pengguna memasukkan prompt, paragraf terkait akan dicari
    • Menelusuri kemiripan konteks berdasarkan embedding yang disimpan di SQL vector store
  • Paragraf yang ditemukan dirapikan menjadi satu string untuk membentuk konteks input model
  • Konteks dan prompt pengguna dikirim bersama ke model GPT4o
    • Menghasilkan cerita baru yang mencerminkan elemen konteks yang ada
  • Menampilkan hasil generasi beserta informasi sumber vektor yang dirujuk

Skenario pemanfaatan terintegrasi

  • Dengan menggabungkan sistem Q&A dan fitur pembuatan fan fiction, dapat diberikan pengalaman membaca interaktif
    • Gunakan Q&A jika perlu memahami isi buku
    • Dapat memperluas adegan tertentu atau membuat akhir alternatif

Contoh kode dan sumber daya

1 komentar

 
GN⁺ 2026-02-20
Komentar Hacker News
  • Insiden Microsoft kali ini tampaknya menunjukkan keruntuhan proses yang lebih mendasar daripada sekadar masalah hak cipta
    Jika bahkan dokumen tidak ditinjau, muncul pertanyaan seberapa besar kemungkinan kode baru juga benar-benar direview dengan baik
    Rasanya ingin bertanya kepada manajemen — dari tiga pilar keamanan, kualitas, dan inovasi AI, sebenarnya mana yang akan dipilih
    (Scott Hanselman, saya suka Anda, tetapi jangan jawab ini sendiri dan tolong benar-benar sampaikan ke jajaran pimpinan)

    • Saya pernah lama bekerja di Microsoft sambil mengelola blog
      Saat itu saya bisa memublikasikan tulisan pribadi tanpa proses persetujuan, dan karena itu blog terasa sebagai ruang yang lebih alami dan tulus
      Insiden ini tampaknya hanya akibat penilaian buruk seseorang, dan wajar kalau tulisannya diturunkan
      Namun yang lebih penting adalah apakah tim tempat penulis itu berada memang membenarkan pelanggaran hak cipta untuk pelatihan AI
      Sepertinya masalah ini akan diperiksa bukan hanya oleh pengacara internal, tetapi juga dari luar
    • Tidak bisa langsung disimpulkan bahwa peninjauan dokumen lebih tidak penting daripada code review
      Kode punya potensi menimbulkan masalah serius akibat bug sehingga ada prosedur review formal,
      sedangkan dokumen tidak langsung memengaruhi perilaku perangkat lunak sehingga tingkat ketatnya memang berbeda
      Fakta bahwa dokumen tidak ditinjau bukan berarti kode juga tidak ditinjau
    • Memang benar ini menunjukkan adanya masalah di suatu bagian organisasi, tetapi terlalu jauh jika digeneralisasi ke seluruh codebase
      Dalam organisasi besar, tingkat verifikasi diterapkan berbeda-beda di tiap divisi, dan kontrol terhadap kode jauh lebih ketat daripada dokumen
    • Sejak dulu saya mendapat kesan bahwa blog developer Microsoft kebanyakan dikelola atas inisiatif masing-masing developer
    • Saya juga pernah melihat tulisan di devblogs dengan kualitas serupa
      Isinya nyaris menyalin jawaban Stack Overflow mentah-mentah, dan saat menemukannya ketika mencari pesan error
      alih-alih marah, saya justru hanya merasa kecewa
  • Tulisan blog Microsoft itu menautkan ke halaman dataset Harry Potter di Kaggle
    Halaman itu mengklaim CC0, yaitu domain publik, tetapi jelas berpotensi bermasalah dari sisi hak cipta
    Selain itu, tulisan tersebut sudah terbit sejak November 2024, dan mengejutkan karena sampai sekarang belum juga diturunkan

    • Saya cek langsung halaman Kaggle-nya, ternyata sudah begitu selama 2 tahun
      Ketika mencoba melaporkannya lewat fitur “Report Dataset”, saya diarahkan ke halaman pelaporan hak cipta Google
      Namun saya ditolak dengan pesan bahwa “Anda bukan pemegang hak cipta atau wakilnya”
      Benar-benar situasi yang terasa seperti komedi. Dataset itu jelas hasil pencurian
    • Hanya karena menautkan, belum tentu Microsoft langsung memikul tanggung jawab
      Bisa jadi justru pihak yang paling bertanggung jawab adalah orang yang mengunggahnya dengan lisensi yang salah
      Namun begitu melihat nama “Harry Potter”, siapa pun tahu ini bukan domain publik,
      jadi secara akal sehat Microsoft juga sulit lepas dari tanggung jawab
  • Microsoft akhirnya menurunkan halaman tersebut
    Tetapi salinan yang disimpan di archive.is masih ada

    • Namun tulisan itu dipublikasikan pada 2024, jadi tampaknya seseorang melihat thread ini lalu mengambil tindakan
    • Saya penasaran apakah tulisan ini juga ikut diturunkan
      Judulnya contoh membuat aplikasi RAG dalam 5 menit dengan Azure dan GPT
    • Ini jelas merupakan bukti pelanggaran hak cipta. Jika Rowling mau, rasanya ia bisa mengajukan gugatan
    • Ada kontroversi bahwa archive.is menyalahgunakan browser pengguna untuk DDoS lewat CAPTCHA
      Masih mengecewakan bahwa situs itu tetap dipakai
    • Di sisi saya, halaman itu masih terlihat seperti biasa
  • Thumbnail buatan AI di blog itu (tautan gambar)
    menampilkan Harry muda dan temannya di depan logo Microsoft. Benar-benar mengejutkan

    • AI selalu punya bug menggambar kereta dengan aneh
      Mungkin kalau framenya lebih lebar, sambungan antargerbongnya malah tidak akan ada
  • Saya memang tidak suka Microsoft, tetapi menyebut insiden ini sebagai “panduan pembajakan” terasa berlebihan
    Ini hanyalah contoh untuk riset, bukan integrasi produk
    Reaksi berlebihan seputar monopoli hak cipta dan fair use juga terasa memalukan

    • Meski begitu, kapitalisasi pasar Microsoft hampir 3 triliun dolar AS
      Bahkan untuk riset pun mereka jelas mampu membayar kompensasi yang layak atas teks yang digunakan
    • Sebenarnya ini bukan masalah Microsoft saja
      Sebagian besar perusahaan LLM komersial melakukan hal serupa
    • Judulnya bukan berlebihan; memang benar itu tulisan yang mengarahkan pembaca mengunduh dan memakai materi ilegal
      Artinya sebuah perusahaan memberi panduan tindakan yang ilegal bagi orang biasa melalui blog resminya
      Ada juga kasus Anthropic yang menyelesaikan perkara pelanggaran hak cipta senilai 1,5 miliar dolar AS
      Saya juga tidak suka rezim hak cipta yang sekarang, tetapi standar yang berbeda untuk perusahaan dan individu tidak bisa diterima
  • Ini bukan panduan pembajakan, melainkan sekadar tulisan yang menjelaskan cara memasukkan dataset ke SQL
    Justru pihak Kaggle atau pengunggahnya, Shubham Maindola, yang lebih layak dimintai tanggung jawab
    Penjelasan sumber datanya yang berbunyi “e-book Harry Potter dikonversi ke txt” terasa sangat menyeramkan
    Namun tetap saja mengejutkan bahwa skor Kaggle-nya 10.0

    • Bahkan kata pertama teksnya saja sudah salah ketik — “M r.”...
  • Tulisan ini diunggah pada 2024 dan datanya masih di-host oleh Kaggle
    Jadi muncul pertanyaan mengapa pihak Rowling belum mengambil tindakan apa pun

    • Mungkin karena memang luput dari perhatian
      Jumlah unduhan di Kaggle sekitar 10 ribu sehingga mungkin belum cukup menarik perhatian
      Namun ini jelas sudah melewati batas
      Dulu juga pernah ada kasus plagiarisme terkait AI di Microsoft,
      dan saat itu pun ada kritik bahwa proses peninjauan internal nyaris tidak ada
      Thread terkait: “Microsoft morged my diagram”
    • Saya sudah menghubungi Rowling langsung lewat Twitter, dan tim hukumnya juga sudah saya beri tahu
    • Dulu text mining untuk riset akademik memang ilegal, tetapi sering dibiarkan
      Namun sekarang situasinya benar-benar berbeda karena model komersial sudah muncul
      Dataset seperti Books3, yang memuat ratusan ribu buku berhak cipta, juga pernah dipublikasikan
  • Halamannya memang sudah dihapus, tetapi salinan di web archive masih ada
    Mengkhawatirkan bahwa orang-orang yang kurang punya kesadaran etis justru membuat teknologi masa depan

    • Yang lebih mengkhawatirkan, mereka tampaknya bahkan tidak sadar bahwa memublikasikan tulisan seperti ini adalah masalah
      Jika orang-orang yang lolos proses rekrutmen seketat itu membuat penilaian seperti ini,
      jadi bertanya-tanya seberapa berbahaya keputusan yang benar-benar penting nantinya
    • Tentu pelanggaran hak cipta mungkin terlihat kecil dibanding tindakan tidak etis lain yang dilakukan perusahaan besar
      Tetapi itu tetap tidak bisa menjadi alasan pembenar
  • Rasanya sekarang hak kekayaan intelektual sudah menjadi tidak bermakna
    Maka muncul guyonan menawarkan startup novel yang “membuat AI mencetak ulang Harry Potter apa adanya” kepada calon investor

    • Ada yang menjawab bercanda, “kalau itu proses membuat budak robot, saya akan investasi”
    • Mungkin justru lebih menarik membuat generator fanfic tanpa batas dengan AI
      Sampai sekarang, hal yang paling konsisten bisa dilakukan AI dengan baik adalah humor
    • Ada juga ide startup AI yang bisa berkembang tanpa batas, dengan mengubah “Bee Movie” ke gaya Ghibli, mengubah audio menjadi teks, lalu memutarnya lagi lewat TTS
    • Bahkan muncul lelucon tentang membuat sistem operasi baru bernama “Vindows”
      sebagai satire bahwa kemiripannya dengan produk yang ada itu “murni kebetulan”
    • Tentu saja hal seperti ini hanya hak istimewa yang diberikan kepada para miliarder
      Kalau orang biasa melakukannya, mereka tetap bisa kehilangan segalanya dan masuk penjara
  • Melihat arah langkah Microsoft saat ini, insiden seperti ini sama sekali tidak mengejutkan
    Kesan yang muncul adalah bahwa pada Microsoft tahun 2026, undang-undang hak cipta dan kekayaan intelektual seolah tak lagi berlaku