6 poin oleh xguru 2024-09-09 | 4 komentar | Bagikan ke WhatsApp
  • Situs web digunakan bukan hanya untuk menyediakan informasi kepada manusia, tetapi juga kepada LLM
  • LLM digunakan untuk meningkatkan lingkungan pengembangan yang dipakai coder, termasuk opsi untuk mengumpulkan informasi tentang library pemrograman dan API dari dokumentasi situs web
  • Penyediaan informasi untuk LLM sedikit berbeda dari penyediaan informasi untuk manusia, tetapi sebagian besar saling tumpang tindih
    • Umumnya lebih menyukai informasi dalam format yang lebih ringkas
    • Dapat mengumpulkan banyak informasi dengan cepat, sehingga membantu jika semua informasi utama dikumpulkan di satu tempat
    • Jendela konteks LLM terlalu kecil untuk memproses seluruh situs web, dan sulit mengubah halaman HTML yang kompleks menjadi dokumen teks biasa yang ramah LLM
  • Karena itu, diperlukan cara untuk mengidentifikasi informasi terpenting yang akan diberikan kepada asisten AI dan menyediakannya dalam format yang paling sesuai

Proposal

  • Diusulkan agar pihak yang ingin menyediakan konten ramah LLM menambahkan file /llms.txt ke situs mereka
    • Ini adalah file Markdown yang memberikan informasi latar belakang dan petunjuk sederhana, serta menyertakan tautan ke file Markdown yang menyediakan informasi lebih rinci
    • Ini dapat digunakan untuk menyediakan informasi yang diperlukan untuk menggunakan library, atau sebagai bagian dari riset untuk mempelajari seseorang atau organisasi
  • Markdown llms.txt dapat dibaca oleh manusia maupun LLM, sekaligus memungkinkan pemrosesan format yang presisi
  • File llms.txt dapat digunakan dalam berbagai skenario
    • Untuk library perangkat lunak, file ini menyediakan gambaran terstruktur atas dokumentasi sehingga LLM dapat dengan mudah menemukan fungsi tertentu atau contoh penggunaan
    • Di situs web perusahaan, file ini dapat menguraikan struktur organisasi dan sumber informasi utama
    • RUU baru beserta informasi latar belakang dan konteks yang diperlukan dapat dikurasi dalam file llms.txt untuk membantu para pemangku kepentingan memahaminya
    • Situs web portofolio pribadi atau CV dapat membantu menjawab pertanyaan tentang individu tersebut
    • Dalam e-commerce, file ini dapat menjelaskan secara singkat kategori produk dan kebijakan
    • Lembaga pendidikan dapat menggunakannya untuk merangkum penawaran kursus dan sumber daya

Format file llms.txt

  • Format file llms.txt menyediakan struktur informasi menggunakan Markdown yang mudah dipahami model bahasa
  • File ini menggunakan Markdown alih-alih format terstruktur tradisional (misalnya XML), karena pembaca utama file ini adalah model bahasa dan agen
  • File llms.txt dapat dibaca melalui alat pemrograman standar dan disusun menurut format tertentu
    • Header H1: Berisi nama proyek atau situs, dan merupakan satu-satunya bagian yang wajib.
    • Blockquote: Berisi ringkasan singkat tentang proyek dan memberikan informasi utama yang diperlukan untuk memahami bagian lain dari file.
    • Bagian Markdown: Memberikan informasi rinci dan dapat mencakup berbagai jenis bagian seperti paragraf dan daftar, tetapi tidak menyertakan heading tambahan.
    • Bagian daftar file yang dipisahkan oleh header H2: Berisi daftar URL yang memberikan informasi tambahan, dan setiap item ditulis dalam format tautan Markdown [nama](URL), dengan deskripsi opsional.
  • Contoh file
# Judul Proyek  
  
> Deskripsi opsional tentang proyek dimasukkan di sini  
  
Rincian opsional dimasukkan di sini  
  
## Nama Bagian  
  
- [Judul Tautan](https://링크_URL): Deskripsi tautan opsional  
  
## Optional  
  
- [Judul Tautan](https://링크_URL)  
  • Bagian "Optional" memiliki makna khusus; jika konteks singkat diperlukan, URL di bagian ini dapat diabaikan. Bagian ini memuat informasi sekunder yang sering kali bisa dihilangkan.

Koeksistensi dengan standar yang ada

  • llms.txt dirancang untuk bekerja bersama standar web yang sudah ada
  • Sementara sitemap mencantumkan semua halaman untuk mesin pencari, llms.txt memberikan gambaran yang telah dikurasi untuk LLM (large language models)
  • llms.txt bersifat komplementer terhadap robots.txt dan dapat menyediakan konteks untuk konten yang diizinkan
  • File ini juga dapat merujuk pada markup data terstruktur yang digunakan di situs, untuk membantu LLM memahami dan menafsirkannya
  • Jalur file distandardisasi seperti /robots.txt dan /sitemap.xml
    • robots.txt dan llms.txt memiliki tujuan yang berbeda
      • robots.txt: Digunakan agar alat otomatis (misalnya bot pengindeks pencarian) memahami cakupan akses yang diizinkan ke situs
      • llms.txt: Terutama digunakan ketika pengguna secara eksplisit meminta informasi tentang topik tertentu. Misalnya, berguna saat memasukkan dokumentasi library coding ke dalam proyek, atau saat meminta informasi ke chatbot dengan fitur pencarian
    • llms.txt diperkirakan terutama berguna untuk inferensi (inference). File ini akan dimanfaatkan pada saat pengguna membutuhkan bantuan, dan diperkirakan tidak akan digunakan untuk pelatihan (training). Namun, jika penggunaan llms.txt meluas, ada kemungkinan informasi ini juga dapat dimanfaatkan dalam proses pelatihan di masa depan
  • Perbedaannya dengan sitemap.xml
    • sitemap.xml: Mencantumkan semua informasi yang dapat diindeks di situs dan dapat dibaca manusia
    • llms.txt bukan pengganti sitemap.xml:
      • Mungkin tidak menyertakan versi halaman yang dapat dibaca LLM.
      • Tidak menyertakan URL dari situs eksternal yang dapat berguna untuk memahami informasi.
      • Biasanya memuat dokumen yang terlalu besar untuk muat dalam jendela konteks LLM, serta banyak informasi yang tidak diperlukan untuk memahami situs.
    • llms.txt dapat berfungsi sebagai alat yang dioptimalkan agar model bahasa dapat mengakses informasi tertentu dan memahami konteksnya

4 komentar

 
iolothebard 2025-02-27

Sepertinya cukup dengan memperluas robots.txt… apakah perlu memberi status khusus kepada crawler untuk LLM?
Daripada itu, rasanya akan lebih baik kalau user-agent para crawler LLM dirapikan dulu… tapi user-agent itu sendiri juga posisinya sedang serba tidak pasti akhir-akhir ini, jadi agak ambigu.

Catatan tambahan 1. Namanya .txt, tapi kenapa malah Markdown? Saya juga sangat suka Markdown, tapi rasanya tidak harus begitu juga…

 
kwj9211 2024-09-09

Penamaan llms terasa agak kurang nyaman karena terlihat seperti antarmuka untuk teknologi tertentu...

 
ilotoki0804 2024-09-10

Betul juga. Daripada membuat standar lain yang aneh dan sangat rendah kegunaannya secara umum, bukankah lebih baik menggunakan atau memperluas standar yang sudah ada seperti JSON-LD?

 
regentag 2024-09-09

Kalau ini menyebar luas, berarti kita bisa mencegah LLM menggunakan situs saya dengan file llms.txt yang sesuai.
Misalnya dengan memberikan informasi lain yang sama sekali tidak bermakna,
atau memberikan informasi yang begitu besar sampai menghabiskan seluruh konteks LLM.