14 poin oleh GN⁺ 2024-08-22 | 4 komentar | Bagikan ke WhatsApp
  • Web semantik adalah Web 3.0 versi lama. Sebelum "Web 3.0" berarti "hal-hal seperti kripto", istilah ini berarti situs web yang dapat dibaca mesin (Machine-Readable)
  • Saya kira konsep web semantik sudah tidak digunakan lagi, tetapi ternyata web semantik kini sudah diadopsi sangat luas, sampai-sampai tidak berlebihan jika dikatakan kita sudah menggunakan web 3.0
  • Jika web 3.0 sudah ada, di mana letaknya? Sebagian besar tersembunyi di dalam markup

Postingan blog dengan JSON-LD

  • Anda bisa menambahkan elemen <script type="application/ld+json"> di <head> halaman HTML untuk menyertakan metadata JSON-LD
  • JSON-LD adalah format utama untuk mengenkode metadata web semantik
  • Contoh: penjelasan menggunakan tipe BlogPosting
{  
  "@context": "https://schema.org";,  
  "@type": "BlogPosting",  
  "headline": "From Shell to Excel - with a little bit of HTTPS",  
  "url": "https://csvbase.com/blog/10";,  
  "description": "Write once, read everywhere",  
  "author": {  
    "@type": "Person",  
    "name": "Cal Paterson",  
    "email": "cal@calpaterson.com",  
    "url": "https://calpaterson.com/about.html";  
  },  
  "image": "https://csvbase.com/blog-static/excel.png";,  
  "datePublished": "2024-08-12",  
  "dateCreated": "2024-08-12",  
  "dateModified": "2024-08-12"  
}  
  • Kunci yang diawali dengan @ adalah metadata (meta-metadata?)
    • @context menunjukkan namespace, dan @type menunjukkan tipe kelas
    • Kunci lainnya adalah item yang diizinkan dalam tipe BlogPosting
  • Nilai kunci bisa berupa tipe lain juga (seperti Person pada kunci author)

Apa untungnya buat saya?

  • Siapa yang membaca ini? Banyak bot mem-parsing metadata JSON-LD
  • Postingan blog yang menyertakan metadata web semantik dapat menampilkan pratinjau tautan di situs media sosial, sehingga meningkatkan rasio klik
  • Crawler mesin pencari menggunakan metadata ini untuk menampilkan lebih banyak informasi di hasil pencarian
  • Agregator tautan otomatis menggunakan data ini untuk menampilkan posting kepada pengguna (seperti Android yang menampilkan berbagai situs di layar berita)
  • Metadata web semantik tidak memerlukan izin dan bersifat netral terhadap vendor

Apakah ini sulit?

  • Tidak, JSON-LD sangat sederhana
    • JSON-LD adalah informasi yang sudah ada di halaman, hanya disusun agar dapat dibaca komputer
  • Jika Anda bisa menulis aplikasi frontend, Anda juga bisa dengan mudah memahami JSON-LD

Jenis JSON-LD lainnya

  • Selain BlogPosting, ada juga tipe seperti Event, LocalBusiness, JobPosting, Product, dan Recipe
  • csvbase menggunakan tipe Dataset untuk menjelaskan data tabel
{  
  "@context": ["https://schema.org";, {"csvw": "https://www.w3.org/ns/csvw#";}],  
  "@type": "Dataset",  
  "name": "stock-exchanges",  
  "url": "https://csvbase.com/meripaterson/stock-exchanges";,  
  "isAccessibleForFree": true,  
  "distribution": [  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv";,  
      "encodingFormat": "text/csv",  
      "contentSize": "16222"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet";,  
      "encodingFormat": "application/parquet",  
      "contentSize": "10751"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx";,  
      "encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",  
      "contentSize": "15500"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl";,  
      "encodingFormat": "application/x-jsonlines",  
      "contentSize": "38627"  
    }  
  ],  
  "dateCreated": "2022-04-25T13:43:24.746075+01:00",  
  "dateModified": "2023-04-02T20:27:33.255648+01:00",  
  "maintainer": {  
    "@type": "Person",  
    "name": "meripaterson",  
    "url": "https://csvbase.com/meripaterson";  
  },  
  "description": "The world's stock exchanges...",  
  "mainEntity": {  
    "@type": "csvw:Table",  
    "csvw:tableSchema": {  
      "csvw:columns": [  
        {"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},  
        {"csvw:name": "Continent", "csvw:datatype": "string"},  
        {"csvw:name": "Country", "csvw:datatype": "string"},  
        {"csvw:name": "Name", "csvw:datatype": "string"},  
        {"csvw:name": "MIC", "csvw:datatype": "string"},  
        {"csvw:name": "Last changed", "csvw:datatype": "date"}  
      ]  
    }  
  }  
}  

Apakah semua ini benar-benar perlu? Bukankah AI akan menyelesaikan semuanya?

  • Model bahasa besar (LLM) sering membuat kesalahan
  • Penting untuk menyediakan metadata demi menjamin akurasi
  • Menggunakan LLM mahal, dan membutuhkan GPU untuk membaca halaman web

Alternatif

  • Open Graph Protocol: standar yang dibuat Facebook, terutama untuk menjelaskan konten
  • Microdata: sederhana, tetapi sulit di-parse
  • Twitter Cards: menjelaskan bagaimana konten ditampilkan di Twitter
  • Standar lama berbasis XML: didukung secara mendalam di sistem perpustakaan dan arsip

Teknologi yang membosankan (Boring technology)

  • Cukup mengejutkan bahwa web semantik bisa serendah profil ini. Sangat banyak situs yang sudah menyiapkan metadata seperti ini
  • "Web semantik sudah tersebar luas; hanya saja tidak pernah ada momen kemenangan"

Ringkasan GN⁺

  • Web semantik adalah teknologi untuk membuat situs web yang dapat dibaca mesin, dan sudah digunakan secara luas.
  • JSON-LD adalah format utama untuk mengenkode metadata web semantik, dan mendukung berbagai tipe seperti postingan blog, acara, dan produk.
  • Metadata web semantik membantu pratinjau tautan di media sosial dan peningkatan hasil pencarian di mesin pencari.
  • Menggunakan AI untuk mengekstrak metadata secara otomatis bisa mahal dan mungkin tidak akurat.
  • Ada berbagai alternatif seperti Open Graph Protocol, Microdata, dan Twitter Cards.

4 komentar

 
cometkim 2024-08-22

Bagi yang penasaran dengan sejarah Semantic Web dan posisinya saat ini, saya merekomendasikan esai ini.

https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…

 
[Komentar ini disembunyikan.]
 
ipuris 2024-08-22

Saya tidak menganggap JSON-LD sebagai inti atau teknologi kunci dari semantic web, tetapi saya sangat setuju dengan pernyataan bahwa "semantic web sebenarnya sudah tersebar luas dan digunakan, hanya saja tidak pernah memiliki momen kemenangan"..!

 
GN⁺ 2024-08-22
Komentar Hacker News
  • Masalah standar Semantic Web

    • Selama beberapa dekade, tidak ada aplikasi pembunuh
    • Kualitas web memburuk, dan tidak ada peristiwa seperti Wikipedia
    • Ketidaklengkapan visi: kueri SPARQL dan reasoner memang berguna, tetapi beban kognitifnya tinggi bagi pengguna rata-rata
    • Untuk web yang lebih baik, arah Semantic Web tetap diperlukan
  • Pengalaman kegagalan percobaan

    • Situs yang dicoba tidak memiliki kategori "Poem"
    • Sudah diminta sejak 9 tahun lalu, tetapi belum diselesaikan
  • Perbandingan JSON-LD dan RSS

    • "Googlers, JSON-LD bisa memiliki tingkat pengenalan setara RSS"
    • Ada pendapat bahwa akan bagus jika meluncurkan lalu menghentikan aplikasi atau layanan
  • Makna LLM dan Semantic Web

    • Makna tidak seharusnya didefinisikan oleh penerbit
    • Diragukan apakah penerbit rata-rata bisa mengklasifikasikan dengan lebih akurat daripada LLM
    • Peretasan SEO dan spam blog terjadi karena penerbit menjadi satu-satunya sumber kebenaran
    • Masalah pendefinisian makna harus diselesaikan
  • Status Semantic Web saat ini

    • Menyatakan kemenangan lewat integrasi dengan Facebook berarti kematian Semantic Web
    • OWL dan standar lain bertujuan memberi anotasi pada isi halaman
    • Informasi penulis, judul, foto, dan tanggal publikasi hampir tidak bermakna
  • Konsep penting yang hilang

    • Tidak ada penyebutan linked data, RDF, federasi, dan kueri web
    • JSON-LD hanyalah format serialisasi
    • Teknologi linked data meningkatkan interoperabilitas dan penggunaan ulang data
    • LLM dan linked data saling melengkapi
  • Metadata PDF

    • Metadata PDF juga didasarkan pada standar Semantic Web
    • RDF ditulis dalam XML, bukan JSON-LD
  • Pentingnya HTML

    • Tampaknya HTML dihindari karena dianggap sulit
    • Makna bukan tersembunyi di dalam markup, melainkan markup itu sendiri
  • AI dan metadata

    • Ada dua alasan AI tidak bisa menggantikan metadata
      • LLM sering salah
      • Waktu GPU mahal
    • LLM sudah menunjukkan akurasi 99%
    • Di masa depan, meneruskan teks ke LLM tidak akan menjadi masalah besar
  • JSON-LD dan SEO

    • Google telah mendorong JSON-LD untuk peningkatan SEO selama lebih dari 5 tahun
    • Sebagian besar metadata halaman yang relevan sudah ditangkap oleh protokol Open Graph
    • Tidak perlu menghasilkan JSON-LD lewat pekerjaan tambahan