- "Mengambil data yang dapat diakses secara publik dengan scraping adalah legal (bukan pelanggaran CFAA)"
- Dalam gugatan yang diajukan LinkedIn untuk melarang scraping oleh perusahaan analitik Hiq, pengadilan menegaskan kembali putusan sebelumnya (LinkedIn sudah kalah pada 2019)
- Kabar baik bagi web archive, kalangan akademik, peneliti, dan jurnalis
- Pengadilan AS kali ini meninjau kembali CFAA (Computer Fraud and Abuse Act, undang-undang penipuan dan penyalahgunaan komputer) yang sudah berusia puluhan tahun
- Pelanggaran ini dibatasi pada orang yang "memperoleh hak akses ke sistem komputer tanpa otorisasi"
- Pada situs web publik, konsep 'tanpa otorisasi' tidak berlaku
11 komentar
Saya juga penasaran apakah web scraping tidak bermasalah secara hukum di Korea juga.
Kalau ada yang punya pengalaman, bisakah berbagi?
Dalam regulasi di negara kita
Informasi kredit pribadi
Ini bukan "kredit" seperti pada "kartu kredit". Layanan yang memungkinkan seseorang "melihat" data yang bisa digunakan untuk menilai reputasi finansial pribadi (saldo, riwayat transaksi, dll.) miliknya sendiri itu dilarang. Harus mendapatkan izin usaha pengelolaan informasi kredit pribadi. Tapi kalau datanya tidak bisa dilihat oleh orang tersebut dan hanya dipakai begitu saja sebagai bahan, seperti untuk pelaporan pajak, maka tidak masalah. Hmm...?
Sekalipun mendapatkan informasi yang diinginkan lewat crawling atau scraping dari halaman web, jika misalnya melewati halaman pembayaran, atau memperoleh data di luar yang disediakan/dimaksudkan untuk tampil di layar, semuanya ilegal. Meskipun tidak ditampilkan di layar dan hanya bolak-balik sebagai JSON antara FE/BE, penggunaan di luar maksudnya itu ilegal. Sepertinya saya pernah lihat berita soal ada yang ditahan karena mengambil dokumen pendaftaran gratis dari Kementerian Kehakiman.
Yah, untuk poin 2, perusahaan finansial yang dananya minim (asuransi/perusahaan kartu/perusahaan sekuritas, dll... selain bank) memang tidak punya kapasitas jadi banyak celah... jadi dari sisi perlindungan malah masih bisa dimengerti... tapi poin 1 benar-benar terasa seperti kerja sia-sia. Untuk poin 1 juga saya paham niatnya dalam kerangka kedaulatan data pribadi, tapi bentuk pelaksanaannya terasa seperti ActiveX 3.0?
Terima kasih kepada semua yang telah meninggalkan komentar! Berkat kalian, ini sangat membantu.
Saya membagikan tautan karena belum lama ini ada newsletter yang saya langgani membahas topik serupa.
Bersama kasus JobKorea vs Saramin yang disebutkan oleh rtyuiop di bawah, di sana juga dirangkum kasus YeogiEottae vs Yanolja dan Naver vs Darwin Brokerage.
https://stibee.com/api/v1.0/…==
Oh, newsletter Packyful memang bagus. Terima kasih atas tautannya~!
Saya selalu membacanya dengan penuh rasa terima kasih (_ _)
Sejauh yang saya tahu, kasus yang paling terkenal adalah ketika YeogiEottae merayapi data milik Yanolja. Menurut pemahaman saya, tentu saja itu adalah data publik dan perayapan itu sendiri tidak bermasalah, tetapi isu utamanya adalah (1) kerugian yang dialami Yanolja karena beban server meningkat dan (2) kerugian yang mungkin dialami Yanolja akibat hal ini karena kedua merek tersebut berada di industri yang sama. Karena gugatan ini masih berjalan dan arah penafsiran tiap artikel juga berbeda-beda, sepertinya akan lebih baik jika Anda membaca langsung berbagai sumbernya.
Di sektor keuangan, scraping telah dilarang sejak dimulainya MyData.
https://news.einfomax.co.kr/news/articleView.html?idxno=4192027
Saya pernah membicarakan soal ini dengan seorang pengacara yang saya kenal, dan menurut standar saat itu, "pada dasarnya mengumpulkan informasi yang sudah dipublikasikan bukanlah masalah, tetapi jika ada mekanisme pencegahan crawling dalam bentuk apa pun, maka saat Anda mencoba menyimpannya dengan cara mengakalinya, itu bisa menjadi masalah."
Memang, dalam hukum yang dilihat tampaknya bukan sekadar hal teknis, melainkan seperti apa niatnya.
Karena ini adalah informasi profil pribadi yang ada di LinkedIn, rasanya memang agak mengkhawatirkan..
Tapi tampaknya juga benar bahwa melarang scraping bahkan untuk informasi yang tersedia secara publik itu agak sulit dilakukan.
Kondisi web scraping pada 2021
Ada banyak informasi yang dipublikasikan secara publik di LinkedIn. Namun, LinkedIn adalah salah satu situs yang paling sulit untuk di-scrape. Meski begitu, orang tetap berhasil mengumpulkan halamannya. Ini seperti pertarungan antara tombak dan perisai.