- Artikel tentang mengekstraksi rekomendasi buku dari thread Hacker News (HN) menggunakan ChatGPT API
- Penulis menganalisis hampir 200 cerita HN yang judulnya mengandung kata "book" dan tidak menaut ke halaman lain
- Penulis menggunakan GPT API untuk mengklasifikasikan data dan menghasilkan informasi dalam format JSON
- Data diambil dari Hacker News API, dan penulis memanggil Chat Completions API untuk mengekstrak judul buku, penulis, dan URL dari teks
- 50 rekomendasi buku teratas dicantumkan, dengan "Structure and Interpretation of Computer Programs" karya Abelson dan Sussman sebagai yang paling banyak direkomendasikan
- API kadang tidak mengembalikan JSON yang valid, terutama saat ditemukan bahwa ChatGPT merespons komentar seperti "thanks" atau mengajukan pertanyaan
- Penulis merancang prompt agar membuang respons tanpa judul, karena ChatGPT kadang memasukkan penyebutan penulis tanpa judul buku tertentu
- Pemrosesan 57k komentar menggunakan GPT 3.5 Turbo API menelan biaya sekitar $40
- Penulis menemukan bahwa bahkan saat temperature diatur ke 0, hasil GPT berbeda di setiap pemanggilan dan menunjukkan variabilitas yang lebih besar dibanding model GPT-3 sebelumnya
- Penulis menemukan bahwa GPT dapat mengidentifikasi tautan dalam teks, tetapi tag HTML perlu dihapus agar tidak memilih teks tautan yang terpotong alih-alih URL
- Penulis membagikan contoh keluaran JSON dari ChatGPT dan prompt yang digunakan untuk tugas tersebut
- Data mentah yang dihasilkan oleh GPT dibagikan untuk analisis lebih lanjut setelah diurutkan berdasarkan judul
- Sebagai latihan belajar, penulis menambahkan tautan afiliasi Amazon ke URL Amazon di tabel
1 komentar
Opini Hacker News