16 poin oleh GN⁺ 2025-07-26 | 1 komentar | Bagikan ke WhatsApp
  • Memungkinkan perbandingan harga dari berbagai penyedia LLM (misalnya OpenAI, Anthropic, Google) secara jelas dengan standar yang setara (harga per token)
    • Mendukung tabel dan grafik dalam format penyedia, model, Input ($/M), Output ($/M)
  • Waktu pembaruan data terakhir: 26 Juli 2025
  • Sebelum memilih model tertentu, menyediakan data dasar yang dapat dijadikan referensi untuk analisis performa terhadap biaya
  • Dengan berlangganan newsletter, Anda dapat menerima informasi terbaru secara berkala

1 komentar

 
GN⁺ 2025-07-26
Opini Hacker News
  • (Bekerja di OpenRouter) kami bekerja sama dengan vendor yang menyediakan informasi harga dan model lewat API untuk menyelesaikan masalah ini, sehingga informasi di marketplace bisa selalu tetap terbaru, jadi teringat setahun lalu saat kami masih berbagi informasi lewat percakapan di kanal Slack, belakangan struktur harga token menjadi sangat kompleks karena tiap vendor punya berbagai faktor seperti panjang prompt, caching, dan lain-lain, sebenarnya poin yang penting adalah harga per token per endpoint, bukan per model, misalnya untuk versi cepat/lambat, thinking/non-thinking, dan sebagainya, sering kali harga berbeda tergantung endpoint meskipun modelnya sama, kami sudah mengerahkan banyak upaya untuk menyelesaikan semua proses ini dan hasilnya sekarang sudah dibuka di OpenRouter (meski saya akui formatnya belum ditata agar mudah dilihat dengan fokus pada harga)
    • Saya baru saja mencoba membuatnya lebih ringkas dan mudah dilihat, terima kasih banyak atas usahanya, saya bagikan proyek llm-pricing
  • Saya penasaran apakah datanya salah, harga input token untuk Google Gemini 2.5 Flash-Lite adalah $0.10 tetapi di sini tampaknya ditampilkan sebagai $0.40, silakan lihat tabel harga resmi
    • Datanya bukan salah, sepertinya saya yang salah membaca tabelnya, (edit: sepertinya saya menjawab dengan keliru, respons seperti itu kurang baik)
  • Informasi ini sangat bagus, tetapi dari sisi UX, masih perlu jauh lebih banyak pertimbangan
    • Bahkan untuk model yang sama, harganya berbeda tergantung vendornya
    • Setiap vendor mengoptimalkan untuk kriteria yang berbeda seperti kecepatan, biaya, dan sebagainya
    • Bahkan untuk model yang sama, ada versi kuantisasi yang berbeda-beda
    • Ada juga tempat seperti API Grok yang menyediakan tarif batch
    • Ada sangat banyak kondisi tambahan yang bisa difilter, seperti “thinking/non-thinking”, apakah multimodal atau tidak, dan lain-lain
    • Skor benchmark juga merupakan variabel
      sampai tingkat tertentu ini bisa jadi referensi, seperti artificialanalysis.ai yang menyediakan blended cost (biaya gabungan input/output), tetapi dalam praktiknya model tarif Input/Output juga bisa terus berubah tergantung tujuan penggunaan, saya menantikan sampai ada situs dengan UI perbandingan yang benar-benar bagus, semoga seseorang membuatnya suatu hari nanti
    • (Bekerja di OpenRouter) sebenarnya ada alat perbandingan model yang sangat sederhana, meski tidak terlalu terlihat di situs web, contohnya: silakan lihat halaman perbandingan model OpenRouter
    • Saya penasaran apakah masalah ini bisa diatasi dengan menambahkan kolom “provider”, yaitu lokasi sebenarnya tempat pemanggilan API dilakukan, ke dalam tabel
    • Membuat perbandingan yang adil tampaknya akan sangat sulit, yang terbaik adalah menampilkan trade-off tiap kondisi dengan jelas agar pengguna bisa menilai sendiri, platform seperti token exchange tempat pengguna mengunggah kebutuhannya lalu perusahaan bersaing menawarkan layanan yang sesuai juga ide yang menarik, kita bahkan bisa membayangkan marketplace tempat siapa pun membagikan daya komputasinya, tetapi masalah seperti memalsukan kemampuan nyata atau membocorkan data perlu solusi tersendiri
    • Tolong jangan lagi terlalu mementingkan peringkat benchmark, menyedihkan melihat suasana yang terus mendorong orang terobsesi pada perbandingan seperti ini
  • Dulu sangat menjengkelkan karena untuk mencari tarif model yang baru dirilis saya harus berkeliling ke begitu banyak halaman promosi, sekarang nyaman karena bisa melihat semuanya sekaligus di OpenRouter
  • Masalah intinya adalah token itu berbeda-beda untuk tiap vendor/model, melampaui sekadar model tokenizer, bahkan dalam vendor yang sama pun perbedaannya bisa sangat besar
    • Misalnya untuk input gambar, gpt-4o-mini menghabiskan 10 kali lebih banyak token dibanding gpt-4
    • Output gemini 2.5 pro umumnya ditagih per token, tetapi saat menggunakan structured output, setiap karakter dianggap sebagai token
    • Informasi harga per token memang penting, tetapi yang benar-benar dibutuhkan sebenarnya adalah mengetahui berapa biaya query/respons yang sama pada tiap model, karena tidak semua token itu setara
    • Saya berencana menjalankan eksperimen yang sama setiap hari lalu menambahkan biayanya sebagai kolom di tabel, misalnya bisa diukur dari hasil memasukkan prompt "ringkas artikel ini menjadi 200 kata" yang sama ke semua model
    • Saya ingin mendengar penjelasan lebih rinci tentang pernyataan bahwa saat memakai structured output di gemini 2.5 pro berlaku skema karakter=token, saya kurang paham apa bedanya
  • Saat ini situsnya sedang down, tetapi saya juga ingin merekomendasikan kalkulator harga LLM milik Simon Willison (llm-prices.com)
  • Saya penasaran model apa yang bisa dijalankan secara lokal jika anggaran perangkat keras sekitar $2500, kalau itu kurang, kira-kira perlu anggaran berapa, dan akan bagus juga kalau ada tutorial tentang cara menjalankannya sendiri secara lokal
    • Jika tertarik memanfaatkan LLM lokal, ollama.com adalah titik awalnya, jumlah node bisa dikonversi ke kapasitas RAM (GB), sebagai contoh model Deepseek-r1:7b membutuhkan sekitar 7GB, semakin besar context window semakin banyak memori yang dibutuhkan, jika Anda berencana merakit perangkat AI dengan anggaran $2500, saya merekomendasikan konfigurasi dengan unified memory besar seperti LPDDR5, tautan referensi: Framework AIMax300
    • 18 bulan lalu saya membeli Mac Mini M2Pro 32GB seharga $1900, dan itu cukup lancar untuk menjalankan model lokal 40B yang sudah dikuantisasi, jika performa model lokal kurang memadai, saya kadang memakai kombinasi Gemini 2.5 flash/pro dan gemini-cli, baik API komersial maupun model lokal sama-sama punya banyak opsi bagus, jadi yang terbaik adalah memilih satu per satu dan fokus cepat membangun
    • Membeli 2 kartu grafis 3090 bekas di kisaran $600 adalah pilihan terbaik, 3090 masih sangat unggul dari sisi value for money
    • Kimi dan deepseek adalah sedikit model yang perbedaan performanya tidak terlalu besar bahkan jika dibandingkan dengan penyedia cloud utama
    • Model-model keluarga ollama bisa menjalankan beberapa model tanpa kesulitan besar asalkan ada CPU yang lumayan bagus
  • Sebelumnya satu-satunya cara untuk mengetahui tarif per vendor adalah berkeliling ke tiap situs web, dan OpenRouter adalah alternatif yang bagus, model terbuka juga ikut didaftarkan, sehingga kita bisa memperkirakan harga/ukuran asli model tersebut dan kira-kira seberapa besar subsidinya saat ini
    • OpenRouter API memiliki endpoint untuk melihat informasi model dan harga (dokumentasi API model OpenRouter), kekurangannya adalah hanya memberikan informasi satu vendor per model, ini tidak menjadi masalah untuk model komersial, tetapi untuk model open source, perbedaan harga antarvendor bisa mencapai 5~10 kali lipat sehingga sebaiknya hanya dipakai sebagai referensi
  • Saya berharap ada materi yang menggabungkan data harga dan informasi benchmark umum untuk menunjukkan model mana yang memiliki “value for money (skor benchmark/biaya token)” terbaik
  • Kebijakan harga tiap vendor jauh lebih rumit daripada sekadar penagihan input/output sederhana
    • Tarif jam non-sibuk DeepSeek
    • Tarif batch OpenAI/Anthropic
    • Tarif per context window dari Google/Grok
    • Penagihan terpisah token thinking/non-thinking milik Qwen
    • Harga tier token input untuk Qwen coder
      Sebagai referensi, tulisan terkait: X.com paradite_