Jawaban AI yang lebih cepat dan berkualitas tinggi untuk semua orang, Phind-405B

(phind.com)

1 poin oleh GN⁺ 2024-09-06 | 1 komentar | Bagikan ke WhatsApp

There is no content to summarize from the provided article link.

1 komentar

GN⁺ 2024-09-06

Opini Hacker News

Phind masih merupakan mesin pencari berbantuan AI favorit saya
Saat menjawab pertanyaan teknis, ia pandai menyertakan tautan referensi untuk memverifikasi jawaban atau melihat lebih detail
Contoh riwayat terbaru antara lain format video yang didukung Mastodon https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, perbandingan XFS dan ext4fs https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1, pendekatan no slot clock pada Apple ][ https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple
Jawabannya tidak sempurna, tetapi memberi gambaran umum yang bagus, dan tautan sumber webnya sangat baik. ChatGPT dan Claude lemah di bagian ini, sementara Bing CoPilot cukup bisa, tetapi saya kurang menyukainya
- Dalam pengujian saya, Phind 70B juga memberikan jawaban halusinatif
  Misalnya, saya bertanya tentang earplug Bluetooth yang baterainya mudah diganti, tetapi ia terus merekomendasikan produk yang saya tahu baterainya disolder ke casing. Agar adil, Perplexity juga gagal untuk pertanyaan ini
- Saya melihat masih ada cukup banyak ruang untuk perbaikan, dan mereka sedang membuat struktur jawaban serta kemampuan verifikasi menjadi lebih baik
- Phind tadinya adalah alat yang terutama saya pakai untuk mendapatkan informasi yang lebih relevan dan lebih baru yang bisa ditemukan di internet, tetapi sejak sekitar 3 bulan lalu tidak lagi demikian
  Seiring waktu, pada berbagai pertanyaan jawabannya makin sering tidak lengkap atau salah, dan yang lebih buruk, terkadang ia mengatakan tidak bisa menemukan jawaban padahal jawabannya ada di situs referensi
  Pada akhirnya saya sebagian besar kembali ke Bing dan gpt 4o, dan jujur saja saya ragu menghabiskan waktu untuk mencoba versi barunya lagi
- Di sini referensinya terlihat, tetapi saat saya bertanya, bahkan dalam keadaan login, yang muncul hanya jawaban tanpa kutipan
  Setahu saya ini masalah lama yang pernah diperbaiki, tetapi saya masih mengalaminya. Kalau saya logout lalu bertanya, referensi muncul, tetapi saat itu jawabannya memakai model instant
- Untuk alasan serupa, saya suka memakai Brave Search
  Mudah beralih ke opsi yang lebih sesuai antara pencarian biasa dan pencarian berbasis LLM
Saya baru saja mencobanya, dan saat menanyakan topik riset yang sedang saya selidiki, ia memang memberi jawaban tetapi tanpa referensi
Jadi saya menyalin jawabannya lalu secara spesifik meminta referensi, dan ia meminta maaf dengan mengatakan bahwa merujuk studi tertentu pada jawaban sebelumnya adalah kesalahan, serta hasil pencarian tidak berisi informasi relevan yang mendukung klaim tersebut
Saya agak tidak yakin soal ini
- Setelah mengujinya lagi, ketika saya meminta penjelasan singkat tentang cara menggunakan Laravel 11 Blade fragments, jawabannya cukup bagus
  Setelah itu saya memberi 3 baris kode route yang dipakai di Laravel, lalu bertanya cara mengimplementasikannya agar fragment yang dikembalikan ditentukan oleh parameter URL
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments');  
});  
```
  Mengatakan bahwa view yang benar harus sudah dibuat adalah awal yang baik, tetapi kemudian ia merekomendasikan seperti ini
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return fragment($fragment);  
});  
```
  Saya langsung tahu itu salah, tetapi orang yang sedang belajar mungkin tidak tahu. Jadi saya harus bertanya lagi, “Sebentar, bagaimana kode ini tahu view mana yang harus dipakai?”, dan baru setelah itu ia memberi jawaban yang benar
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments')->fragment($fragment);  
});  
```
  Terlalu mudah menemukan edge case pada model-model seperti ini, dan pada dasarnya kita harus meragukan semua jawaban yang diterima. Meski begitu, kadang-kadang model ini sangat kuat dan berguna
- Sebaiknya pastikan dulu Always search aktif, lalu coba ulang pertanyaan pertama
  Dengan begitu seharusnya Anda bisa mendapatkan jawaban yang benar beserta referensi
- Saya sangat tidak suka frasa seperti “Sebagai asisten AI, saya seharusnya lebih berhati-hati”
- Permintaan maaf yang panjang itu, terus terang, hanya cara bertele-tele dan berulang untuk mengatakan “saya asal bicara”
  Tentu saja ada juga manusia yang berbicara seperti itu. Jika ada sisi positif dari demam LLM, mungkin itu bisa membuat kita kebal terhadap gaya bicara psikopatik
Benarkah pernyataan bahwa “masalah inti pencarian berbasis AI adalah terlalu lambat dibanding Google yang ada sekarang. Walaupun menghasilkan jawaban yang lebih baik, latensi tambahan membuat orang enggan”?
Keluhan yang saya rasakan dan dengar kebanyakan soal hasil AI yang tidak akurat, misalnya kesalahan yang dengan percaya diri keliru saat membantu coding
- Setelah menekan Enter, tentu lebih lambat sampai sesuatu terlihat
  Tapi setelah menekan Enter, bukankah target yang harus diukur adalah waktu sampai sekumpulan jawaban benar yang relevan masuk ke kepala? Dengan patokan itu, cara lama yang sudah 20 tahun tampaknya mencapai puncaknya lebih dari 10 tahun lalu, dan kalau tidak begitu Phind mungkin tidak akan mendapat perhatian
  Dalam pencarian gaya PageRank yang sudah 20 tahun, waktu dari pencarian sampai jawaban benar masuk ke kepala kini makin mendekati “DNF”, alias gagal selesai
  Baik halusinasi maupun hasil yang tidak relevan sama-sama harus disaring dengan otak. Secara proporsi, hasil yang tidak relevan lebih banyak daripada halusinasi; hanya saja kita sudah lama menyerah untuk memercayai halaman hasil pencarian
- Ini adalah masalah segitiga kecepatan / akurasi / biaya
  Model kecil efisien dari sisi biaya serving dan cepat, tetapi bisa saja setengahnya salah
  Model besar berjalan lambat di hardware murah, tetapi bisa memberi jawaban yang lebih akurat, dan biasanya cukup cepat untuk penggunaan personal
  Pilihan ketiganya adalah model yang besar, cepat, dan akurat, tetapi untuk mendapatkan kecepatannya harus membayar cukup mahal ke Nvidia/Groq dan sejenisnya, dan mungkin perlu membangun pembangkit listrik tenaga surya agar biaya listriknya masuk hitungan
- Menurut pengalaman saya, itu benar
  Sebelum mencari sesuatu, saya sering lebih dulu menebak apakah lebih cepat memindai hasil Google dengan cepat, atau menunggu Perplexity Pro mengeluarkan jawaban pelan-pelan baris demi baris
- Menurut saya keduanya adalah masalah inti
  Saat hasilnya akurat, terlalu lambat; dan hasil yang datang pun sering tidak akurat sehingga sulit dipercaya
Ini bukan untuk semua orang seperti judulnya, melainkan untuk pengguna Pro
Judulnya membingungkan, jadi akan bagus kalau diganti
Saya penasaran bagaimana ini dibandingkan dengan Kagi Assistant
Di halaman paket harga tertulis $20 per bulan untuk pencarian Phind-405B dan Phind-70B tanpa batas, GPT-4o 500+ kali per hari, Claude 3.5 Sonnet 500+ kali per hari, dan Claude Opus 10 kali
Mereka mengatakan “Phind-405B mencatat 92% pada HumanEval 0-shot, setara dengan Claude 3.5 Sonnet”; apakah ada benchmark lain?
- Saya berlangganan Phind selama 6 bulan, dan sekarang lebih puas dengan Kagi Assistant
  Memang tidak memberi tautan sebanyak itu, tetapi hasil keseluruhannya mirip atau lebih baik, dan lenses juga bisa dipakai. Mesin pencari umum juga disediakan bersama
  Di Phind ada satu hal terkait UI yang menyebalkan: di Firefox, scrollbar kadang meloncat secara acak, sepertinya setiap kali mengetik atau bahkan saat token sedang dihasilkan. Kalau harus menemukan lagi posisi yang sedang dilihat setiap kali, waktunya cukup banyak terbuang, dan sekadar kembali ke bagian paling bawah pun merepotkan
  Masalah intinya tetap sama: keduanya terlalu banyak berhalusinasi pada pertanyaan yang sulit, dan ini masalah umum di mana-mana
- Karena ada ekstensi VSCode, jika Anda memakainya itu cukup masuk akal
  Untuk penggunaan pencarian murni, saya kurang yakin. Dari pengalaman saya, Phind tidak terlalu luar biasa ketika memiliki akses internet, dan sebagian orang bahkan mematikan fitur pencarian untuk mendapatkan jawaban yang lebih baik
- Angka 92% itu justru membuat penilaian sulit karena berarti perlu benchmark yang lebih sulit
  Terutama karena model dengan skor tinggi pun sering memberi jawaban yang terdengar meyakinkan tetapi banyak halusinasinya. Misalnya Llama 3 bagi saya cerewet dan percaya diri, tetapi cukup sering salah
  Dengan performa setingkat itu, sepertinya sudah masuk ke wilayah edge case sulit yang jawaban benarnya sendiri ambigu
- Melihat harganya, tampaknya tidak ada tingkat langganan yang lebih rendah selain “Phind tanpa batas + ChatGPT 500 kali per hari” seharga $20 per bulan
  Yang dibutuhkan bukan itu, melainkan paket sekitar 100 kali per bulan seharga $5. Jika ini mesin pencari yang berfokus pada coding, mereka perlu memikirkan mengapa orang harus membayar harga yang sama dengan pesaing yang fiturnya lebih banyak
Sepertinya saya sudah berlangganan Phind Pro sekitar 5–6 bulan terakhir
Kontaminasi hasil pencarian terasa agak membaik, tetapi saat mengajukan pertanyaan lanjutan masih ada kalanya jawabannya rusak
Misalnya jika bertanya dengan merujuk kode di jawaban tepat sebelumnya, jawaban berikutnya kadang didasarkan pada suatu kode di dalam hasil pencarian, bukan konteks percakapan. Saya tidak begitu paham RAG, jadi tidak tahu apakah hal seperti ini bisa diperbaiki dengan prioritas atau semacamnya
Selain itu, saya sangat menantikan bagaimana mereka akan menangani artifacts mereka sendiri di antarmuka web. UI artifacts milik Claude sangat cocok dengan alur kerja saya saat bekerja di web, dan saya juga suka adanya versi untuk beberapa file
- Kami sedang mengerjakan artifacts
  Saya penasaran di model mana kontaminasinya terlihat
Tunggu, ini sebenarnya cukup bagus
Untuk mendapatkan hasil yang masuk akal, tetap perlu pertanyaan lanjutan, tetapi saat saya mengujinya awal tahun ini, ia benar-benar gagal pada sebagian besar kueri pengujian
Akan bagus jika menyediakan setidaknya satu kueri gratis agar pengguna bisa mengevaluasi layanannya
- Model cepat Phind Instant sepenuhnya gratis
Phind adalah alat peningkat produktivitas terbaik yang saya temukan dalam beberapa tahun terakhir
Selamat, dan semoga terus membuatnya dengan baik
Baru-baru ini saya mengajukan pertanyaan berikut kepada AI
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
Saya bertanya apakah benar terjadi penyalinan di sini, tetapi AI menjawab dengan sangat yakin bahwa penyalinan tidak terjadi. Ia mengira auto menginfer tipe sebagai referensi const sehingga tidak menyalin, tetapi itu salah; untuk itu diperlukan auto& atau const auto&. Ketika saya bertanya lagi apakah benar-benar yakin, jawabannya malah lebih yakin lagi
Output Godbolt ada di sini https://godbolt.org/z/Mz8x74vxe
Bisa terlihat bahwa "copy" dicetak, dan juga terlihat bahwa metode non-const dapat dipanggil pada objek yang disalin, yang berarti tipenya non-const
Saya juga menanyakan hal yang sama ke Phind dan mendapat jawaban yang sama https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
Bagaimana bisa dua AI yang berbeda, salah satunya bahkan mengklaim khusus untuk coding, gagal dengan seyakin ini?
- Ini menunjukkan bahwa alat-alat seperti ini pada akhirnya adalah mesin pembuat token, dan keluarannya hanya tampak seperti kecerdasan
  Sepertinya belum pada tahap untuk dipercaya secara membabi buta
- Salah satu trik lama untuk membuat LLM menjawab dengan lebih baik adalah memintanya “mari berpikir langkah demi langkah”
  Saya menanyakan pertanyaan di bawah ini kepada Claude dengan cara seperti itu
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
  “Apakah ini membuat salinan? Mari berpikir langkah demi langkah.”
  Jika ingin lebih sering menggunakan alat seperti ini sebagai bantuan, cara ini mungkin berguna

Jawaban AI yang lebih cepat dan berkualitas tinggi untuk semua orang, Phind-405B

Bacaan terkait

1 komentar

Opini Hacker News