- Artikel berjudul 'Model Phind melampaui GPT-4 dalam coding dengan kecepatan GPT-3.5 dan konteks 16k'
- Model Phind melampaui GPT-4 dalam tugas coding sambil mempertahankan kecepatan GPT-3.5 dan konteks 16k
- Situs web www.phind.com memerlukan peninjauan keamanan sebelum diakses
- Situs web memberi tahu bahwa browser pengguna sudah usang dan perlu diperbarui
- Informasi tambahan tentang dukungan browser dapat dilihat di halaman pengembang Cloudflare
- Performa dan keamanan situs web disediakan oleh Cloudflare
1 komentar
Opini Hacker News
Saya sempat membandingkan Phind dan GPT-4 selama beberapa menit dengan pertanyaan desain tingkat tinggi yang cukup samar tentang antrean kerja terdistribusi. Phind secara aktif merekomendasikan library spesifik terkait implementasi, cocok dengan riset saya, dan juga memberi contoh kode memakai library yang direkomendasikannya.
Phind menyertakan banyak sumber relevan seperti GitHub dan Stack Overflow, sehingga bagus sebagai titik awal riset lanjutan, dan rekomendasi pertanyaan lanjutannya juga cukup baik.
Namun GPT-4 punya kualitas jawaban yang lebih baik, dan kalau ini wawancara desain sistem, ia terlihat seperti kandidat yang lebih baik. Ia juga menyinggung konteks di luar pertanyaan seperti logging dan metrik, lebih mampu menangkap “pertanyaan di balik pertanyaan”, dan dalam pertanyaan lanjutan terasa lebih kuat dalam mempersempit arah percakapan.
Ini bukan perbandingan kemampuan coding seperti implementasi algoritme, melainkan perbandingan sebagai alat bantu berpikir untuk desain tingkat tinggi dan keputusan arsitektur.
Saya menanyakan pertanyaan jebakan yang sering saya ajukan ke LLM: “Berikan 5 makalah dan kode machine learning terbaru yang memakai data geospasial seperti GeoJSON sebagai input dan output.”
Sejauh pemahaman saya, bidang riset terbaru seperti itu tidak ada, dan data informasi geografis bersifat tidak kontinu sehingga kurang cocok untuk transformer, serta sangat bergantung konteks sehingga juga sulit untuk pendekatan lain. Saya akan mengikuti penjelasan yang lebih baik dari pakar machine learning sungguhan.
Biasanya LLM mengarang 5 makalah dan kode yang tidak ada, tetapi Phind memberikan 5 tautan yang benar-benar ada, sekaligus menjelaskan mengapa itu bukan makalah+kode yang memakai data GIS. Itu jawaban terbaik yang pernah saya terima sejauh ini.
Tanpa menggunakan penjelajahan web ChatGPT 4: https://chat.openai.com/share/7e11b4a6-52f2-441a-8614-7266c3...
Sebaliknya, data penginderaan jauh atau citra satelit bisa disimpan dalam format raster seperti GeoTIFF, yang pada dasarnya adalah gambar TIFF dengan informasi georeferensi.
Machine learning pada citra satelit dengan input dan output sama-sama berupa data geospasial sangat mungkin dilakukan. Misalnya pada klasifikasi penggunaan lahan, inputnya bisa berupa citra multispektral dan outputnya berupa gambar yang tiap nilai pikselnya mewakili jenis penggunaan lahan yang teridentifikasi.
Machine learning juga bisa dipakai untuk deteksi footprint bangunan dan ekstraksi kontur berbasis citra satelit, dan poligon output-nya bisa disimpan sebagai GeoJSON. Menurut saya, hal-hal seperti ini termasuk contoh “machine learning yang memakai data geospasial sebagai input dan output.”
[1]: https://azure.microsoft.com/en-us/blog/how-to-extract-buildi...
Saya senang kompetisi makin banyak, tetapi menurut saya GPT-4 masih lebih baik. Saat saya meminta query untuk mengisi
teaserdengan kira-kira 200 kata pertama darifull_textpada tabel PostgreSQL, Phind memberi jawaban yang membuat fungsi PL/pgSQL terpisah dan menghitung kata dengan loop, sedangkan GPT-4 menyarankan queryUPDATElangsung dengangenerate_seriesdanSTRING_AGG.UPDATE your_table SET teaser = substring(full_text from '(\S+\s*){1,200}').Saya penasaran apakah klaim “bisa sampai 100 token per detik dalam satu stream, sementara GPT-4 paling banter sekitar 20 token per detik” itu hasil dari penggunaan batch processing. Kalau iya, itu cukup mengesankan
Bagian yang menyebut Phind Model mungkin membutuhkan lebih banyak percobaan generasi daripada GPT-4 untuk sampai pada jawaban benar di pertanyaan sulit tampaknya sebagian adalah masalah tuning sampler
Kalau belum dipakai, perlu melihat sampling berbasis sintaks (https://github.com/ggerganov/llama.cpp/pull/1773) dan sampling dinamis seperti
mirostat,dynatemp(https://github.com/LostRuins/koboldcpp/pull/464)Di implementasi Nvidia pun sepertinya akan berjalan kalau hanya sampling-nya diganti ke versi Hugging Face, dan kemampuan mengimplementasikan sendiri fitur eksperimental seperti ini adalah keuntungan besar dari lepas dari OpenAI
Saya banyak memakai GPT-4, dan pada beberapa tugas pemrograman pertama yang saya berikan, Phind secara mengejutkan setara dengan GPT-4. Jika mempertimbangkan jendela konteks Phind yang panjang, pada sebagian tugas tampaknya ada kemungkinan melampaui GPT-4, dan ini pencapaian besar yang mengesankan
Saya suka Phind mencantumkan sumber dari apa yang diambilnya. Menurut saya ini harus diwajibkan untuk semua LLM, dan karena itu saya sering menyarankan orang memakai Phind daripada ChatGPT
Pengetahuan tersebar di jutaan contoh yang mempelajari bahasa dan bahasa manusia, dan tidak tersisa dalam bentuk yang dapat dipahami manusia
Dulu saya membandingkannya dengan GPT-4 dengan memintanya mencoba program yang saya tulis sendiri, tetapi Phind tidak benar-benar memahami apa yang saya inginkan, sedangkan GPT-4 memahaminya dengan sempurna dan siap terus melanjutkan prompt sampai selesai
https://www.phind.com/agent?cache=cloeowfla000dl1084ermly3c
vs
https://chat.openai.com/share/4147da33-3669-4657-88fa-3a9dfc...
Mungkin tidak mewakili keseluruhan, tetapi hasilnya melenceng ke hal-hal aneh yang tidak diminta dan informasi dasar yang sudah saya tahu
Jika memakai Phind Model di pencarian default, sepertinya bekerja dengan baik: https://www.phind.com/search?cache=ln6dpdtv5auwn4cq1ofg3gs9
Fenomena seperti ini juga bisa terlihat pada pencarian Bing di ChatGPT, dan saya juga pernah mengalaminya di proyek saya
Mengejutkan bahwa CodeLlama mendukung hingga 16k token. Jendela token adalah salah satu batasan dalam membuat AI yang mengingat pengguna dan melanjutkan percakapan sebelumnya
Untuk aplikasi AI masa depan di mana percakapan panjang berlanjut selama berminggu-minggu, berbulan-bulan, atau bertahun-tahun, jendela konteks besar adalah kunci. Teknologinya sekarang saja sudah mengesankan, tetapi akan lebih menarik lagi jika ia bisa mengingat semua hal yang pernah dipelajari dan dikerjakan bersama seperti pair programmer sungguhan
[0] https://huggingface.co/docs/transformers/main/model_doc/llam...
Saya tahu ini tidak populer, tetapi saya berharap ada cara untuk memakai ini di dalam Emacs atau Vim. Saya tidak ingin lagi memakai VS Code
Dalam pengembangan Java, IntelliJ pernah seperti itu, dan menurut saya itu sangat tidak sehat bagi ekosistem. Saya sangat bersyukur Copilot mendukung Vim, tetapi khawatir suatu saat nanti itu tidak lagi demikian
Misalnya, ada argumen bahwa musik dan seni menjadi makin seragam ke bawah karena membuat album yang bernilai 10 dolar bagi puluhan juta orang jauh lebih menguntungkan daripada membuat album yang bernilai satu juta dolar bagi beberapa puluh orang
Itu karena harga album pada akhirnya tetap dipatok 10 dolar, dan baru sekarang saya terpikir bahwa fenomena yang sama juga berlaku pada alat pengembangan
:'<,'>y|call system('firefox ?q='.shellescape(@*).' &')untuk membuat shortcut yang mengirim teks terpilih ke Phind atau LLM lainMasalah yang tersisa adalah teksnya tidak di-URL encode, dan mungkin ada cara yang elegan, tetapi saya belum menemukannya
Di M1 Mac, biasanya butuh sekitar 7 detik per inferensi sehingga lebih lambat dari yang saya inginkan, dan konteks apa yang dikirim juga masih sangat sederhana, tetapi masih nyaris layak dipakai
Saya tidak berniat merilisnya karena bergantung pada façade Python untuk bertukar request–response bergaya Copilot dengan ollama, tetapi jika ada yang tertarik, saya bisa merapikannya dan membagikannya
Setelah membandingkannya secara cepat, hasilnya sangat bagus, dan jika mempertimbangkan keunggulan berupa pencarian web dan referensi, rasanya mirip GPT-4 tetapi lebih cepat. Namun ada dua hal kecil yang agak disayangkan
Pada mode gelap, font isi jawaban terlalu tebal dan terang sehingga paragraf non-kode yang panjang sulit dibaca, sedangkan mode terang secara keseluruhan terlalu cerah. Untuk teks panjang, latar gelap abu-abu seperti OpenAI atau latar terang sepia seperti HN akan lebih baik
Di halaman harga, saya juga bingung apa maksud GPT-4 dalam “500+ best model uses (GPT-4) per hari”. Rasanya aneh ketika Phind mengumumkan dirinya sebagai pesaing GPT-4 tetapi pada saat yang sama mencantumkan penggunaan GPT-4 dalam harga