12 poin oleh GN⁺ 2024-12-06 | 7 komentar | Bagikan ke WhatsApp
  • Seiring teknologi AI semakin berkembang, kini AI dapat menyelesaikan masalah yang lebih kompleks dan penting, dan untuk mewujudkannya dibutuhkan sumber daya komputasi yang signifikan
  • ChatGPT Pro adalah paket berlangganan $200 per bulan yang memungkinkan akses lebih luas ke model dan alat terbaru OpenAI
    • o1: model paling cerdas
    • Termasuk o1-mini, GPT-4o, dan Advanced Voice
    • o1 pro mode: memanfaatkan lebih banyak sumber daya komputasi untuk berpikir lebih mendalam dan memberikan jawaban yang lebih canggih untuk masalah yang kompleks
    • Fitur produktivitas yang lebih kuat akan ditambahkan di masa mendatang
  • Dirancang untuk peneliti, insinyur, dan individu yang melakukan pekerjaan berfokus riset, untuk meningkatkan produktivitas dan membantu mereka berada di garis terdepan perkembangan AI
  • o1 pro mode pada ChatGPT Pro adalah model lanjutan yang memberikan respons dengan tingkat keandalan tinggi
    • Khususnya memberikan respons yang akurat dan komprehensif di bidang data science, pemrograman, dan analisis hukum
    • Dibandingkan o1 dan o1-preview, model ini menunjukkan performa yang lebih baik pada benchmark machine learning yang sulit di bidang matematika, sains, dan coding

Perbandingan performa utama (berdasarkan akurasi pass@1)

  • Kompetisi matematika (AIME 2024)
    • o1-preview: 50
    • o1: 78
    • o1 pro mode: 86
  • Kompetisi coding (Codeforces)
    • o1-preview: 62
    • o1: 89
    • o1 pro mode: 90
  • Pertanyaan sains tingkat doktoral (GPQA Diamond)
    • o1-preview: 74
    • o1: 76
    • o1 pro mode: 79

Peningkatan keandalan: evaluasi "4/4 reliability"

  • Standar evaluasi yang lebih ketat diperkenalkan: hanya jika 4 dari 4 percobaan semuanya menghasilkan jawaban benar maka dianggap terselesaikan

Perbandingan performa utama (berdasarkan keandalan 4/4)

  • Kompetisi matematika (AIME 2024)
    • o1-preview: 37
    • o1: 67
    • o1 pro mode: 80
  • Kompetisi coding (Codeforces)
    • o1-preview: 26
    • o1: 64
    • o1 pro mode: 75
  • Pertanyaan sains tingkat doktoral (GPQA Diamond)
    • o1-preview: 58
    • o1: 67
    • o1 pro mode: 74

7 komentar

 
christallire 2024-12-11

Saya sudah mencoba versi Pro, dan kekurangan fatalnya adalah context window yang pendek. Memang bisa menulis konten yang panjang, tetapi setelah melewati titik tertentu, isi atau format yang semula sedang ditulis perlahan mulai berantakan.

 
riki3 2024-12-06

OpenAI semakin lama semakin jauh dari kata open.
Mungkin memang inilah kenyataannya.

 
tsboard 2024-12-06

Saya sempat mengira biaya yang tinggi akan membuat tarif langganan Plus naik, tetapi ternyata bukan begitu; mereka justru membidik pasar dengan meluncurkan lini yang lebih mahal. Saya sendiri memang sangat sering memakainya, tetapi sepertinya saya tidak sampai membutuhkan versi Pro. haha

 
windrod 2024-12-06

Saya sedang memakai Plus. Namun sejak beberapa waktu lalu, saat menjalankan prompt sejenis dengan mesin sejenis, saya merasa hasilnya berubah. Rasanya performanya tidak lagi sebagus sebelumnya.

Saya jadi berpikir jangan-jangan model-model yang bisa dipakai di Plus lama sengaja diturunkan kemampuannya lalu dipotong-potong untuk dijual.

Semakin mahal biayanya, biasanya ada keandalan terhadap performa, tetapi layanan AI tidak punya hal seperti itu. Sepertinya besar kemungkinan AI juga akan bergerak ke arah itu, seperti koneksi internet yang suatu hari diam-diam tiba-tiba dibatasi.

 
vndk2234 2024-12-09

Saya juga sedang memakai Plus, tapi mungkin ini soal arah jawabannya? Namanya sama-sama o1, tetapi kesan keseluruhannya sudah benar-benar berbeda dibanding versi preview. Sampai-sampai saya jadi berpikir jangan-jangan ada yang menekan output tokennya.

 
reagea0 2024-12-09

Saya setuju. Saya juga merasa bahwa meskipun menggunakan versi dengan cap waktu yang sama, performanya naik-turun tanpa ada pemberitahuan khusus. Agak di luar topik, tetapi untuk klaim bahwa layanan tertentu tidak mengumpulkan informasi pun tidak ada cara untuk memverifikasinya, jadi pada akhirnya rasanya itu hanya menjadi soal kepercayaan.

 
GN⁺ 2024-12-06
Pendapat Hacker News
  • OpenAI sedang bersaing antara laju perkembangan alternatif open-source dan kebutuhan untuk menghasilkan pendapatan. Keberhasilannya bergantung pada apakah perusahaan-perusahaan besar akan memilih solusi AI OpenAI yang terintegrasi dan aman. Ini mirip dengan strategi komputasi enterprise IBM.

  • Saya kecewa karena context window versi Pro pendek. Sebagai pelanggan Plus, saya berharap context window yang lebih panjang, tetapi sama sekali tidak ada pembahasan soal itu. Saya sangat menyarankan para pesaing untuk mempertimbangkan context window sebagai pembeda.

  • Kesan pertama setelah membeli langganan Pro adalah model o1-Pro yang baru merupakan penulis yang sangat hebat. Model ini menangani prompt panjang dan analisis data yang kompleks dengan baik.

  • Paket untuk daya komputasi yang lebih besar bisa dijelaskan sebagai efek umpan dalam taktik penetapan harga. Opsi yang mahal diperkenalkan agar paket lain terlihat lebih masuk akal.

  • Saya membayar 166 euro per bulan untuk Claude Teams. Alasannya adalah fitur project yang dipadukan dengan kemampuan mengunggah banyak file dan mengajukan pertanyaan dalam konteks tertentu. Fitur ini sangat kuat, seolah-olah memiliki para peneliti di ujung jari.

  • Saya mendapatkan performa yang lebih baik dari Anthropic dengan biaya yang jauh lebih murah. Saya skeptis terhadap klaim bahwa GPT baru 10 kali lebih unggul daripada Claude.

  • Saya meragukan apakah OpenAI bisa mencapai AI "umum" sebelum para investor mulai lelah. Mungkin mereka telah mengisyaratkan lewat kesuksesan ChatGPT bahwa mereka punya jalur untuk mencapainya.

  • Kesulitan utama dalam penetapan harga langganan bulanan untuk penggunaan produk yang "tak terbatas" adalah 1% power user yang menggunakannya secara ekstrem. Harga ChatGPT Pro ditujukan pada power user/perusahaan.

  • Saya menghabiskan 4,5 jam untuk menulis rumus Google Sheets yang kompleks. Jika mode ChatGPT Pro yang baru lebih cepat, itu memberi keuntungan besar dari sisi penghematan waktu.

  • Ada kasus penggunaan model o1 di pabrik wawancara untuk menjalankan wawancara. Untuk jenis use case seperti ini, biaya bulanan $200 bisa terasa murah.