2 poin oleh GN⁺ 2024-02-18 | 1 komentar | Bagikan ke WhatsApp
  • Ollama kini bisa dijalankan di Windows dalam lingkungan native, sehingga alur untuk mengambil, menjalankan, dan menghasilkan output dari model bahasa besar lokal menjadi lebih mudah
  • Ollama untuk Windows menyediakan akselerasi GPU bawaan, akses ke seluruh library model, serta Ollama API yang kompatibel dengan OpenAI
  • Saat menjalankan model, Ollama memanfaatkan GPU NVIDIA dan set instruksi CPU modern seperti AVX dan AVX2, tanpa memerlukan konfigurasi atau virtualisasi terpisah
  • Seluruh library model dan model vision dapat digunakan di Windows, dan pada LLaVA 1.6, gambar dapat ditambahkan ke pesan dengan menyeret dan menjatuhkannya ke ollama run
  • Berkat Ollama API yang berjalan di latar belakang, tool yang sudah ada untuk OpenAI dapat dihubungkan dan digunakan dengan model lokal

Pratinjau Windows tersedia

  • Ollama tersedia sebagai pratinjau Windows, sehingga pengguna dapat mengambil, menjalankan, dan menghasilkan output dari model bahasa besar di Windows
  • Ollama untuk Windows menyertakan fitur utama sekaligus

Akselerasi perangkat keras dan cara menjalankan

  • Saat menjalankan model, Ollama menggunakan GPU NVIDIA untuk akselerasi
  • Jika tersedia, Ollama juga memanfaatkan set instruksi CPU modern seperti AVX dan AVX2
  • Dapat langsung digunakan di lingkungan Windows tanpa konfigurasi atau virtualisasi terpisah

Seluruh library model dan model vision

  • Seluruh library model Ollama juga dapat dijalankan di Windows
  • Termasuk model vision
  • Saat menjalankan model vision seperti LLaVA 1.6, gambar dapat ditambahkan ke pesan dengan menyeret dan menjatuhkannya ke ollama run

Ollama API yang berjalan di latar belakang

  • Ollama API berjalan otomatis di latar belakang dan tersedia di http://localhost:11434
  • Tool dan aplikasi dapat terhubung ke API ini tanpa konfigurasi tambahan
  • Berikut contoh pemanggilan Ollama API dari PowerShell
(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json
  • Ollama untuk Windows juga mendukung kompatibilitas OpenAI yang sama seperti platform lain
  • Tool yang sudah ada untuk OpenAI dapat digunakan bersama model lokal melalui Ollama

Instalasi dan umpan balik

  • Untuk mulai menggunakan Windows Preview, unduh OllamaSetup.exe
  • Instal dengan mengklik dua kali file instalasi OllamaSetup.exe
  • Setelah instalasi, buka terminal dan jalankan model dengan perintah berikut
ollama run llama2
  • Saat rilis baru tersedia, Ollama akan memberi tahu tentang pembaruan
  • Jika ada masalah, buka GitHub issue atau bergabung dengan server Discord untuk mengirim umpan balik

1 komentar

 
GN⁺ 2024-02-18
Komentar Hacker News
  • Saya memakai Open-WebUI di desktop sebagai frontend
    Saya mengumpulkan sekitar 12 model Mistral fine-tuned dan beberapa model lain, dan itu sudah cukup layak untuk chat atau tugas ekstraksi informasi
    Aplikasi Open-WebUI tampilannya cukup mirip ChatGPT, dan bisa mencari percakapan juga
    https://github.com/open-webui/open-webui

    • Untuk yang melewatkan pengumuman beberapa jam lalu, open-webui adalah rebranding dari proyek yang dulu disebut ollama-webui
      Saya bisa menjamin ini frontend yang cukup solid untuk Ollama. Berfungsi sangat baik dan laju pengembangannya juga luar biasa cepat
      Setiap beberapa minggu saat mengambil image Docker terbaru, saya selalu terkejut melihat seberapa banyak peningkatannya
      [0] https://github.com/open-webui/open-webui/discussions/764
    • Penasaran, model fine-tuned itu dipakai untuk apa? Ingin tahu apakah Anda melakukan fine-tuning dengan data sendiri, atau memilih model publik untuk tiap jenis tugas
    • Apakah ada alat serupa yang bisa dipakai di terminal?
  • Seperti biasa, tidak ada pembahasan soal dukungan AMD GPU
    Situasinya menyedihkan sampai-sampai saya menyesal membeli AMD kali ini

    • Dukungan AMD GPU jelas merupakan bagian penting dari roadmap proyek
      Sayang kami belum memublikasikannya dengan benar di tempat seperti ROADMAP.md, dan kami akan segera melakukannya
      Beberapa maintainer proyek berasal dari wilayah Toronto, kampung halaman asli ATI Technologies, jadi secara pribadi kami juga ingin Ollama berjalan baik di AMD GPU :)
      Salah satu mesin uji yang kami pakai untuk pekerjaan dukungan AMD menggunakan Radeon RX 7900XT dan cukup cepat. Sangat bisa dibandingkan dengan GPU GeForce 40 series kelas atas
      [1]: https://en.wikipedia.org/wiki/ATI_Technologies
    • Saya juga sama. Sebagai pengguna Linux lama, saya sangat membenci Nvidia karena penderitaan yang mereka sebabkan, jadi saya benar-benar berharap AMD berhasil
      Saya membeli kartu AMD yang bertenaga dengan harga mahal, berharap mereka segera mengejar Nvidia, tetapi kenyataannya sama sekali tidak begitu, dan menurut saya itu karena AMD tidak mengalokasikan sumber daya yang dibutuhkan
      AMD bisa berubah, tetapi harus mulai sekarang juga
    • AMD tampaknya percaya bahwa tren baru komputasi GPU ini akan segera berlalu, jadi mereka merasa tidak perlu berinvestasi
      Ini salah satu tindakan bunuh diri bisnis terburuk yang pernah saya lihat di industri teknologi
    • llamafile mendukung AMD GPU
      Di Windows, berkat library tinyBLAS, Anda hanya perlu driver grafis
      https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
      Secara default, ia membuka tab browser dengan GUI chat, dan juga bisa dijalankan sebagai chatbot command-line seperti Ollama, seperti di bawah ini
      https://justine.lol/oneliners/#chat
    • Seperti yang dikatakan orang lain, Ollama secara internal memakai Llama.CPP, dan Llama.CPP baru-baru ini merilis dukungan Vulkan yang nantinya juga akan berjalan di AMD GPU
      Saya berhasil menjalankannya di laptop AMD dengan mengompilasi llama.cpp dengan dukungan Vulkan dan memakainya bersama aplikasi saya [1], tetapi Ollama memiliki beberapa asumsi tentang cara menemukan GPU yang tersedia di mesin, jadi saya belum berhasil membuatnya bekerja
      [1]: https://msty.app
  • Kalau Anda mencari UI chat yang bagus untuk dipakai di atas Ollama, dan ingin mendukung model online maupun lokal, ada aplikasi [1] yang sedang saya buat
    Fokusnya pada penggunaan offline dan privasi, dan pagi ini saya merilis dukungan Windows
    [1]: https://msty.app

    • Sebagai catatan, terdeteksi sebagai Program:Win32/Wacapew.C!ml
    • Agak di luar topik, landing page-nya dibuat dengan apa?
    • Apakah ini mirip dengan LLM Studio?
    • Ada rencana untuk klien Linux juga?
    • Apakah Gemini API juga akan ditambahkan?
  • Saya penasaran apa alasan begitu banyak port AI “berjalan secara lokal” seperti ini justru dijalankan sebagai server
    Apakah para developer lupa bahwa mereka bisa menjalankan kode di dalam proses UI?
    Saya melihat pola yang sama pada runner Stable Diffusion maupun host LLM
    Kalau tidak benar-benar perlu, saya tidak ingin menjalankan layanan latar belakang secara lokal, jadi kenapa semua implementasi seperti ini tampaknya bekerja dengan cara begitu?

    • Pertanyaan yang benar-benar menarik. Menurut saya kedua model distribusi bisa sama-sama ada
      Analogi yang bagus mungkin mesin basis data. SQLite adalah library, sedangkan Postgres adalah layanan yang berjalan jangka panjang; keduanya banyak dipakai dan masing-masing punya trade-off
    • Selain waktu pemuatan awal yang disebut orang lain, bisa saja beberapa aplikasi ingin memakai mesin inferensi yang sama atau LLM yang sama untuk berbagai keperluan
      Faktor besar lain menurut saya adalah membuat mesin, lingkungan, dan sistem operasi berada dalam kondisi agar model bisa berjalan efisien itu tidak mudah
      Memasukkan kompleksitas ini ke dalam container, yakni “server”, sangat membantu untuk penyiapan awal serta mengikuti peningkatan dan pembaruan yang terus berjalan
    • Memuat bobot secara dadakan setiap kali itu tidak masuk akal. Sebab harus terus memindahkan memori berukuran beberapa gigabit
      Sebagai gantinya, struktur yang tepat adalah proses yang berjalan jangka panjang menangani banyak permintaan prediksi
      Kemungkinan besar suatu saat nanti ini juga akan disediakan untuk beberapa klien
    • Menurut saya pribadi ini hal yang bagus
      Saya tidak punya laptop atau workstation yang kuat, tapi punya server headless multi-GPU
      Berkat proyek seperti ini, saya bisa bereksperimen dengan LLM di server dan mengekspos API serta UI web ke jaringan internal
    • Karena alasan kecepatan, saya menjalankan Ollama di PC gaming besar, tapi ingin memakai modelnya juga dari tempat lain di rumah
      Jadi Open-WebUI saya jalankan di chat.domain.example, dan Ollama di api.chat.domain.example. Keduanya hanya bisa diakses dari jaringan lokal
      Dengan konfigurasi ini, laptop dan ponsel bisa memakai model lokal dengan kecepatan penuh lewat UI web, sementara Raspberry Pi yang menjalankan asisten suara eksperimental bisa mengirim kueri ke Ollama melalui endpoint API
      Berkat GPU gaming, semuanya berjalan pada kecepatan maksimal. Logika yang sama berlaku juga untuk konfigurasi Stable Diffusion
  • Saya tidak tahu bahwa pengguna Windows belum bisa memakai Ollama
    Rasanya baru beberapa tahun lalu justru pengguna Mac yang harus menunggu

    • Sejak beberapa bulan lalu, di WSL sudah berjalan dengan baik, termasuk dukungan GPU penuh
      Hanya saja bagi kebanyakan orang itu tidak terlalu praktis, dan dukungan Windows native adalah pelengkap yang sangat bagus
    • Saya sudah cukup lama menjalankan Ollama di Windows WSL
      Pada akhirnya itu x86 Linux, jadi semuanya berjalan begitu saja dengan baik
  • Saya penasaran bagaimana LM Studio(https://lmstudio.ai) yang closed-source dibandingkan dengan Ollama

    • Hal bagusnya adalah pengaturannya sangat mudah, model/bobot bisa diunduh dan dimuat dengan sekali klik, dan bekerja dengan sangat baik
      Yang tidak saya suka adalah di Windows, bobotnya dimasukkan ke struktur direktori milik sendiri di bawah /users/username/.cache, memakan puluhan GB tanpa memberi tahu, dan tidak membiarkannya dibagikan dengan klien lain
      Ia juga tidak mengizinkan impor model yang diunduh sendiri, fitur pencariannya buruk, dan saya tidak suka cara mereka menangani pengaturan instance
  • Sepertinya sudah tersedia di Linux dan Mac
    Perubahan kali ini adalah penambahan Windows: https://github.com/ollama/ollama

  • Kebetulan saya memang hendak memasang sendiri kebutuhan seperti ini dan sedikit mencobanya, lalu tulisan ini muncul
    Setelah diuji, menarik bahwa ini benar-benar sederhana dan bekerja dengan baik
    Namun sepertinya masalahnya adalah installer-nya lagi-lagi tidak punya opsi untuk memilih lokasi tujuan. Jika ada beberapa pengguna di server, masing-masing akan punya salinan pribadi, bukan satu instalasi global

  • Saya menjalankan Ollama dengan niat membuat workflow pemeriksaan tata bahasa/salah ketik untuk menulis
    Ini tidak terkait langsung dengan Ollama sendiri, dan sejauh ini Ollama berjalan dengan baik
    Apakah ada tempat yang cocok untuk menanyakan hal seperti ini? Saya penasaran apakah ada semacam Stack Overflow untuk LLM

  • Saya mencoba memasang dan menjalankan model llama2 di Mac Mini baru, tetapi terjadi kernel panic total. Ini apa?

    • Hal seperti itu bisa terjadi jika model yang dipilih lebih besar daripada unified memory yang tersedia
      Versi llama2 mana yang Anda pilih, dan berapa besar unified memory yang tersedia?