Ollama kini tersedia sebagai versi pratinjau di Windows

(ollama.com)

2 poin oleh GN⁺ 2024-02-18 | 1 komentar | Bagikan ke WhatsApp

Ollama kini bisa dijalankan di Windows dalam lingkungan native, sehingga alur untuk mengambil, menjalankan, dan menghasilkan output dari model bahasa besar lokal menjadi lebih mudah
Ollama untuk Windows menyediakan akselerasi GPU bawaan, akses ke seluruh library model, serta Ollama API yang kompatibel dengan OpenAI
Saat menjalankan model, Ollama memanfaatkan GPU NVIDIA dan set instruksi CPU modern seperti AVX dan AVX2, tanpa memerlukan konfigurasi atau virtualisasi terpisah
Seluruh library model dan model vision dapat digunakan di Windows, dan pada LLaVA 1.6, gambar dapat ditambahkan ke pesan dengan menyeret dan menjatuhkannya ke ollama run
Berkat Ollama API yang berjalan di latar belakang, tool yang sudah ada untuk OpenAI dapat dihubungkan dan digunakan dengan model lokal

Pratinjau Windows tersedia

Ollama tersedia sebagai pratinjau Windows, sehingga pengguna dapat mengambil, menjalankan, dan menghasilkan output dari model bahasa besar di Windows
Ollama untuk Windows menyertakan fitur utama sekaligus
- Akselerasi GPU bawaan
  - Akses ke seluruh library model
  - Ollama API dengan kompatibilitas OpenAI

Akselerasi perangkat keras dan cara menjalankan

Saat menjalankan model, Ollama menggunakan GPU NVIDIA untuk akselerasi
Jika tersedia, Ollama juga memanfaatkan set instruksi CPU modern seperti AVX dan AVX2
Dapat langsung digunakan di lingkungan Windows tanpa konfigurasi atau virtualisasi terpisah

Seluruh library model dan model vision

Seluruh library model Ollama juga dapat dijalankan di Windows
Termasuk model vision
Saat menjalankan model vision seperti LLaVA 1.6, gambar dapat ditambahkan ke pesan dengan menyeret dan menjatuhkannya ke ollama run

Ollama API yang berjalan di latar belakang

Ollama API berjalan otomatis di latar belakang dan tersedia di http://localhost:11434
Tool dan aplikasi dapat terhubung ke API ini tanpa konfigurasi tambahan
Berikut contoh pemanggilan Ollama API dari PowerShell

(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json

Ollama untuk Windows juga mendukung kompatibilitas OpenAI yang sama seperti platform lain
Tool yang sudah ada untuk OpenAI dapat digunakan bersama model lokal melalui Ollama

Instalasi dan umpan balik

Untuk mulai menggunakan Windows Preview, unduh OllamaSetup.exe
Instal dengan mengklik dua kali file instalasi OllamaSetup.exe
Setelah instalasi, buka terminal dan jalankan model dengan perintah berikut

ollama run llama2

Saat rilis baru tersedia, Ollama akan memberi tahu tentang pembaruan
Jika ada masalah, buka GitHub issue atau bergabung dengan server Discord untuk mengirim umpan balik

1 komentar

GN⁺ 2024-02-18

Komentar Hacker News

Saya memakai Open-WebUI di desktop sebagai frontend
Saya mengumpulkan sekitar 12 model Mistral fine-tuned dan beberapa model lain, dan itu sudah cukup layak untuk chat atau tugas ekstraksi informasi
Aplikasi Open-WebUI tampilannya cukup mirip ChatGPT, dan bisa mencari percakapan juga
https://github.com/open-webui/open-webui
- Untuk yang melewatkan pengumuman beberapa jam lalu, open-webui adalah rebranding dari proyek yang dulu disebut ollama-webui
  Saya bisa menjamin ini frontend yang cukup solid untuk Ollama. Berfungsi sangat baik dan laju pengembangannya juga luar biasa cepat
  Setiap beberapa minggu saat mengambil image Docker terbaru, saya selalu terkejut melihat seberapa banyak peningkatannya
  [0] https://github.com/open-webui/open-webui/discussions/764
- Penasaran, model fine-tuned itu dipakai untuk apa? Ingin tahu apakah Anda melakukan fine-tuning dengan data sendiri, atau memilih model publik untuk tiap jenis tugas
- Apakah ada alat serupa yang bisa dipakai di terminal?
Seperti biasa, tidak ada pembahasan soal dukungan AMD GPU
Situasinya menyedihkan sampai-sampai saya menyesal membeli AMD kali ini
- Dukungan AMD GPU jelas merupakan bagian penting dari roadmap proyek
  Sayang kami belum memublikasikannya dengan benar di tempat seperti ROADMAP.md, dan kami akan segera melakukannya
  Beberapa maintainer proyek berasal dari wilayah Toronto, kampung halaman asli ATI Technologies, jadi secara pribadi kami juga ingin Ollama berjalan baik di AMD GPU :)
  Salah satu mesin uji yang kami pakai untuk pekerjaan dukungan AMD menggunakan Radeon RX 7900XT dan cukup cepat. Sangat bisa dibandingkan dengan GPU GeForce 40 series kelas atas
  [1]: https://en.wikipedia.org/wiki/ATI_Technologies
- Saya juga sama. Sebagai pengguna Linux lama, saya sangat membenci Nvidia karena penderitaan yang mereka sebabkan, jadi saya benar-benar berharap AMD berhasil
  Saya membeli kartu AMD yang bertenaga dengan harga mahal, berharap mereka segera mengejar Nvidia, tetapi kenyataannya sama sekali tidak begitu, dan menurut saya itu karena AMD tidak mengalokasikan sumber daya yang dibutuhkan
  AMD bisa berubah, tetapi harus mulai sekarang juga
- AMD tampaknya percaya bahwa tren baru komputasi GPU ini akan segera berlalu, jadi mereka merasa tidak perlu berinvestasi
  Ini salah satu tindakan bunuh diri bisnis terburuk yang pernah saya lihat di industri teknologi
- llamafile mendukung AMD GPU
  Di Windows, berkat library tinyBLAS, Anda hanya perlu driver grafis
  https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
  Secara default, ia membuka tab browser dengan GUI chat, dan juga bisa dijalankan sebagai chatbot command-line seperti Ollama, seperti di bawah ini
  https://justine.lol/oneliners/#chat
- Seperti yang dikatakan orang lain, Ollama secara internal memakai Llama.CPP, dan Llama.CPP baru-baru ini merilis dukungan Vulkan yang nantinya juga akan berjalan di AMD GPU
  Saya berhasil menjalankannya di laptop AMD dengan mengompilasi llama.cpp dengan dukungan Vulkan dan memakainya bersama aplikasi saya [1], tetapi Ollama memiliki beberapa asumsi tentang cara menemukan GPU yang tersedia di mesin, jadi saya belum berhasil membuatnya bekerja
  [1]: https://msty.app
Kalau Anda mencari UI chat yang bagus untuk dipakai di atas Ollama, dan ingin mendukung model online maupun lokal, ada aplikasi [1] yang sedang saya buat
Fokusnya pada penggunaan offline dan privasi, dan pagi ini saya merilis dukungan Windows
[1]: https://msty.app
- Sebagai catatan, terdeteksi sebagai Program:Win32/Wacapew.C!ml
- Agak di luar topik, landing page-nya dibuat dengan apa?
- Apakah ini mirip dengan LLM Studio?
- Ada rencana untuk klien Linux juga?
- Apakah Gemini API juga akan ditambahkan?
Saya penasaran apa alasan begitu banyak port AI “berjalan secara lokal” seperti ini justru dijalankan sebagai server
Apakah para developer lupa bahwa mereka bisa menjalankan kode di dalam proses UI?
Saya melihat pola yang sama pada runner Stable Diffusion maupun host LLM
Kalau tidak benar-benar perlu, saya tidak ingin menjalankan layanan latar belakang secara lokal, jadi kenapa semua implementasi seperti ini tampaknya bekerja dengan cara begitu?
- Pertanyaan yang benar-benar menarik. Menurut saya kedua model distribusi bisa sama-sama ada
  Analogi yang bagus mungkin mesin basis data. SQLite adalah library, sedangkan Postgres adalah layanan yang berjalan jangka panjang; keduanya banyak dipakai dan masing-masing punya trade-off
- Selain waktu pemuatan awal yang disebut orang lain, bisa saja beberapa aplikasi ingin memakai mesin inferensi yang sama atau LLM yang sama untuk berbagai keperluan
  Faktor besar lain menurut saya adalah membuat mesin, lingkungan, dan sistem operasi berada dalam kondisi agar model bisa berjalan efisien itu tidak mudah
  Memasukkan kompleksitas ini ke dalam container, yakni “server”, sangat membantu untuk penyiapan awal serta mengikuti peningkatan dan pembaruan yang terus berjalan
- Memuat bobot secara dadakan setiap kali itu tidak masuk akal. Sebab harus terus memindahkan memori berukuran beberapa gigabit
  Sebagai gantinya, struktur yang tepat adalah proses yang berjalan jangka panjang menangani banyak permintaan prediksi
  Kemungkinan besar suatu saat nanti ini juga akan disediakan untuk beberapa klien
- Menurut saya pribadi ini hal yang bagus
  Saya tidak punya laptop atau workstation yang kuat, tapi punya server headless multi-GPU
  Berkat proyek seperti ini, saya bisa bereksperimen dengan LLM di server dan mengekspos API serta UI web ke jaringan internal
- Karena alasan kecepatan, saya menjalankan Ollama di PC gaming besar, tapi ingin memakai modelnya juga dari tempat lain di rumah
  Jadi Open-WebUI saya jalankan di chat.domain.example, dan Ollama di api.chat.domain.example. Keduanya hanya bisa diakses dari jaringan lokal
  Dengan konfigurasi ini, laptop dan ponsel bisa memakai model lokal dengan kecepatan penuh lewat UI web, sementara Raspberry Pi yang menjalankan asisten suara eksperimental bisa mengirim kueri ke Ollama melalui endpoint API
  Berkat GPU gaming, semuanya berjalan pada kecepatan maksimal. Logika yang sama berlaku juga untuk konfigurasi Stable Diffusion
Saya tidak tahu bahwa pengguna Windows belum bisa memakai Ollama
Rasanya baru beberapa tahun lalu justru pengguna Mac yang harus menunggu
- Sejak beberapa bulan lalu, di WSL sudah berjalan dengan baik, termasuk dukungan GPU penuh
  Hanya saja bagi kebanyakan orang itu tidak terlalu praktis, dan dukungan Windows native adalah pelengkap yang sangat bagus
- Saya sudah cukup lama menjalankan Ollama di Windows WSL
  Pada akhirnya itu x86 Linux, jadi semuanya berjalan begitu saja dengan baik
Saya penasaran bagaimana LM Studio(https://lmstudio.ai) yang closed-source dibandingkan dengan Ollama
- Hal bagusnya adalah pengaturannya sangat mudah, model/bobot bisa diunduh dan dimuat dengan sekali klik, dan bekerja dengan sangat baik
  Yang tidak saya suka adalah di Windows, bobotnya dimasukkan ke struktur direktori milik sendiri di bawah /users/username/.cache, memakan puluhan GB tanpa memberi tahu, dan tidak membiarkannya dibagikan dengan klien lain
  Ia juga tidak mengizinkan impor model yang diunduh sendiri, fitur pencariannya buruk, dan saya tidak suka cara mereka menangani pengaturan instance
Sepertinya sudah tersedia di Linux dan Mac
Perubahan kali ini adalah penambahan Windows: https://github.com/ollama/ollama
Kebetulan saya memang hendak memasang sendiri kebutuhan seperti ini dan sedikit mencobanya, lalu tulisan ini muncul
Setelah diuji, menarik bahwa ini benar-benar sederhana dan bekerja dengan baik
Namun sepertinya masalahnya adalah installer-nya lagi-lagi tidak punya opsi untuk memilih lokasi tujuan. Jika ada beberapa pengguna di server, masing-masing akan punya salinan pribadi, bukan satu instalasi global
Saya menjalankan Ollama dengan niat membuat workflow pemeriksaan tata bahasa/salah ketik untuk menulis
Ini tidak terkait langsung dengan Ollama sendiri, dan sejauh ini Ollama berjalan dengan baik
Apakah ada tempat yang cocok untuk menanyakan hal seperti ini? Saya penasaran apakah ada semacam Stack Overflow untuk LLM
Saya mencoba memasang dan menjalankan model llama2 di Mac Mini baru, tetapi terjadi kernel panic total. Ini apa?
- Hal seperti itu bisa terjadi jika model yang dipilih lebih besar daripada unified memory yang tersedia
  Versi llama2 mana yang Anda pilih, dan berapa besar unified memory yang tersedia?

Ollama kini tersedia sebagai versi pratinjau di Windows

Pratinjau Windows tersedia

Akselerasi GPU bawaan

Akselerasi perangkat keras dan cara menjalankan

Seluruh library model dan model vision

Ollama API yang berjalan di latar belakang

Instalasi dan umpan balik

Bacaan terkait

1 komentar

Komentar Hacker News