- Ollama kini bisa dijalankan di Windows dalam lingkungan native, sehingga alur untuk mengambil, menjalankan, dan menghasilkan output dari model bahasa besar lokal menjadi lebih mudah
- Ollama untuk Windows menyediakan akselerasi GPU bawaan, akses ke seluruh library model, serta Ollama API yang kompatibel dengan OpenAI
- Saat menjalankan model, Ollama memanfaatkan GPU NVIDIA dan set instruksi CPU modern seperti AVX dan AVX2, tanpa memerlukan konfigurasi atau virtualisasi terpisah
- Seluruh library model dan model vision dapat digunakan di Windows, dan pada LLaVA 1.6, gambar dapat ditambahkan ke pesan dengan menyeret dan menjatuhkannya ke
ollama run
- Berkat Ollama API yang berjalan di latar belakang, tool yang sudah ada untuk OpenAI dapat dihubungkan dan digunakan dengan model lokal
Pratinjau Windows tersedia
- Ollama tersedia sebagai pratinjau Windows, sehingga pengguna dapat mengambil, menjalankan, dan menghasilkan output dari model bahasa besar di Windows
- Ollama untuk Windows menyertakan fitur utama sekaligus
Akselerasi perangkat keras dan cara menjalankan
- Saat menjalankan model, Ollama menggunakan GPU NVIDIA untuk akselerasi
- Jika tersedia, Ollama juga memanfaatkan set instruksi CPU modern seperti AVX dan AVX2
- Dapat langsung digunakan di lingkungan Windows tanpa konfigurasi atau virtualisasi terpisah
Seluruh library model dan model vision
- Seluruh library model Ollama juga dapat dijalankan di Windows
- Termasuk model vision
- Saat menjalankan model vision seperti LLaVA 1.6, gambar dapat ditambahkan ke pesan dengan menyeret dan menjatuhkannya ke
ollama run
Ollama API yang berjalan di latar belakang
- Ollama API berjalan otomatis di latar belakang dan tersedia di
http://localhost:11434
- Tool dan aplikasi dapat terhubung ke API ini tanpa konfigurasi tambahan
- Berikut contoh pemanggilan Ollama API dari PowerShell
(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json
- Ollama untuk Windows juga mendukung kompatibilitas OpenAI yang sama seperti platform lain
- Tool yang sudah ada untuk OpenAI dapat digunakan bersama model lokal melalui Ollama
Instalasi dan umpan balik
- Untuk mulai menggunakan Windows Preview, unduh OllamaSetup.exe
- Instal dengan mengklik dua kali file instalasi
OllamaSetup.exe
- Setelah instalasi, buka terminal dan jalankan model dengan perintah berikut
ollama run llama2
- Saat rilis baru tersedia, Ollama akan memberi tahu tentang pembaruan
- Jika ada masalah, buka GitHub issue atau bergabung dengan server Discord untuk mengirim umpan balik
1 komentar
Komentar Hacker News
Saya memakai Open-WebUI di desktop sebagai frontend
Saya mengumpulkan sekitar 12 model Mistral fine-tuned dan beberapa model lain, dan itu sudah cukup layak untuk chat atau tugas ekstraksi informasi
Aplikasi Open-WebUI tampilannya cukup mirip ChatGPT, dan bisa mencari percakapan juga
https://github.com/open-webui/open-webui
Saya bisa menjamin ini frontend yang cukup solid untuk Ollama. Berfungsi sangat baik dan laju pengembangannya juga luar biasa cepat
Setiap beberapa minggu saat mengambil image Docker terbaru, saya selalu terkejut melihat seberapa banyak peningkatannya
[0] https://github.com/open-webui/open-webui/discussions/764
Seperti biasa, tidak ada pembahasan soal dukungan AMD GPU
Situasinya menyedihkan sampai-sampai saya menyesal membeli AMD kali ini
Sayang kami belum memublikasikannya dengan benar di tempat seperti ROADMAP.md, dan kami akan segera melakukannya
Beberapa maintainer proyek berasal dari wilayah Toronto, kampung halaman asli ATI Technologies, jadi secara pribadi kami juga ingin Ollama berjalan baik di AMD GPU :)
Salah satu mesin uji yang kami pakai untuk pekerjaan dukungan AMD menggunakan Radeon RX 7900XT dan cukup cepat. Sangat bisa dibandingkan dengan GPU GeForce 40 series kelas atas
[1]: https://en.wikipedia.org/wiki/ATI_Technologies
Saya membeli kartu AMD yang bertenaga dengan harga mahal, berharap mereka segera mengejar Nvidia, tetapi kenyataannya sama sekali tidak begitu, dan menurut saya itu karena AMD tidak mengalokasikan sumber daya yang dibutuhkan
AMD bisa berubah, tetapi harus mulai sekarang juga
Ini salah satu tindakan bunuh diri bisnis terburuk yang pernah saya lihat di industri teknologi
Di Windows, berkat library tinyBLAS, Anda hanya perlu driver grafis
https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
Secara default, ia membuka tab browser dengan GUI chat, dan juga bisa dijalankan sebagai chatbot command-line seperti Ollama, seperti di bawah ini
https://justine.lol/oneliners/#chat
Saya berhasil menjalankannya di laptop AMD dengan mengompilasi llama.cpp dengan dukungan Vulkan dan memakainya bersama aplikasi saya [1], tetapi Ollama memiliki beberapa asumsi tentang cara menemukan GPU yang tersedia di mesin, jadi saya belum berhasil membuatnya bekerja
[1]: https://msty.app
Kalau Anda mencari UI chat yang bagus untuk dipakai di atas Ollama, dan ingin mendukung model online maupun lokal, ada aplikasi [1] yang sedang saya buat
Fokusnya pada penggunaan offline dan privasi, dan pagi ini saya merilis dukungan Windows
[1]: https://msty.app
Saya penasaran apa alasan begitu banyak port AI “berjalan secara lokal” seperti ini justru dijalankan sebagai server
Apakah para developer lupa bahwa mereka bisa menjalankan kode di dalam proses UI?
Saya melihat pola yang sama pada runner Stable Diffusion maupun host LLM
Kalau tidak benar-benar perlu, saya tidak ingin menjalankan layanan latar belakang secara lokal, jadi kenapa semua implementasi seperti ini tampaknya bekerja dengan cara begitu?
Analogi yang bagus mungkin mesin basis data. SQLite adalah library, sedangkan Postgres adalah layanan yang berjalan jangka panjang; keduanya banyak dipakai dan masing-masing punya trade-off
Faktor besar lain menurut saya adalah membuat mesin, lingkungan, dan sistem operasi berada dalam kondisi agar model bisa berjalan efisien itu tidak mudah
Memasukkan kompleksitas ini ke dalam container, yakni “server”, sangat membantu untuk penyiapan awal serta mengikuti peningkatan dan pembaruan yang terus berjalan
Sebagai gantinya, struktur yang tepat adalah proses yang berjalan jangka panjang menangani banyak permintaan prediksi
Kemungkinan besar suatu saat nanti ini juga akan disediakan untuk beberapa klien
Saya tidak punya laptop atau workstation yang kuat, tapi punya server headless multi-GPU
Berkat proyek seperti ini, saya bisa bereksperimen dengan LLM di server dan mengekspos API serta UI web ke jaringan internal
Jadi Open-WebUI saya jalankan di chat.domain.example, dan Ollama di api.chat.domain.example. Keduanya hanya bisa diakses dari jaringan lokal
Dengan konfigurasi ini, laptop dan ponsel bisa memakai model lokal dengan kecepatan penuh lewat UI web, sementara Raspberry Pi yang menjalankan asisten suara eksperimental bisa mengirim kueri ke Ollama melalui endpoint API
Berkat GPU gaming, semuanya berjalan pada kecepatan maksimal. Logika yang sama berlaku juga untuk konfigurasi Stable Diffusion
Saya tidak tahu bahwa pengguna Windows belum bisa memakai Ollama
Rasanya baru beberapa tahun lalu justru pengguna Mac yang harus menunggu
Hanya saja bagi kebanyakan orang itu tidak terlalu praktis, dan dukungan Windows native adalah pelengkap yang sangat bagus
Pada akhirnya itu x86 Linux, jadi semuanya berjalan begitu saja dengan baik
Saya penasaran bagaimana LM Studio(https://lmstudio.ai) yang closed-source dibandingkan dengan Ollama
Yang tidak saya suka adalah di Windows, bobotnya dimasukkan ke struktur direktori milik sendiri di bawah /users/username/.cache, memakan puluhan GB tanpa memberi tahu, dan tidak membiarkannya dibagikan dengan klien lain
Ia juga tidak mengizinkan impor model yang diunduh sendiri, fitur pencariannya buruk, dan saya tidak suka cara mereka menangani pengaturan instance
Sepertinya sudah tersedia di Linux dan Mac
Perubahan kali ini adalah penambahan Windows: https://github.com/ollama/ollama
Kebetulan saya memang hendak memasang sendiri kebutuhan seperti ini dan sedikit mencobanya, lalu tulisan ini muncul
Setelah diuji, menarik bahwa ini benar-benar sederhana dan bekerja dengan baik
Namun sepertinya masalahnya adalah installer-nya lagi-lagi tidak punya opsi untuk memilih lokasi tujuan. Jika ada beberapa pengguna di server, masing-masing akan punya salinan pribadi, bukan satu instalasi global
Saya menjalankan Ollama dengan niat membuat workflow pemeriksaan tata bahasa/salah ketik untuk menulis
Ini tidak terkait langsung dengan Ollama sendiri, dan sejauh ini Ollama berjalan dengan baik
Apakah ada tempat yang cocok untuk menanyakan hal seperti ini? Saya penasaran apakah ada semacam Stack Overflow untuk LLM
Saya mencoba memasang dan menjalankan model llama2 di Mac Mini baru, tetapi terjadi kernel panic total. Ini apa?
Versi llama2 mana yang Anda pilih, dan berapa besar unified memory yang tersedia?