OpenOrca - dataset & model bahasa yang di-tuning instruksi, open source

xguru · 2023-07-01T10:32:01+09:00

Dibuat dengan mereplikasi isi paper Orca dari Microsoft ke versi open source Sekitar 1 juta FLANv2 yang diperkaya dengan GPT-4 Completion Sekitar 3,5 juta FLANv2 yang diperkaya dengan GPT-3.4 Completion Mencakup seluruh 75k CoT yang ada di dataset FLAN-1m Saat ini sedang dilakukan fine-tuning terhadap seluruh bobot di atas fondasi LLaMA-13B, sehingga performanya akan menjadi mirip dengan milik Microsoft OpenOrca-LLaMA-13b kemungkinan bisa dirilis sekitar pertengahan Juli Sedang mencari sponsor komputasi GPU untuk menerapkan OpenOrca ke platform lain (Falcon, LLaMA, MPT, dll.)

(huggingface.co)

6 poin oleh xguru 2023-07-01 | 2 komentar | Bagikan ke WhatsApp

Dibuat dengan mereplikasi isi paper Orca dari Microsoft ke versi open source
- Sekitar 1 juta FLANv2 yang diperkaya dengan GPT-4 Completion
- Sekitar 3,5 juta FLANv2 yang diperkaya dengan GPT-3.4 Completion
Mencakup seluruh 75k CoT yang ada di dataset FLAN-1m
Saat ini sedang dilakukan fine-tuning terhadap seluruh bobot di atas fondasi LLaMA-13B, sehingga performanya akan menjadi mirip dengan milik Microsoft
- OpenOrca-LLaMA-13b kemungkinan bisa dirilis sekitar pertengahan Juli
Sedang mencari sponsor komputasi GPU untuk menerapkan OpenOrca ke platform lain (Falcon, LLaMA, MPT, dll.)

2 komentar

ninebow 2023-07-02

Ups, tautannya 404 ya

Dataset-nya bisa Anda cek di Open-Orca/OpenOrca milik HuggingFace! :D

xguru 2023-07-02

Oh, sepertinya tulisannya sudah dihapus.

Masih tersimpan di WaybackMachine.

https://web.archive.org/web/20230629002546/…

Tautannya sudah saya ubah ke tautan HuggingFace yang dibagikan.

OpenOrca - dataset & model bahasa yang di-tuning instruksi, open source

Bacaan terkait

2 komentar