- Menyediakan kemampuan visi-bahasa baru yang mirip dengan yang didemonstrasikan di GPT-4
- Menjelaskan gambar secara rinci, memberi tahu cara memasak dari foto makanan, menemukan masalah, membuat salinan iklan, atau menulis cerita dan puisi yang terinspirasi dari gambar
- Menunjukkan performa luar biasa hanya dengan menghubungkan BLIP-2 dan Vicuna menggunakan satu projection layer
- Dilatih dalam 2 tahap
- Melatih 5 juta pasangan gambar-teks selama 10 jam dengan 4 A100. Pada tahap ini saja, Vicuna sudah memahami gambar, tetapi kemampuan generasinya sangat terdampak
- Untuk menyelesaikan masalah dan meningkatkan kegunaan, diusulkan metode baru untuk menghasilkan pasangan gambar-teks berkualitas tinggi dengan menggunakan model itu sendiri bersama ChatGPT
- Berdasarkan hal ini, dibuat dataset berkualitas tinggi berskala kecil (total 3.500 pasangan)
- Pada tahap fine-tuning kedua, dataset kecil ini dipelajari dengan template percakapan untuk meningkatkan keandalan generasi dan kegunaan secara keseluruhan
- Yang mengejutkan, tahap ini sangat efisien secara komputasi sehingga hanya memerlukan 7 menit dengan satu A100
Belum ada komentar.