MiniGPT-4: Peningkatan Pemahaman Visi-Bahasa dengan LLM Tingkat Lanjut

xguru · 2023-04-18T11:21:01+09:00

Menyediakan kemampuan visi-bahasa baru yang mirip dengan yang didemonstrasikan di GPT-4 Menjelaskan gambar secara rinci, memberi tahu cara memasak dari foto makanan, menemukan masalah, membuat salinan iklan, atau menulis cerita dan puisi yang terinspirasi dari gambar Menunjukkan performa luar biasa hanya dengan menghubungkan BLIP-2 dan Vicuna menggunakan satu projection layer Dilatih dalam 2 tahap Melatih 5 juta pasangan gambar-teks selama 10 jam dengan 4 A100. Pada tahap ini saja, Vicuna sudah memahami gambar, tetapi kemampuan generasinya sangat terdampak Untuk menyelesaikan masalah dan meningkatkan kegunaan, diusulkan metode baru untuk menghasilkan pasangan gambar-teks berkualitas tinggi dengan menggunakan model itu sendiri bersama ChatGPT Berdasarkan hal ini, dibuat dataset berkualitas tinggi berskala kecil (total 3.500 pasangan) Pada tahap fine-tuning kedua, dataset kecil ini dipelajari dengan template percakapan untuk meningkatkan keandalan generasi dan kegunaan secara keseluruhan Yang mengejutkan, tahap ini sangat efisien secara komputasi sehingga hanya memerlukan 7 menit dengan satu A100

Menyediakan kemampuan visi-bahasa baru yang mirip dengan yang didemonstrasikan di GPT-4
- Menjelaskan gambar secara rinci, memberi tahu cara memasak dari foto makanan, menemukan masalah, membuat salinan iklan, atau menulis cerita dan puisi yang terinspirasi dari gambar
Menunjukkan performa luar biasa hanya dengan menghubungkan BLIP-2 dan Vicuna menggunakan satu projection layer
Dilatih dalam 2 tahap
- Melatih 5 juta pasangan gambar-teks selama 10 jam dengan 4 A100. Pada tahap ini saja, Vicuna sudah memahami gambar, tetapi kemampuan generasinya sangat terdampak
- Untuk menyelesaikan masalah dan meningkatkan kegunaan, diusulkan metode baru untuk menghasilkan pasangan gambar-teks berkualitas tinggi dengan menggunakan model itu sendiri bersama ChatGPT
- Berdasarkan hal ini, dibuat dataset berkualitas tinggi berskala kecil (total 3.500 pasangan)
- Pada tahap fine-tuning kedua, dataset kecil ini dipelajari dengan template percakapan untuk meningkatkan keandalan generasi dan kegunaan secara keseluruhan
- Yang mengejutkan, tahap ini sangat efisien secara komputasi sehingga hanya memerlukan 7 menit dengan satu A100

MiniGPT-4: Peningkatan Pemahaman Visi-Bahasa dengan LLM Tingkat Lanjut

Bacaan terkait

Belum ada komentar.