15 poin oleh xguru 2023-04-18 | Belum ada komentar. | Bagikan ke WhatsApp
  • Menyediakan kemampuan visi-bahasa baru yang mirip dengan yang didemonstrasikan di GPT-4
    • Menjelaskan gambar secara rinci, memberi tahu cara memasak dari foto makanan, menemukan masalah, membuat salinan iklan, atau menulis cerita dan puisi yang terinspirasi dari gambar
  • Menunjukkan performa luar biasa hanya dengan menghubungkan BLIP-2 dan Vicuna menggunakan satu projection layer
  • Dilatih dalam 2 tahap
    • Melatih 5 juta pasangan gambar-teks selama 10 jam dengan 4 A100. Pada tahap ini saja, Vicuna sudah memahami gambar, tetapi kemampuan generasinya sangat terdampak
    • Untuk menyelesaikan masalah dan meningkatkan kegunaan, diusulkan metode baru untuk menghasilkan pasangan gambar-teks berkualitas tinggi dengan menggunakan model itu sendiri bersama ChatGPT
    • Berdasarkan hal ini, dibuat dataset berkualitas tinggi berskala kecil (total 3.500 pasangan)
    • Pada tahap fine-tuning kedua, dataset kecil ini dipelajari dengan template percakapan untuk meningkatkan keandalan generasi dan kegunaan secara keseluruhan
    • Yang mengejutkan, tahap ini sangat efisien secara komputasi sehingga hanya memerlukan 7 menit dengan satu A100

Belum ada komentar.

Belum ada komentar.