IBM dan NASA mengembangkan model bahasa untuk meningkatkan aksesibilitas pengetahuan ilmiah

(research.ibm.com)

4 poin oleh GN⁺ 2024-03-15 | Belum ada komentar. | Bagikan ke WhatsApp

IBM dan NASA membangun model bahasa untuk meningkatkan aksesibilitas pengetahuan ilmiah

IBM dan NASA memulai kolaborasi baru untuk membuat model bahasa yang efisien melalui literatur ilmiah.
Model-model berbasis arsitektur Transformer ini dapat digunakan untuk berbagai aplikasi seperti klasifikasi, ekstraksi entitas, tanya jawab, dan pencarian informasi.
Model ini mencapai performa tinggi di berbagai bidang dan dapat merespons dengan cepat, serta dirilis sebagai open source di Hugging Face untuk kepentingan komunitas ilmiah dan akademik.

Model bahasa berbasis Transformer, termasuk BERT, RoBERTa, serta keluarga model Slate dan Granite milik IBM, sangat penting untuk tugas pemahaman bahasa alami.
Model-model ini didasarkan pada pemahaman statistik tentang cara kerja bahasa, dan dilatih melalui tugas masked language modeling yang merekonstruksi kalimat dengan memulihkan kata-kata yang disamarkan.
Tokenizer, yang memecah kata menjadi unit yang dapat digunakan model, memainkan peran penting dalam mempelajari kosakata yang sangat besar.

IBM dan NASA melatih model pada 60 miliar token dari korpus data astrofisika, ilmu planet, ilmu kebumian, fisika matahari, serta ilmu hayati dan fisika.
Berbeda dari tokenizer umum, tokenizer khusus yang dikembangkan mampu mengenali istilah ilmiah seperti "axes" dan "polycrystalline".
Dari 50.000 token yang diproses model, lebih dari setengahnya unik dibandingkan dengan model RoBERTa milik Hugging Face.

Model IBM-NASA yang dilatih dengan kosakata khusus domain melampaui model RoBERTa terbuka sebesar 5% pada benchmark BLURB yang populer untuk mengevaluasi tugas biomedis.
Model ini juga menunjukkan peningkatan skor F1 sebesar 2,4% pada benchmark internal tanya jawab ilmiah, serta peningkatan 5,5% pada pengujian internal pengenalan entitas ilmu kebumian.

Model encoder yang telah dilatih dapat di-fine-tune untuk banyak tugas bahasa non-generatif dan dapat menghasilkan embedding kaya informasi untuk penelusuran dokumen.

Dengan menggunakan sekitar 268 juta pasangan teks, model-model ini menunjukkan performa unggul dalam menemukan bagian yang relevan pada set pengujian berisi sekitar 400 pertanyaan yang dikurasi NASA.
Peningkatan signifikan pada model dicapai berkat data pelatihan khusus, tokenizer yang disesuaikan, dan metodologi pelatihan.

Sesuai komitmen IBM dan NASA terhadap AI yang transparan, kedua model tersedia di Hugging Face.
Model encoder dapat di-fine-tune lebih lanjut untuk aplikasi di bidang antariksa, dan model retrieval dapat digunakan untuk aplikasi pencarian informasi untuk RAG.

Kolaborasi ini tampaknya akan sangat membantu dalam meningkatkan aksesibilitas pengetahuan ilmiah. Khususnya, pengembangan model bahasa yang mampu memahami dan memproses istilah teknis di bidang sains akan sangat berguna bagi para peneliti.
Karena model disediakan sebagai open source, hal ini memberi kesempatan bagi berbagai peneliti dan pengembang untuk bebas menggunakan dan meningkatkannya, sehingga dapat berkontribusi pada demokratisasi riset AI.
Namun, untuk memanfaatkan model canggih seperti ini secara efektif, mungkin dibutuhkan sumber daya komputasi yang memadai serta keahlian khusus dalam pemodelan AI. Ini dapat menjadi hambatan masuk bagi sebagian peneliti atau institusi.
Hal-hal yang perlu dipertimbangkan saat mengadopsi teknologi ini meliputi kompleksitas model, jumlah data yang dibutuhkan untuk pelatihan, dan performa perangkat keras yang mampu memprosesnya. Keuntungan dari memilih model ini adalah pemahaman yang lebih mendalam terhadap literatur ilmiah dan pencarian informasi yang lebih cepat, tetapi tetap memerlukan biaya dan sumber daya.