Ringkasan umum
- Laporan ini merangkum hasil audit terhadap 10 repositori Bio-AI dan otomasi sains yang berdekatan dengan bidang ini, dengan visibilitas tinggi per Maret 2026
- Pemilihan bukan acak, melainkan berdasarkan GitHub star, frekuensi diskusi teknis, dan tingkat eksposur nyata dalam ekosistem
- Audit dilakukan dalam 2 tahap: tahap 1 berupa peninjauan kode teknis atas struktur repo, entry point, dan eksekusi; tahap 2 berupa penilaian dengan STEM-AI v1.0.4 untuk mengevaluasi integritas dokumentasi, kode, pengujian, dan tata kelola
- Kesimpulan: sebagian besar dapat dijalankan. Namun belum berada pada tingkat yang bisa dipercaya. Ketiadaan tata kelola menunjukkan batasan Bio-AI
1. Kondisi Bio-AI saat ini pada 2026
- Alat Bio-AI berbasis LLM meningkat pesat.
- Hype seputar agent, skills, dan automation wrapper juga menyebar cepat.
- Kinerja dan kegunaan yang tampak di permukaan semakin besar.
- Namun perangkat verifikasinya kurang.
- Tanggung jawabnya tidak jelas.
- Ini sangat berisiko terutama di area berisiko tinggi seperti penemuan obat.
- Kesimpulannya, verifikasi dan tata kelola jauh tertinggal dibanding kecepatan penyebaran kapabilitas.
2. Objek audit
- Dipilih 10 target.
- Kriterianya adalah visibilitas, pengaruh, eksposur nyata, frekuensi diskusi, dan sentralitas.
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills
3. Metode audit
- Audit dilakukan dalam 2 tahap.
- Tahap 1. Technical Code Audit
- Memeriksa struktur repositori.
- Memeriksa entry point.
- Memeriksa lapisan orkestrasi.
- Menelusuri jalur eksekusi.
- Memeriksa jalur output.
- Meninjau langsung file inti.
- Membandingkan klaim README dengan kode yang sebenarnya.
- Dengan kata lain, fokusnya bukan pada “apa yang tertulis dilakukan”, tetapi “apa yang benar-benar dilakukan”.
- Tahap 2. Penilaian STEM-AI v1.0.4
- Melakukan evaluasi S1.
- Memeriksa README dan integritas dokumentasi.
- Melakukan evaluasi S3.
- Memeriksa keberadaan kode yang nyata, pengujian, disiplin perubahan, dan mekanisme integritas biologis.
- Dengan kata lain, ini bukan kesan umum. Penilaian dilakukan setelah struktur diverifikasi.
- Prinsip audit
- Audit ini tidak melakukan reproduksi dinamis penuh atas seluruh repositori.
- Sebaliknya, audit berfokus pada bagian yang terhubung langsung dengan klaim inti.
- Area dengan risiko dan kontradiksi besar ditinjau lebih dalam.
- Prinsip penting: permukaan eksekusi lebih diprioritaskan daripada README. Jika dokumentasi dan kode bertentangan, penilaian didasarkan pada eksekusi, bukan dokumen.
- Artinya, audit ini lebih dekat ke diagnosis struktural daripada benchmark reproduksibilitas.
4. Peringkat berdasarkan skor
- T0: Kepercayaan belum terbentuk. Walaupun bisa dijalankan, sulit dipandang sebagai sistem yang dapat dipercaya.
- T1: Sudah ada sebagian struktur, tetapi tetap kurang dapat dipercaya. Masih pada level eksplorasi atau referensi.
- T2: Ada kemajuan yang bermakna, tetapi masih belum cukup untuk dimasukkan ke pilot terawasi.
- T3: Standar minimum agar bisa ditinjau untuk pilot terawasi.
- T4: Level yang dapat dipertimbangkan untuk dihubungkan ke lingkungan dengan tanggung jawab hasil yang lebih tinggi.
- Laporan ini menetapkan T3 sebagai batas minimum untuk pilot terawasi, dan T4 sebagai batas minimum untuk koneksi ke lingkungan dengan tanggung jawab hasil yang lebih tinggi
5. Hasil
- Hasil tiap repo
- AI-Scientist — 48 poin, T1
- Biomni — 17 poin, T0
- BioAgents — 30 poin, T0
- BioClaw — 29 poin, T0
- CellAgent — 15 poin, T0
- ClawBio — 63 poin, T2
- claude-scientific-skills — 24 poin, T0
- LabClaw — 20 poin, T0
- SciAgent-Skills — 32 poin, T0
- OpenClaw-Medical-Skills — 22 poin, T0
- Makna hasil
- 8 dari 10 belum memenuhi dasar kepercayaan.
- 1 memiliki sebagian struktur. Namun tetap belum memadai.
- 1 adalah yang terbaik. Namun masih di bawah batas minimum pilot.
- Tidak ada yang mencapai T3 atau lebih. Artinya, tidak ada repositori yang lolos standar minimum untuk pilot terawasi.
6. Pola masalah yang berulang
- Klaim berlebihan
- Verifikasi lemah
- Kurang dapat ditelusuri
- Batas kegagalan lemah
- Ketidaksesuaian antara README dan realitas eksekusi
- Tidak ada tata kelola
- Reproduksibilitas rendah
- Lisensi, tanggung jawab, dan batas operasional tidak jelas
- Membicarakan cakupan yang dekat dengan klinis, tetapi struktur tanggung jawabnya lemah
- CI lebih berfokus pada validasi sintaks dan format daripada verifikasi ilmiah.
- Ditemukan kasus mockup dan placeholder yang tampak seperti fungsi nyata.
- Desain lokal mungkin terlihat baik, tetapi default deployment berulang kali terbukti berisiko.
7. Kesimpulan akhir
- Laporan ini tidak mengatakan bahwa semua open source Bio-AI “tidak berguna”.
- Poin utamanya adalah menekankan bahwa terlihat kompeten dan dapat dipercaya adalah dua hal yang berbeda
- Bottleneck utamanya bukan hanya kapabilitas model, tetapi lebih besar pada absennya verifikasi, keterlacakan, tanggung jawab, dan tata kelola
- Lebih tepatnya, Bio-AI baru bisa menjadi sistem yang dapat dipercaya jika strukturnya diperbaiki agar klaim dan output dapat direproduksi, batas-batasnya jelas, dan dapat ditinjau oleh institusi
8. Ringkasan satu baris
- Masalah terbesar Bio-AI bukan kurangnya kapabilitas, melainkan kurangnya verifikasi dan tata kelola
Belum ada komentar.