2 poin oleh flamehaven01 28 hari lalu | Belum ada komentar. | Bagikan ke WhatsApp

Ringkasan umum

  • Laporan ini merangkum hasil audit terhadap 10 repositori Bio-AI dan otomasi sains yang berdekatan dengan bidang ini, dengan visibilitas tinggi per Maret 2026
  • Pemilihan bukan acak, melainkan berdasarkan GitHub star, frekuensi diskusi teknis, dan tingkat eksposur nyata dalam ekosistem
  • Audit dilakukan dalam 2 tahap: tahap 1 berupa peninjauan kode teknis atas struktur repo, entry point, dan eksekusi; tahap 2 berupa penilaian dengan STEM-AI v1.0.4 untuk mengevaluasi integritas dokumentasi, kode, pengujian, dan tata kelola
  • Kesimpulan: sebagian besar dapat dijalankan. Namun belum berada pada tingkat yang bisa dipercaya. Ketiadaan tata kelola menunjukkan batasan Bio-AI

1. Kondisi Bio-AI saat ini pada 2026

  • Alat Bio-AI berbasis LLM meningkat pesat.
  • Hype seputar agent, skills, dan automation wrapper juga menyebar cepat.
  • Kinerja dan kegunaan yang tampak di permukaan semakin besar.
  • Namun perangkat verifikasinya kurang.
  • Tanggung jawabnya tidak jelas.
  • Ini sangat berisiko terutama di area berisiko tinggi seperti penemuan obat.
  • Kesimpulannya, verifikasi dan tata kelola jauh tertinggal dibanding kecepatan penyebaran kapabilitas.

2. Objek audit

  • Dipilih 10 target.
  • Kriterianya adalah visibilitas, pengaruh, eksposur nyata, frekuensi diskusi, dan sentralitas.
    • Biomni
    • AI-Scientist
    • CellAgent
    • ClawBio
    • LabClaw
    • claude-scientific-skills
    • SciAgent-Skills
    • BioAgents
    • BioClaw
    • OpenClaw-Medical-Skills

3. Metode audit

  • Audit dilakukan dalam 2 tahap.
  • Tahap 1. Technical Code Audit
    • Memeriksa struktur repositori.
    • Memeriksa entry point.
    • Memeriksa lapisan orkestrasi.
    • Menelusuri jalur eksekusi.
    • Memeriksa jalur output.
    • Meninjau langsung file inti.
    • Membandingkan klaim README dengan kode yang sebenarnya.
    • Dengan kata lain, fokusnya bukan pada “apa yang tertulis dilakukan”, tetapi “apa yang benar-benar dilakukan”.
  • Tahap 2. Penilaian STEM-AI v1.0.4
    • Melakukan evaluasi S1.
    • Memeriksa README dan integritas dokumentasi.
    • Melakukan evaluasi S3.
    • Memeriksa keberadaan kode yang nyata, pengujian, disiplin perubahan, dan mekanisme integritas biologis.
    • Dengan kata lain, ini bukan kesan umum. Penilaian dilakukan setelah struktur diverifikasi.
  • Prinsip audit
    • Audit ini tidak melakukan reproduksi dinamis penuh atas seluruh repositori.
    • Sebaliknya, audit berfokus pada bagian yang terhubung langsung dengan klaim inti.
    • Area dengan risiko dan kontradiksi besar ditinjau lebih dalam.
    • Prinsip penting: permukaan eksekusi lebih diprioritaskan daripada README. Jika dokumentasi dan kode bertentangan, penilaian didasarkan pada eksekusi, bukan dokumen.
    • Artinya, audit ini lebih dekat ke diagnosis struktural daripada benchmark reproduksibilitas.

4. Peringkat berdasarkan skor

  • T0: Kepercayaan belum terbentuk. Walaupun bisa dijalankan, sulit dipandang sebagai sistem yang dapat dipercaya.
  • T1: Sudah ada sebagian struktur, tetapi tetap kurang dapat dipercaya. Masih pada level eksplorasi atau referensi.
  • T2: Ada kemajuan yang bermakna, tetapi masih belum cukup untuk dimasukkan ke pilot terawasi.
  • T3: Standar minimum agar bisa ditinjau untuk pilot terawasi.
  • T4: Level yang dapat dipertimbangkan untuk dihubungkan ke lingkungan dengan tanggung jawab hasil yang lebih tinggi.
  • Laporan ini menetapkan T3 sebagai batas minimum untuk pilot terawasi, dan T4 sebagai batas minimum untuk koneksi ke lingkungan dengan tanggung jawab hasil yang lebih tinggi

5. Hasil

  • Hasil tiap repo
    • AI-Scientist — 48 poin, T1
    • Biomni — 17 poin, T0
    • BioAgents — 30 poin, T0
    • BioClaw — 29 poin, T0
    • CellAgent — 15 poin, T0
    • ClawBio — 63 poin, T2
    • claude-scientific-skills — 24 poin, T0
    • LabClaw — 20 poin, T0
    • SciAgent-Skills — 32 poin, T0
    • OpenClaw-Medical-Skills — 22 poin, T0
  • Makna hasil
    • 8 dari 10 belum memenuhi dasar kepercayaan.
    • 1 memiliki sebagian struktur. Namun tetap belum memadai.
    • 1 adalah yang terbaik. Namun masih di bawah batas minimum pilot.
    • Tidak ada yang mencapai T3 atau lebih. Artinya, tidak ada repositori yang lolos standar minimum untuk pilot terawasi.

6. Pola masalah yang berulang

  • Klaim berlebihan
  • Verifikasi lemah
  • Kurang dapat ditelusuri
  • Batas kegagalan lemah
  • Ketidaksesuaian antara README dan realitas eksekusi
  • Tidak ada tata kelola
  • Reproduksibilitas rendah
  • Lisensi, tanggung jawab, dan batas operasional tidak jelas
  • Membicarakan cakupan yang dekat dengan klinis, tetapi struktur tanggung jawabnya lemah
  • CI lebih berfokus pada validasi sintaks dan format daripada verifikasi ilmiah.
  • Ditemukan kasus mockup dan placeholder yang tampak seperti fungsi nyata.
  • Desain lokal mungkin terlihat baik, tetapi default deployment berulang kali terbukti berisiko.

7. Kesimpulan akhir

  • Laporan ini tidak mengatakan bahwa semua open source Bio-AI “tidak berguna”.
  • Poin utamanya adalah menekankan bahwa terlihat kompeten dan dapat dipercaya adalah dua hal yang berbeda
  • Bottleneck utamanya bukan hanya kapabilitas model, tetapi lebih besar pada absennya verifikasi, keterlacakan, tanggung jawab, dan tata kelola
  • Lebih tepatnya, Bio-AI baru bisa menjadi sistem yang dapat dipercaya jika strukturnya diperbaiki agar klaim dan output dapat direproduksi, batas-batasnya jelas, dan dapat ditinjau oleh institusi

8. Ringkasan satu baris

  • Masalah terbesar Bio-AI bukan kurangnya kapabilitas, melainkan kurangnya verifikasi dan tata kelola

Belum ada komentar.

Belum ada komentar.