Laporan Audit Open Source Bio-AI 2026: Setelah Memeriksa 10 Proyek, "Sebagian besar berjalan, tetapi

flamehaven01 · 2026-03-25T20:37:20+09:00

Ringkasan umum Laporan ini merangkum hasil audit terhadap 10 repositori Bio-AI dan otomasi sains yang berdekatan dengan bidang ini, dengan visibilitas tinggi per Maret 2026 Pemilihan bukan acak, melainkan berdasarkan GitHub star, frekuensi diskusi teknis, dan tingkat eksposur nyata dalam ekosistem Audit dilakukan dalam 2 tahap: tahap 1 berupa peninjauan kode teknis atas struktur repo, entry point, dan eksekusi; tahap 2 berupa penilaian dengan STEM-AI v1.0.4 untuk mengevaluasi integritas dokumentasi, kode, pengujian, dan tata kelola Kesimpulan: sebagian besar dapat dijalankan. Namun belum berada pada tingkat yang bisa dipercaya. Ketiadaan tata kelola menunjukkan batasan Bio-AI 1. Kondisi Bio-AI saat ini pada 2026 Alat Bio-AI berbasis LLM meningkat pesat. Hype seputar agent, skills, dan automation wrapper juga menyebar cepat. Kinerja dan kegunaan yang tampak di permukaan semakin besar. Namun perangkat verifikasinya kurang. Tanggung jawabnya tidak jelas. Ini sangat berisiko terutama di area berisiko tinggi seperti penemuan obat. Kesimpulannya, verifikasi dan tata kelola jauh tertinggal dibanding kecepatan penyebaran kapabilitas. 2. Objek audit Dipilih 10 target. Kriterianya adalah visibilitas, pengaruh, eksposur nyata, frekuensi diskusi, dan sentralitas. Biomni AI-Scientist CellAgent ClawBio LabClaw claude-scientific-skills SciAgent-Skills BioAgents BioClaw OpenClaw-Medical-Skills 3. Metode audit Audit dilakukan dalam 2 tahap. Tahap 1. Technical Code Audit Memeriksa struktur repositori. Memeriksa entry point. Memeriksa lapisan orkestrasi. Menelusuri jalur eksekusi. Memeriksa jalur output. Meninjau langsung file inti. Membandingkan klaim README dengan kode yang sebenarnya. Dengan kata lain, fokusnya bukan pada “apa yang tertulis dilakukan”, tetapi “apa yang benar-benar dilakukan”. Tahap 2. Penilaian STEM-AI v1.0.4 Melakukan evaluasi S1. Memeriksa README dan integritas dokumentasi. Melakukan evaluasi S3. Memeriksa keberadaan kode yang nyata, pengujian, disiplin perubahan, dan mekanisme integritas biologis. Dengan kata lain, ini bukan kesan umum. Penilaian dilakukan setelah struktur diverifikasi. Prinsip audit Audit ini tidak melakukan reproduksi dinamis penuh atas seluruh repositori. Sebaliknya, audit berfokus pada bagian yang terhubung langsung dengan klaim inti. Area dengan risiko dan kontradiksi besar ditinjau lebih dalam. Prinsip penting: permukaan eksekusi lebih diprioritaskan daripada README. Jika dokumentasi dan kode bertentangan, penilaian didasarkan pada eksekusi, bukan dokumen. Artinya, audit ini lebih dekat ke diagnosis struktural daripada benchmark reproduksibilitas. 4. Peringkat berdasarkan skor T0: Kepercayaan belum terbentuk. Walaupun bisa dijalankan, sulit dipandang sebagai sistem yang dapat dipercaya. T1: Sudah ada sebagian struktur, tetapi tetap kurang dapat dipercaya. Masih pada level eksplorasi atau referensi. T2: Ada kemajuan yang bermakna, tetapi masih belum cukup untuk dimasukkan ke pilot terawasi. T3: Standar minimum agar bisa ditinjau untuk pilot terawasi. T4: Level yang dapat dipertimbangkan untuk dihubungkan ke lingkungan dengan tanggung jawab hasil yang lebih tinggi. Laporan ini menetapkan T3 sebagai batas minimum untuk pilot terawasi, dan T4 sebagai batas minimum untuk koneksi ke lingkungan dengan tanggung jawab hasil yang lebih tinggi 5. Hasil Hasil tiap repo AI-Scientist — 48 poin, T1 Biomni — 17 poin, T0 BioAgents — 30 poin, T0 BioClaw — 29 poin, T0 CellAgent — 15 poin, T0 ClawBio — 63 poin, T2 claude-scientific-skills — 24 poin, T0 LabClaw — 20 poin, T0 SciAgent-Skills — 32 poin, T0 OpenClaw-Medical-Skills — 22 poin, T0 Makna hasil 8 dari 10 belum memenuhi dasar kepercayaan. 1 memiliki sebagian struktur. Namun tetap belum memadai. 1 adalah yang terbaik. Namun masih di bawah batas minimum pilot. Tidak ada yang mencapai T3 atau lebih. Artinya, tidak ada repositori yang lolos standar minimum untuk pilot terawasi. 6. Pola masalah yang berulang Klaim berlebihan Verifikasi lemah Kurang dapat ditelusuri Batas kegagalan lemah Ketidaksesuaian antara README dan realitas eksekusi Tidak ada tata kelola Reproduksibilitas rendah Lisensi, tanggung jawab, dan batas operasional tidak jelas Membicarakan cakupan yang dekat dengan klinis, tetapi struktur tanggung jawabnya lemah CI lebih berfokus pada validasi sintaks dan format daripada verifikasi ilmiah. Ditemukan kasus mockup dan placeholder yang tampak seperti fungsi nyata. Desain lokal mungkin terlihat baik, tetapi default deployment berulang kali terbukti berisiko. 7. Kesimpulan akhir Laporan ini tidak mengatakan bahwa semua open source Bio-AI “tidak berguna”. Poin utamanya adalah menekankan bahwa terlihat kompeten dan dapat dipercaya adalah dua hal yang berbeda Bottleneck utamanya bukan hanya kapabilitas model, tetapi lebih besar pada absennya verifikasi, keterlacakan, tanggung jawab, dan tata kelola Lebih tepatnya, Bio-AI baru bisa menjadi sistem yang dapat dipercaya jika strukturnya diperbaiki agar klaim dan output dapat direproduksi, batas-batasnya jelas, dan dapat ditinjau oleh institusi 8. Ringkasan satu baris Masalah terbesar Bio-AI bukan kurangnya kapabilitas, melainkan kurangnya verifikasi dan tata kelola

Ringkasan umum

Laporan ini merangkum hasil audit terhadap 10 repositori Bio-AI dan otomasi sains yang berdekatan dengan bidang ini, dengan visibilitas tinggi per Maret 2026
Pemilihan bukan acak, melainkan berdasarkan GitHub star, frekuensi diskusi teknis, dan tingkat eksposur nyata dalam ekosistem
Audit dilakukan dalam 2 tahap: tahap 1 berupa peninjauan kode teknis atas struktur repo, entry point, dan eksekusi; tahap 2 berupa penilaian dengan STEM-AI v1.0.4 untuk mengevaluasi integritas dokumentasi, kode, pengujian, dan tata kelola
Kesimpulan: sebagian besar dapat dijalankan. Namun belum berada pada tingkat yang bisa dipercaya. Ketiadaan tata kelola menunjukkan batasan Bio-AI

1. Kondisi Bio-AI saat ini pada 2026

Alat Bio-AI berbasis LLM meningkat pesat.
Hype seputar agent, skills, dan automation wrapper juga menyebar cepat.
Kinerja dan kegunaan yang tampak di permukaan semakin besar.
Namun perangkat verifikasinya kurang.
Tanggung jawabnya tidak jelas.
Ini sangat berisiko terutama di area berisiko tinggi seperti penemuan obat.
Kesimpulannya, verifikasi dan tata kelola jauh tertinggal dibanding kecepatan penyebaran kapabilitas.

2. Objek audit

Dipilih 10 target.
Kriterianya adalah visibilitas, pengaruh, eksposur nyata, frekuensi diskusi, dan sentralitas.
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills

3. Metode audit

Audit dilakukan dalam 2 tahap.
Tahap 1. Technical Code Audit
- Memeriksa struktur repositori.
- Memeriksa entry point.
- Memeriksa lapisan orkestrasi.
- Menelusuri jalur eksekusi.
- Memeriksa jalur output.
- Meninjau langsung file inti.
- Membandingkan klaim README dengan kode yang sebenarnya.
- Dengan kata lain, fokusnya bukan pada “apa yang tertulis dilakukan”, tetapi “apa yang benar-benar dilakukan”.
Tahap 2. Penilaian STEM-AI v1.0.4
- Melakukan evaluasi S1.
- Memeriksa README dan integritas dokumentasi.
- Melakukan evaluasi S3.
- Memeriksa keberadaan kode yang nyata, pengujian, disiplin perubahan, dan mekanisme integritas biologis.
- Dengan kata lain, ini bukan kesan umum. Penilaian dilakukan setelah struktur diverifikasi.
Prinsip audit
- Audit ini tidak melakukan reproduksi dinamis penuh atas seluruh repositori.
- Sebaliknya, audit berfokus pada bagian yang terhubung langsung dengan klaim inti.
- Area dengan risiko dan kontradiksi besar ditinjau lebih dalam.
- Prinsip penting: permukaan eksekusi lebih diprioritaskan daripada README. Jika dokumentasi dan kode bertentangan, penilaian didasarkan pada eksekusi, bukan dokumen.
- Artinya, audit ini lebih dekat ke diagnosis struktural daripada benchmark reproduksibilitas.

4. Peringkat berdasarkan skor

T0: Kepercayaan belum terbentuk. Walaupun bisa dijalankan, sulit dipandang sebagai sistem yang dapat dipercaya.
T1: Sudah ada sebagian struktur, tetapi tetap kurang dapat dipercaya. Masih pada level eksplorasi atau referensi.
T2: Ada kemajuan yang bermakna, tetapi masih belum cukup untuk dimasukkan ke pilot terawasi.
T3: Standar minimum agar bisa ditinjau untuk pilot terawasi.
T4: Level yang dapat dipertimbangkan untuk dihubungkan ke lingkungan dengan tanggung jawab hasil yang lebih tinggi.
Laporan ini menetapkan T3 sebagai batas minimum untuk pilot terawasi, dan T4 sebagai batas minimum untuk koneksi ke lingkungan dengan tanggung jawab hasil yang lebih tinggi

5. Hasil

Hasil tiap repo
- AI-Scientist — 48 poin, T1
- Biomni — 17 poin, T0
- BioAgents — 30 poin, T0
- BioClaw — 29 poin, T0
- CellAgent — 15 poin, T0
- ClawBio — 63 poin, T2
- claude-scientific-skills — 24 poin, T0
- LabClaw — 20 poin, T0
- SciAgent-Skills — 32 poin, T0
- OpenClaw-Medical-Skills — 22 poin, T0
Makna hasil
- 8 dari 10 belum memenuhi dasar kepercayaan.
- 1 memiliki sebagian struktur. Namun tetap belum memadai.
- 1 adalah yang terbaik. Namun masih di bawah batas minimum pilot.
- Tidak ada yang mencapai T3 atau lebih. Artinya, tidak ada repositori yang lolos standar minimum untuk pilot terawasi.

6. Pola masalah yang berulang

Klaim berlebihan
Verifikasi lemah
Kurang dapat ditelusuri
Batas kegagalan lemah
Ketidaksesuaian antara README dan realitas eksekusi
Tidak ada tata kelola
Reproduksibilitas rendah
Lisensi, tanggung jawab, dan batas operasional tidak jelas
Membicarakan cakupan yang dekat dengan klinis, tetapi struktur tanggung jawabnya lemah
CI lebih berfokus pada validasi sintaks dan format daripada verifikasi ilmiah.
Ditemukan kasus mockup dan placeholder yang tampak seperti fungsi nyata.
Desain lokal mungkin terlihat baik, tetapi default deployment berulang kali terbukti berisiko.

7. Kesimpulan akhir

Laporan ini tidak mengatakan bahwa semua open source Bio-AI “tidak berguna”.
Poin utamanya adalah menekankan bahwa terlihat kompeten dan dapat dipercaya adalah dua hal yang berbeda
Bottleneck utamanya bukan hanya kapabilitas model, tetapi lebih besar pada absennya verifikasi, keterlacakan, tanggung jawab, dan tata kelola
Lebih tepatnya, Bio-AI baru bisa menjadi sistem yang dapat dipercaya jika strukturnya diperbaiki agar klaim dan output dapat direproduksi, batas-batasnya jelas, dan dapat ditinjau oleh institusi

8. Ringkasan satu baris

Masalah terbesar Bio-AI bukan kurangnya kapabilitas, melainkan kurangnya verifikasi dan tata kelola

Laporan Audit Open Source Bio-AI 2026: Setelah Memeriksa 10 Proyek, "Sebagian besar berjalan, tetapi sulit dipercaya."

Ringkasan umum

1. Kondisi Bio-AI saat ini pada 2026

2. Objek audit

3. Metode audit

4. Peringkat berdasarkan skor

5. Hasil

6. Pola masalah yang berulang

7. Kesimpulan akhir

8. Ringkasan satu baris

Belum ada komentar.

Laporan Audit Open Source Bio-AI 2026: Setelah Memeriksa 10 Proyek, "Sebagian besar berjalan, tetapi sulit dipercaya."

Ringkasan umum

1. Kondisi Bio-AI saat ini pada 2026

2. Objek audit

3. Metode audit

4. Peringkat berdasarkan skor

5. Hasil

6. Pola masalah yang berulang

7. Kesimpulan akhir

8. Ringkasan satu baris

Bacaan terkait

Belum ada komentar.