- Model foundation yang ada saat ini dapat menangani teks, gambar, audio, dan video, tetapi masih kurang dalam kemampuan penalaran temporal terhadap data deret waktu yang menggerakkan dunia nyata (tanda vital, harga, telemetri, log, dll.)
- Time Series Language Models(TSLMs) mendukung deret waktu sebagai modalitas asli yang setara dengan teks, sehingga pengguna dapat mengajukan pertanyaan dalam bahasa alami dan menerima penjelasan serta rekomendasi
- OpenTSLM adalah model bahasa baru yang dirancang agar dapat memproses data deret waktu dan teks klinis secara bersamaan di bidang medis
- Mengadopsi arsitektur cross-attention sehingga dapat diskalakan bahkan untuk deret waktu yang panjang, dan berbeda dari pendekatan lama, operasional skala besar menjadi praktis
- Dua struktur diusulkan: SoftPrompt (menyisipkan deret waktu sebagai token) dan Flamingo (berbasis cross-attention), masing-masing memiliki kelebihan dan kekurangan yang berbeda
- Memperkenalkan tiga dataset Chain-of-Thought(CoT) baru (HAR, Sleep, ECG-QA) untuk mengevaluasi kinerja penalaran model
- Dibandingkan GPT-4o, model yang 200 kali lebih kecil mencapai akurasi 4,4 kali untuk klasifikasi tahap tidur, 6 kali untuk pengenalan aktivitas, dan 2 kali untuk interpretasi ECG (efisiensinya masing-masing 880 kali, 1.000 kali, dan 400 kali)
- Untuk pertama kalinya di bidang medis, model ini memproses sinyal ECG 12-lead dan teks secara simultan, serta memberikan penalaran chain-of-thought yang telah diverifikasi oleh dokter spesialis jantung
- Memproses banyak deret waktu dengan panjang bervariasi secara simultan dan mengintegrasikannya dengan konteks teks untuk menghasilkan penjelasan yang dapat diinterpretasikan dan diverifikasi oleh pakar domain
- Studi ini menunjukkan potensi perluasan ke berbagai bidang aplikasi deret waktu seperti keuangan, rantai pasok, dan pemantauan industri, selain medis
Ikhtisar penelitian
- Diagnosis dan perawatan klinis pada dasarnya bergantung pada pemahaman perubahan dari waktu ke waktu
- LLM yang ada dapat menangani berbagai modalitas seperti gambar, teks, dan suara, tetapi masih kurang dalam kemampuan menafsirkan data deret waktu kontinu
- Untuk mengatasinya, OpenTSLM mengusulkan cara mengintegrasikan data deret waktu sebagai modalitas native baru untuk LLM
Arsitektur model
- OpenTSLM-SoftPrompt
- Deret waktu di-embedding lalu dimasukkan bersama token teks
- Sederhana dan efisien dari sisi parameter, tetapi pada sekuens panjang memiliki keterbatasan berupa penggunaan memori yang meningkat tajam
- OpenTSLM-Flamingo
- Memproses deret waktu sebagai modalitas terpisah dan menggabungkannya dengan teks melalui cross-attention
- Penggunaan memori tetap stabil bahkan pada sekuens panjang dan cocok untuk pemrosesan yang lebih umum
Dataset dan pelatihan
- HAR-CoT: pengenalan aktivitas manusia melalui sensor akselerometer
- Sleep-CoT: klasifikasi tahap tidur berbasis EEG
- ECG-QA-CoT: tanya jawab menggunakan data elektrokardiogram
- Menerapkan pembelajaran kurikulum bertahap, dari mempelajari pola deret waktu sederhana hingga berkembang ke pembelajaran kemampuan penalaran
Hasil utama
- SoftPrompt-Llama3.2-1B: mencatat 69,9% F1 pada Sleep-CoT dan 65,4% F1 pada HAR-CoT
- Flamingo-Llama3.2-3B: menunjukkan kinerja terbaik dengan 40,25% F1 pada ECG-QA-CoT
- Unggul dibanding GPT-4o: bahkan model kecil (OpenTSLM-1B) mencatat skor F1 lebih tinggi daripada GPT-4o
- Evaluasi dokter: 92,9% dari proses penalaran ECG-QA dinilai akurat atau sebagian akurat dalam interpretasinya
Efisiensi memori
- SoftPrompt membuat VRAM meningkat secara eksponensial seiring panjang input (contoh: membutuhkan lebih dari 110GB pada ECG-QA)
- Flamingo mempertahankan penggunaan memori yang stabil (sekitar 60~70GB bahkan pada Llama-3B)
Pembahasan
- OpenTSLM menunjukkan bahwa model kecil dapat melampaui model yang sangat besar
- SoftPrompt cocok untuk deret waktu pendek, sedangkan Flamingo cocok untuk deret waktu panjang/multi-deret waktu
- Menyediakan transparansi dalam proses penalaran pada data medis, sehingga membantu membangun kepercayaan
- Berbeda dari pendekatan berbasis classifier yang ada, model ini mewujudkan penalaran bahasa alami + penggabungan deret waktu
Keterbatasan dan tugas selanjutnya
- Cara saat ini dalam mempertahankan skala dan satuan deret waktu ke dalam teks mungkin bukan yang paling optimal
- Karena GPT-4o terlibat dalam proses pembuatan dataset CoT, ada kemungkinan bias data
- Diperlukan perancangan fungsi loss yang menjamin prediksi jawaban, penyederhanaan arsitektur, dan verifikasi kemampuan generalisasi
Kesimpulan
- OpenTSLM memiliki potensi tinggi untuk digunakan tidak hanya di bidang medis tetapi juga untuk pemrosesan data jangka panjang di keuangan, rantai pasok, pemantauan industri, dan lainnya
- Studi ini meletakkan dasar bagi konsep Time Series Language Model (TSLM) dan menargetkan perluasan menuju model penalaran deret waktu umum
1 komentar
Opini Hacker News
Saya paham idenya adalah bisa berinteraksi dengan data deret waktu lewat bahasa alami, tetapi saya penasaran apa keunggulannya dibanding memanfaatkan pustaka pemrosesan sinyal atau algoritme berbasis aturan (atau memakai machine learning jika datanya berubah-ubah) lewat tool calling
Misalnya, jika kita meminta LLM komersial menganalisis data ECG, maka LLM akan memanggil pustaka analisis deret waktu ECG
Pustaka tersebut akan memproses seluruh data dan mengekstrak nilai statistik serta peristiwa - misalnya: “denyut jantung rata-rata 60bpm, AFib terdeteksi pada waktu tertentu”
Dengan cara ini, LLM bisa mendapatkan semua informasi yang dibutuhkan untuk analisis, dan biaya komputasinya juga jauh lebih rendah
Selain itu, pendekatan seperti ini membutuhkan dataset beranotasi skala besar dan model yang sudah dipra-latih; mohon koreksi jika saya salah, tetapi saya rasa model serbaguna yang bisa menangani data deret waktu “secara umum” itu tidak mungkin
Artinya, model yang dilatih dengan data ECG tidak akan kompatibel dengan data pasar saham
Satu model yang bisa memahami semua jenis data yang berbeda masih belum mungkin
Menjalankan sistem seperti ini di edge itu sulit
Intinya adalah agar bisa berjalan dengan andal di edge
Tidak ada yang ingin pemantauan detak jantungnya diserahkan ke cloud - layanan jarak jauh punya banyak masalah gangguan dan keandalan, ditambah kesulitan tambahan terkait inferensi LLM
Fungsi deteksi berbasis aturan yang ada sudah tertanam di perangkat-perangkat seperti ini; jika digabungkan dengan kemampuan deteksi pola tingkat lanjut dari LLM, peringatan yang tidak perlu bisa dikurangi dan pola baru yang kompleks juga bisa dideteksi
Ini pada dasarnya menyediakan antarmuka untuk “bercakap-cakap” dengan data internet skala besar (ChatGPT)
Tapi saya kurang paham apa yang lebih baik dari cara ini dibanding klik tautan teratas di Google Search, menghindari iklan, menyetujui cookie, membaca header, scroll, menutup pop-up pembayaran, membaca sisa artikelnya, lalu mengulangi proses itu 4 kali karena itu terasa lebih efisien
Oke, saya paham
Ada tulisan "Stanford Repo Released Sep 31, 2025", dan rasanya seperti hasil sampling dari distribusi probabilitas yang menganggap hari setelah 30 September 2025 adalah tanggal 31
Menyampaikan terima kasih atas masukannya
Secara ironis, ini adalah tulisan tentang model yang memahami waktu
Sepertinya kesalahan tanggalnya sudah diperbaiki
Fondasi penelitian ini adalah sistem bernama “Flamingo”
Sistem ini dioptimalkan untuk memahami teks dan gambar secara bergantian dalam bentuk sekuens
Jadi, ia bisa menangani dua modalitas sekuensial sekaligus
Penelitian baru ini tampaknya memperkuat kemampuan memahami waktu dengan menyisipkan token waktu ke salah satu kanal modalitas
(Sebagai catatan, desain situs webnya sangat imut - bahkan ada efek gradien dari kiri ke kanan pada teksnya)
tautan ke makalah Flamingo
Ini sangat keren
Dari makalahnya, teknik ini tampaknya bekerja baik untuk tanya-jawab berbasis data deret waktu
Yang paling menarik bagi saya di bidang AI medis adalah mendeteksi sinyal penyakit yang bahkan tidak bisa ditangkap manusia
Misalnya, memperkirakan fraksi ejeksi dari ECG, sesuatu yang bahkan tidak bisa dilakukan ahli jantung (namun algoritmenya sudah divalidasi lewat RCT)
tautan ke makalah terkait
Karena OpenTSLM melakukan tokenisasi data deret waktu ke dalam ruang embedding LLM, saya penasaran apakah proses ini bisa menangkap sinyal-sinyal halus seperti itu
Atau apakah pendekatan ini bisa diperluas agar cocok untuk kasus penggunaan semacam ini
Itulah motivasi terbesar pada tahap awal penelitian ini
Di dalam model, data deret waktu mentah diintegrasikan lewat cross-attention, dan representasi deret waktu yang spesifik dipelajari dari encoder deret waktu mentah
Jika model perlu memproses deret waktu, bukankah lebih baik membuat skrip yang memanggil pustaka TS lalu menyerahkannya ke eksekutor untuk dijalankan
Manusia pun mungkin akan melakukan hal seperti itu
Saya tidak yakin perlu menanamkan kemampuan itu langsung ke dalam model
Jika model punya kemampuan pemrosesan TS native, saya penasaran apakah ada hal yang bisa dilakukan yang tidak bisa dicapai lewat tool calling
Anthropic juga merekomendasikan pendekatan “biarkan model menulis skrip” dalam pengumuman terbaru Claude Agent SDK
Pembuatan kode itu jelas, bisa dipakai ulang, dan sangat baik dari sisi komposabilitas, jadi ideal untuk menyelesaikan tugas kompleks secara andal
Saat mengembangkan agen, memikirkan tugas mana yang cocok direpresentasikan sebagai kode bisa membuka kemungkinan baru
tautan terkait Claude Agent SDK
Sepertinya Anda melewatkan intinya
Coba pikirkan apakah untuk membuat deskripsi gambar Anda akan memanggil pustaka analisis gambar, atau justru lebih baik memahami dan menalar gambar itu secara langsung sebagai deret waktu
Dari plot di makalahnya, Anda bisa melihat apa yang dapat dilakukan model-model seperti ini
Pada dasarnya saya penasaran apakah benar ada “konsep waktu” di sini, dan apakah ia memahami hubungan sebab-akibat
Saya pasti akan mencobanya begitu sampai di rumah hari ini
Saya menangani banyak data deret waktu audio (bukan yang berisi kata-kata, dan juga banyak variasi halus), jadi saya ingin melihat seberapa baik performa pendekatan baru ini dibanding teknik statistik tradisional
Mereka membuat repositori di huggingface dan mengunggah sebagian bobot model ke sana
Namun, saya belum melihat tautan itu di situs resmi, makalah, atau Github
halaman huggingface OpenTSLM
Saya membayangkan akan menyenangkan kalau claude code memantau deret waktu detak jantung saya secara real-time dan bahkan bisa mendeteksi berapa lama saya gelisah di tempat tidur
Kalau pemahaman saya benar, model ini tampaknya dilatih untuk klasifikasi dan interpretasi deret waktu; saya penasaran apakah mereka juga melakukan benchmark untuk prediksi (forecasting)
Penjelasan dan rekomendasi sering kali sangat terkait dengan prediksi, jadi saya rasa karakteristik modelnya juga akan terlihat di aspek ini
Sebagai uji lakmus yang menarik, tren S&P500 bisa dihilangkan lalu dipecah menjadi komponen untuk masing-masing dari 500 saham, kemudian dianalisis dan diperingkat berdasarkan seberapa besar kontribusi tiap saham
Namun, pekerjaan seperti ini saja tidak akan cukup untuk mendapatkan pekerjaan di Rentec atau NSA
Di bidang komersial dan medis, sinyal umumnya cenderung normal dan digunakan bersama noise putih (tak berkorelasi), sedangkan di NSA dan Rentec yang dihadapi terutama adalah sinyal non-stasioner dengan regime change serta noise yang berkorelasi
Sinyal seperti ini tidak bisa di-denoise tanpa kehilangan informasi
Tujuan analisis seperti ini bukan untuk memprediksi tick berikutnya, melainkan mendeteksi perubahan pola (regime change) secepat mungkin dan mencocokkannya dengan pola perdagangan saham atau aktivitas intelijen yang sudah ada