Pengantar Indeks PostgreSQL

Indeks PostgreSQL adalah struktur inti untuk meningkatkan kecepatan akses data, dengan mengurangi jumlah data yang harus dibaca dari disk sehingga meningkatkan performa kueri
Indeks tersedia dalam berbagai bentuk seperti Btree, Hash, BRIN, GIN, GiST, SP-GiST, dan masing-masing dioptimalkan untuk karakteristik data serta pola kueri yang berbeda
Indeks juga membawa berbagai biaya seperti ruang disk, performa tulis, kompleksitas query planner, dan penggunaan memori
Melalui fitur lanjutan seperti partial index, multi-column index, covering index, expression index, efisiensi dapat dimaksimalkan dalam situasi tertentu
Pemilihan dan pengelolaan indeks yang tepat ditekankan sebagai faktor kunci optimasi performa PostgreSQL

Konsep dasar indeks

Indeks adalah struktur yang mempercepat kueri dengan mengurangi jumlah data yang dibaca database dari disk
- Primary key, unique key, dan exclusion constraint juga diimplementasikan melalui indeks
- Indeks efektif ketika hasil kueri kurang dari sekitar 15~20% dari seluruh tabel; di atas itu, sequential scan bisa lebih efisien
PostgreSQL secara bawaan menyediakan 6 jenis indeks, dan lebih banyak jenis bisa digunakan melalui ekstensi
- Setiap indeks menghubungkan nilai kunci dengan lokasi data terkait (TID)

Struktur data yang disimpan di disk

Tabel PostgreSQL disimpan sebagai file heap, yang tersusun dalam unit halaman 8KB
Setiap baris (tuple) disimpan tanpa urutan tertentu, dan alamat internalnya diidentifikasi dengan ctid (current tuple id)
- Contoh: (0,1) berarti tuple pertama pada halaman 0
Indeks menghubungkan posisi heap tersebut (ctid) dalam struktur pohon untuk mendukung pencarian cepat

Cara indeks mempercepat akses data

Tanpa indeks, PostgreSQL melakukan sequential scan dengan membaca semua halaman
- Pada contoh kueri, saat mencari name='Ronaldo', dibutuhkan pembacaan 6272 halaman dan waktu 265ms
Setelah indeks ditambahkan, proses berubah menjadi Index Scan, hanya membaca 4 halaman dan selesai dalam 0.077ms
- Indeks memetakan nilai ke ctid sehingga hanya baris yang diperlukan yang ditemukan dengan cepat
Ukuran file indeks bisa sebanding dengan ukuran tabel (contoh: tabel 30MB → indeks 30MB)

Faktor biaya indeks

Selain meningkatkan performa, indeks juga membawa berbagai beban tambahan

Ruang disk

Indeks memakai ruang penyimpanan terpisah dan bisa lebih besar daripada tabel
- Menimbulkan biaya tambahan saat backup, replikasi, dan pemulihan bencana
- Efisiensi ruang dapat ditingkatkan dengan partial index, multi-column index, BRIN, dan lainnya

Operasi tulis

Saat UPDATE, INSERT, DELETE, jika kolom yang terindeks berubah maka muncul overhead pembaruan indeks

Query planner

Semakin banyak indeks, semakin banyak opsi yang harus dipertimbangkan planner, sehingga waktu penyusunan rencana kueri bertambah

Penggunaan memori

Halaman indeks dimuat ke shared buffer untuk di-cache, sehingga semakin banyak indeks maka beban memori meningkat
Karena batas ukuran node btree, semakin besar kolom maka kedalaman pohon meningkat
Pada sorting, multi-column scan, vacuum, reindex, dan proses lain, work memory juga digunakan tambahan

Jenis-jenis utama indeks

Btree

Struktur indeks default PostgreSQL, merupakan indeks serbaguna yang digunakan di sebagian besar DBMS
- Mendukung pencarian cepat dengan kompleksitas waktu O(log n)
- Menggunakan struktur balanced tree di mana semua leaf node memiliki kedalaman yang sama
- Menguntungkan untuk operasi ORDER BY, JOIN, serta digunakan untuk constraint primary key dan unique key
Node internal menyimpan pointer ke node anak, sedangkan leaf node menyimpan key dan pointer ke heap
Melalui pointer node kiri dan kanan, penelusuran dua arah dimungkinkan

Penggunaan banyak indeks

PostgreSQL dapat menggabungkan beberapa indeks melalui operasi bitmap AND/OR untuk menangani kondisi gabungan
- Contoh: pada kondisi age=30 AND login_count=100, bitmap dari dua indeks digabungkan

Multi-column index

Beberapa kolom dapat digabungkan dalam satu indeks untuk menghemat ruang dan meningkatkan kecepatan
- Namun, urutan kolom itu penting dan indeks hanya dapat digunakan untuk kondisi yang cocok mulai dari sisi kiri

Partial index

Mengindeks hanya baris tertentu menggunakan ekspresi kondisi
- Mengurangi ukuran indeks, meningkatkan kecocokan dengan RAM, dan mempercepat pencarian
- Contoh: create index on rules(status) where status='enabled';
- Berguna saat distribusi nilai tidak seimbang (status <> 'TODO' dan sebagainya)

Covering index

Jika semua kolom yang dibutuhkan kueri ada di dalam indeks, hasil bisa dikembalikan tanpa mengakses heap (index-only scan)
- create index abc_cov_idx on bar(a, b) including c;
- Lebih efisien dalam penggunaan ruang dibanding multi-column index

Expression index

Mengindeks hasil fungsi atau ekspresi, bukan nilai kolom secara langsung
- Contoh: CREATE INDEX idx_lower_name ON customers (lower(name));
- Berguna saat mencari berdasarkan nilai yang telah ditransformasi seperti LOWER(name)
- Hanya fungsi immutable yang dapat digunakan

Hash

Indeks berbasis struktur hash map yang efisien secara ruang untuk string panjang atau UUID
- Menyimpan hash code 32-bit untuk mengurangi ukuran
- Hanya mendukung operasi perbandingan kesetaraan (=), dan tidak mendukung sorting maupun multi-column index
- Jika distribusi hash merata, performa baca bisa lebih cepat daripada Btree
Menurut dokumentasi resmi, hash index dapat mengurangi I/O pada tabel besar melalui akses langsung ke bucket page

BRIN (Block Range Index)

Indeks yang hanya menyimpan nilai minimum dan maksimum untuk setiap rentang blok
- Sangat ringkas dan ramah cache
- Cocok untuk data berskala besar, append-only, dan time-series
Jika baris sering diperbarui, efisiensinya menurun akibat penyimpanan duplikat karena MVCC
Dengan pengaturan pages_per_range, dapat diatur trade-off antara akurasi dan ukuran

GIN (Generalized Inverted Index)

Indeks yang cocok untuk pencarian data kompleks
- Mendukung pencarian elemen tertentu pada teks, array, JSONB, dan lainnya
- Menggunakan strategi khusus (opclass) sesuai tipe data
- Untuk JSON disarankan memakai kolom JSONB, sedangkan teks dianjurkan bersama tsvector atau ekstensi pg_trgm

GiST & SP-GiST

Generalized Search Tree (GiST) dan space-partitioned tree (SP-GiST) adalah framework implementasi indeks untuk tipe data tertentu
- GiST mendukung balanced tree, sedangkan SP-GiST mendukung struktur tidak seimbang
- Digunakan untuk geospatial, inet, range, text vector, dan lainnya
- GIN unggul untuk pencarian cepat, sedangkan GiST lebih murah dalam biaya pembuatan dan pemeliharaan
- Untuk full-text search, pilih salah satu sesuai kebutuhan

Kesimpulan

Indeks adalah inti optimasi performa PostgreSQL, dan penting menjaga keseimbangan antara peningkatan kecepatan baca dengan biaya tulis serta penyimpanan
Dengan memilih jenis indeks yang sesuai karakteristik data dan pola kueri, dimungkinkan pengoperasian database yang cepat dan efisien
Desain indeks yang tepat merupakan elemen penting untuk menjamin skalabilitas dan stabilitas sistem berskala besar

Pengantar Indeks PostgreSQL

Konsep dasar indeks

Struktur data yang disimpan di disk

Cara indeks mempercepat akses data

Faktor biaya indeks

Ruang disk

Operasi tulis

Query planner

Penggunaan memori

Jenis-jenis utama indeks

Btree

Penggunaan banyak indeks

Multi-column index

Partial index

Covering index

Expression index

Hash

BRIN (Block Range Index)

GIN (Generalized Inverted Index)

GiST & SP-GiST

Kesimpulan

1 komentar

Komentar Hacker News

Pengantar Indeks PostgreSQL

Konsep dasar indeks

Struktur data yang disimpan di disk

Cara indeks mempercepat akses data

Faktor biaya indeks

Ruang disk

Operasi tulis

Query planner

Penggunaan memori

Jenis-jenis utama indeks

Btree

Penggunaan banyak indeks

Multi-column index

Partial index

Covering index

Expression index

Hash

BRIN (Block Range Index)

GIN (Generalized Inverted Index)

GiST & SP-GiST

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News