Clustering adalah teknik pembelajaran tak terawasi (unsupervised learning)
yang bertujuan mengelompokkan data ke dalam beberapa kelompok (cluster)
berdasarkan kemiripan karakteristik. Melalui proses ini, algoritma secara otomatis
mengidentifikasi pola atau struktur alami yang terdapat dalam dataset tanpa
memerlukan label kelas.
Clustering digunakan ketika:
• Kita memiliki data dalam jumlah besar tapi tidak mengetahui kategorinya.
• Dibutuhkan segmentasi otomatis tanpa intervensi manual.
• Ingin memahami pola perilaku, preferensi, atau hubungan antar objek.
Clustering bekerja berdasarkan intuisi bahwa objek yang mirip harus berada
dalam satu cluster, sedangkan objek yang jauh berbeda diletakkan pada cluster
lain.
Segmentasi data adalah proses membagi data menjadi beberapa segmen yang
lebih kecil dan homogen. Clustering adalah salah satu teknik paling populer untuk
segmentasi. Segmen yang terbentuk biasanya memiliki karakteristik internal yang
serupa sehingga memudahkan analisis perilaku, preferensi, atau pola tertentu
dalam data.
Jenis Pendekatan Clustering
a. Partitional Clustering
Membagi data menjadi k cluster secara eksklusif berarti setiap data hanya
dapat menjadi anggota dari satu cluster dan tidak boleh berada di lebih dari satu
kelompok sekaligus.
b. Hierarchical Clustering
Menghasilkan struktur pohon (dendrogram) yang menunjukkan hubungan
antar cluster, sehingga setiap proses penggabungan atau pemisahan kelompok
dapat ditelusuri secara visual.
c. Density-Based Clustering
Mengenali cluster berdasarkan kepadatan titik berarti algoritma
mengidentifikasi area dalam ruang data yang memiliki konsentrasi titik tinggi
sebagai sebuah cluster.
d. Model-Based Clustering
Menggunakan model probabilistik berarti algoritma membentuk cluster
berdasarkan distribusi peluang dari data, bukan sekadar jarak antar titik.
Metode K-Means
a. Konsep Dasar K-Means
K-Means merupakan metode partitional clustering yang membagi data
menjadi k cluster berdasarkan jarak terhadap pusat cluster (centroid). Pendekatan
ini bekerja secara iteratif dengan tujuan meminimalkan variasi internal (intra-
cluster variance) sehingga data dalam satu cluster memiliki kemiripan yang tinggi.
Hierarchical Clustering
Hierarchical clustering adalah metode yang membangun struktur berbentuk
hierarki atau pohon pengelompokan tanpa menentukan jumlah cluster di awal.
Hasil akhirnya digambarkan dalam bentuk dendrogram.