Clustering itu cara ngelompokin data berdasarkan kemiripan, tanpa perlu label.
Digunakan buat cari pola tersembunyi, misalnya segmentasi pelanggan atau grup dokumen.
Jenisnya:
- K-Means: cepat, harus tentuin jumlah cluster dulu.
- Hierarchical: bentuk dendrogram, nggak perlu tentuin jumlah cluster awal.
- DBSCAN: berdasarkan kepadatan, bisa tangkep bentuk cluster aneh.
- GMM: pakai probabilitas, satu data bisa masuk beberapa cluster.
Cluster yang bagus: dalam satu grup mirip, antar grup beda jauh.
Evaluasi: pake Silhouette Coefficient (nilai -1 sampai 1).
Makin dekat ke 1, makin baik clusternya.
Intinya: clustering bantu kita pahami data, cari pola, dan ambil keputusan lebih tepat.