Pembelajaran Tak Terawasi (Unsupervised Learning) adalah pendekatan dalam machine learning di mana model bekerja dengan data tanpa label dan bertujuan menemukan struktur atau pola tersembunyi secara otomatis dari data itu sendiri.
🔍
Konsep Clustering
- Clustering adalah teknik untuk mengelompokkan data berdasarkan kemiripan karakteristik tanpa memerlukan label kelas.
- Tujuan clustering antara lain menemukan pola, memahami struktur data, serta mempermudah analisis dan pengambilan keputusan lebih lanjut.
- Segmentasi data adalah hasil clustering yang membagi dataset menjadi kelompok yang lebih homogen dan relevan untuk keperluan tertentu.
📏
Konsep Kemiripan (Similarity) & Jarak (Distance)
- Clustering bekerja berdasarkan prinsip bahwa objek yang mirip harus berada dalam cluster yang sama.
- Ukuran seperti jarak Euclidean, Manhattan Distance, atau Cosine Similarity sering dipakai untuk mengukur seberapa dekat atau mirip objek satu dengan lainnya.
🧠
Jenis-Jenis Clustering
- Partitional Clustering – Membagi data menjadi k cluster yang saling eksklusif (contoh: K-Means).
- Hierarchical Clustering – Membentuk struktur hierarki data berdasarkan kedekatan (dapat divisualisasikan dengan dendrogram).
- Density-Based Clustering – Mengelompokkan berdasarkan kepadatan titik dalam ruang data, cocok untuk bentuk cluster tidak beraturan.
- Model-Based Clustering – Berdasarkan model statistik probabilistik yang mampu memberi kemungkinan keanggotaan data pada tiap cluster.
📊
Karakteristik Clustering yang Baik
Cluster yang baik memiliki:
- Kemiripan tinggi antar anggota cluster sendiri.
- Kemiripan rendah antar cluster yang berbeda, sehingga masing-masing cluster punya identitas jelas.
📈
Tantangan dalam Clustering
- Menentukan jumlah cluster optimal (k).
- Data berdimensi tinggi atau noise yang kuat dapat menyulitkan pemisahan cluster.
- Interpretasi hasil clustering sering bersifat subjektif.