K-Means (Clustering)

K-Means adalah salah satu metode yang dapat kita gunakan untuk melakukan Clustering. Clustering sendiri adalah suatu proses pengelompokkan data ke dalam beberapa cluster (kelompok) yang memiliki kemiripan karakterisitik antar suatu data dengan data lainnya. K-Means merupakan algoritma unsupervised learning yang berarti tidak memerlukan label atau target output dalam proses pembelajarannya.

Cara kerja

Algoritma ini bekerja dengan cara mengelompokkan data ke dalam cluster-cluster yang memiliki jarak terdekat dengan centroid. Centroid sendiri adalah titik pusat dari cluster tersebut. Pada tahap awal, suatu titik centroid akan ditentukan (baik secara acak maupun ditentukan manual). Kemudian, setiap data akan dikelompokkan ke masing-masing cluster berdasarkan distancenya yang kemudian akan dicek apakah centroid dari cluster itu sudah sesuai atau belum.

Tentukan centroid

Kelompokkan data berdasarkan centroid

Kemudian, tentukan centroid baru berdasarkan titik tengah dari cluster yang ada.
Ulangi langkah 2 dan 3 hingga titik-titik pada cluster tidak bervariasi