K-Means Clustering in Machine Learning : Konsep Dasar
Assalamualaikum Wr.Wb - Salam Sejahtera dan Salam Budaya
K-Means adalah sebuah metode atau algoritma yang tergolong dalam pembelajaran unsupervised learning. Metode ini merupakan salah satu yang tertua dan sangat populer dikalangan praktisi karena kemudahan implentasi dan kecepatan prosesnya karena tidak membutuhkan pelabelan dalam datanya.
Konsep k-means telah ditemukan para peneliti sejak tahun 1950-an, diantaranya adalah Lloyd, Forgey, Friedman dan Rubin, serta MacQueen.
Sama dengan metode machine learning yang lain, k-means bertujuan meminimalisasi sum of squared error (SSE). Untuk memulai metode k-means, kita harus mengetahui langkah-langkah atau proses dari perhitungan algoritma k-means.
Tahapan Dasar K-Means
Langkah Pertama, Kumpulkan himpunan data atau biasa disebut dataset yang akan diklaster, kemudian pilih sejumlah k objek data secara acak sebagai titik pusat centroid awal.
Langkah Kedua, Setiap objek yang bukan (centroid) dimasukkan ke klaster terdekat berdasarkan suatu ukuran jarak
Langkah Ketiga, Setiap centroid diperbarui berdasarkan rata-rata dari obejk yang ada di dalam setiap klaster.
Langkah Keempat, Lakukan iterasi untuk langkah kedua dan ketiga sampai semua centroid konvergen dan stabil, dimana semua centroid yang dihasilkan pada iterasi saat ini sama persis atau berbeda tipis dengan ketentuan tertentu dengan semua centroid yang dihasilkan pada iterasi sebelumnya dan SSE stabil tidak mengalami perubahan yang berarti.
Baca Juga : Cara Menentukan Algoritma Klasifikasi Terbaik dalam Supervised Learning
Contoh Dasar
Dalam contoh kamu diberi sebuah himpunan data berisi delapan objek data (O1 sampai O2) dua dimensi (X1 dan X2) yang dikelompokkan ke dalam dua klaster antara kiri dan kanan, seperti yang bisa divisualisasikan dengan gambar dibawah ini.
Misalkan dua centroid awal c1 dan c2) yang dibangkitkan secara acak adalah objek O1 yang berada di koordinat (2,5) dan objek data O3 yang berada di koordinat (4,2), seperti yang bisa divisualisasikan dalam gambar berikut
Selanjutnya adalah menghitung jarak, dalam contoh menggunakan Euclidean Distance anatra objek data yang bukan centroid dengan kedua centroid c1 dan c2 , lalu bandingkan keuda jarak tersebut. Sebagai contoh, obejk O2 lebih dekat dengan c1 dibandingkan ke c2. Maka dengan demikian O2, menjadi anggota klaster 1. Hitung jarak semua objek data lainnya untuk menentukan anggota klaster, seperti visualisasi gambar dibawah ini.
Perhitungan jarak setiao objek yang bukan centroid dengan kedua centroid menghasilkan klaster 1 beranggotakan dua objek data, yaitu O1 dan O2 , sedangkan klaster 2 beranggotakan enam objek data lainnya, seperti yang bisa kamu lihat pada gambar dibawah ini.
Pada kondisi ini, terdapat dua objek yang salah klaster, yaitu O3 dan O4. Kenapa ? Jika kamu membuat lingkaran dengan titik pusat C2, maka centroid klaster 2 tersebut mencakup area yang luas, yang tumpang tindih dengan klaster 1, sehingga data O3 dan O4 masuk ke dalam klaster 2. Seperti yang bisa kamu lihat pada gambar dibawah ini.
Baca Juga : Aplikasi Machine Learning yang sering digunakan oleh Para Ahli
Selanjutnya, Setelah semua anggota klaster telah terdefinisi, kamu bisa menghitung SSE, RMSE, MAPE yang berupa total kuadrat jarak antara semua objek data anggota klaster dengan centroid yang sesuai.
Kelebihan K-Means Clustering
- K-Means lebih cepat daripada pengelompokan hierarki
- Klaster yang dihasilkan bisa jaluh lebih padat dan lebih rapat daripada klastering hierarkis karena adanya klaster globular
- Klaster k-means tidak tumpang tindih satu sama lain karena mereka terbukti non-hierarki.
- K-means juga bekerja dengan baik dengan kumpulan data besar dan sangat mudah diimplemintasikan.
Kekurangan K-Means Clustering
- Kita harus memilih nilai 'k' sendiri. Atau kita bisa menggunakan metode yang lebih panjang seperti metode titik siku
- Tidak bisa efektif jika jumlah klaster tidak diketahui, ukuran klaster tidak seimbang dan apabila himpunan data memiliki derau dan pencilan.
Terimakasih semoga bermanfaat dan Kamu bisa menemukan apa yang sedang kamu cari. "Janga Lupa Bernafas dan Tetap Bersyukur".
Sumber Referensi :
Suyanto, 2018. Machine Learning Tingkat Dasar dan Lanjut. INFORMATIKA. Bandung
Wassalaumalaikum wr.wb - Salam Sejahtera dan Sampai Jumpa