Menghitung k-NN Atribut Data Kelas Numerik atau Kontinyu
Namun, belakangan ini banyak sekali pertanyaan tentang apakah perlu dilakukan normalisasi data ?
Secara tertulis dalam buku-buku tentang pembahasan ilmu data mining tentu ada salah satu tahapan yang harus dilakukan yaitu dengan melakukan normalisasi data, namun terkadang nilai akurasi yang dihasilkan terkadang rendah, kemudian jika tidak dilakukan normalisasi data hasil akurasinya bisa lebih tinggi.
Nah untuk kasus ini maka tahapan dari normalisasi data itu memang perlu dilakukan apabila data latih yang diperoleh bentuknya atau tipe datanya adalah campuran yaitu ada atribut data binominal atau diskrit dan ada atribut data yang bertipe numerik atau kontinu dan isi datanya juga berbeda.
Namun, keluar dari kasus diatas yang akan tertulis dalam artikel ini adalah cara menghitung algoritma k-NN pada kasus data yang memiliki atribut kelas atau label yang bertipe numerik. Memang bisa algoritma klasifikasi memprediksi kasus pada atribut kelas numerik ? Jika ada kasus seperti itu maka k-NN bisa mengatasi semacam kasus di atas.
Proses Perhitungan Algoritma k-NN (Nearest Neighbor)
1. Persiapan Set Data Latih
Tahap yang harus dilakukan pertama kali adalah harus menyiapkan set data latih terlebih dahulu, karena set data latih adalah data yang diperlukan untuk proses pembelajaran supervised learning. Dan tabel dibawah ini adalah contoh data latih yang mempunyai set data dengan atribut kelas numerik atau kontinu.
Contoh Set Data Latih |
2. Perhitungan Algoritma k-NN
- Xi adalah data dari masing-masing atribut dari data latih
- Yi adalah data dari data uji.
Pada tahapan ini adalah menentukan dengan cara pemilihan nilai euclidean distance yang terkecil yang masuk peringkat dari sejumlah nilai k. Untuk pengembilan nilai k sendiri minimalnya adalah 0 dan maksimalnya adalah total jumlah data latih dikurang satu. Dalam arti lain jika data latih sebanyak 20 maka maksimal nilai k nya adalah 19. Contoh hasil dari pengambilan nilai k dari dua data uji.
Hasil Nilai k |
Yang dimaksud dari tabel diatas adalah mengambil nilai k sebanyak 4 nilai terkecil dari nilai ecludiean distance. Nah dari hasil tersebut pada data uji 1 nilai k terdekat didapatkan 4 nilai dari atribut Label Terakhir dengan urutan dari nilai distance terkecil yaitu 1907.6, 1868.4, 1866.3, dan 1876. Sedangkan pada data uji 2 yaitu 1962.1,1962.1,1962.1, dan 1963.7.
Pertanyaannya adalah Bagaimana cara mengambil keputusan prediksi dari hasil tersebut ?
Caranya adalah dengan mengambil nilai rata-rata dari nilai k tersebut. Contoh pada pada nilai k dari data uji 1 kamu jumlahkan dan dibagi jumlah k.
- 1907.6 + 1868.4 + 1866.3 + 1876.3 = 7519.2 / 4 = 1879.8
- Maka prediksi yang bisa diambil dari data uji 1 adalah 1879.8
- 1962.1 + 1962.1 + 1962.1 + 1963.7 = 7850 / 4 = 1962.5
- Maka prediksi yang bisa diambil dari data uji 2 adalah 1962.5
- File Excel ini berisikan 8 sheet perhitungan dari 3 algoritma
- Naive Bayes (atribut numerik, deskrit, campuran), k-NN (atribut numerik, campuran ), C4.5 (numerik, deskrit)
- Harga File Rp. 85.000, -
- Jika Custom Data pada satu Algoritma Rp. 150.000,-
- Bonus perhitungan Confusion Matrix.
- File Excel untuk Satu Agoritma saja Rp. 30.000,-