Cara Cepat Menghitung Algoritma C4.5 Dengan Excel Pada Kasus Data Diskrit
Assalamualaikum Wr. Wb, Salam Sejahtera dan Salam Budaya.
Algoritma C4.5 adalah bagian dari keluarga algoritma decission tree atau sebuah algoritma yang dikembangkan setelah algoritma ID3 yang juga termasuk keluarga decission tree. Dimana tujuan akhir dari algoritma ini adalah membentuk sebuah model pohon keputusan untuk menentukan hasil akhir dari sebuah data.
Sebelum kalian membaca lebih lanjut tentang artikel ini . Ada baiknya kalau paham dulu tentang algoritma C4.5 sepenuhnya.
Cara menghitung Algoritma C4.5 adalah dengan menentukan nilai Entropy dan Gain untuk data yang bertipe nominal atau diskrit. Nah bagaimana Cara menghitung melalui microsoft exel. Begini caranya.
- Persiapkan Set Data Latih. Contoh set data latih yang saya gunakan.
- Buka aplikasi microsoft excel kalian dan persiapkan tabel seperti dibawah ini. Untuk memisahkan masing-masing atribut dari set data latih.
- Selanjutnya, hitung Jumlah Total set data latih, Jumlah Kelas Tepat dan Terlambat, dan Nilai Entropy atribut kelas. Penulisan rumus atau formulanya sebagai berikut ;
- =COUNTA(A2:A11), adalah menghitung keseluruhan data.
- =COUNTIF(G2:G11.'Tepat'), adalah menghitung jumlah data pada kondisi atau pada kolom(range) kelas Tepat begitu juga dengan kelas Terlambat
- L2 = Jumlah dari kelas Tepat
- M2 = Jumlah dari kelas Terlambat
- K2 = Jumlah total data latih
- IMLOG2 adalah rumus untuk perhitungan log.
- Kemudian langkah berikutnya lakukan perhitungan diatas sama persis untuk atribut-atribut yang lainnya. Dan yang menjadi perbedaan adalah Jumlah yang dimaksud adalah untuk subset atribut selain kelas adalah menghitung jumlah berdasarkan kriteria atribut tersebut. dan hasilnya seperti tabel dibawah ini.
Baca Juga : Cara Menghitung Algoritma C4.5 Atribut Data Numerik atau Kontinu
- =COUNTIFS(A2:A11,"Laki-Laki",G2:G11,"Tepat"), formula untuk mencari jumlah Jenis kelamin "Laki-Laki" pada Kelas "Tepat". Dan untuk kelas terlambat maka hanya mengganti dengan =COUNTIFS(A2:A11,"Laki-Laki",G2:G11,"Terlambat"). Fomula ini juga digunakan untuk mencari pada atribut jenis kelamin "Perempuan" yang hanya dengan mengganti "Laki-Laki" menjadi "Perempuan".
- Setelah berhasil menghitung pada tahapan diatas maka selanjutnya adalah menghitung nilai Gain. Dan formulanya adalah sebagai berikut
- $N$2 , adalah nilai Entropy dari atribut Kelas
- $K4 , adalah jumlah atribut jenis kelamin "Laki-Laki"
- $K$2 , adalah jumlah set data latih
- $N4 , adalah nilai Entropy dari atribut jenis kelamin "Laki-Laki"
- $K5 , adalah jumlah atribut jenis kelamin "Perempuan"
- $N5 , adalah nilai Entropy dari atribut jenis kelamin "Perempuan"
- Catatan
- Penggunaan $ pada rumus tersebut adalah untuk mempermanenkan kolom yang dijadikan referensi. Jadi jika kita bisa mennyalin rumus itu untuk kolom yang ada dibawahnya.
- Selanjunya adalah lakukan langkah-langkah diatas pada semua atau masing-masing atributnya.
Dan jika selesai maka hasilnya akan seperti ini.
Tahapan selanjutnya adalah carilah nilai Gain tertinggi untuk menentuka akar atau awal dari suatu pohon keputusan atau decission tree.
Nah, itulah pengalaman edukasi tentang cara menghitung algoritma C4.5 menggunakan excel. Kalian juga bisa mengunduh contoh file excel pada link DISNI -->
Nah itulah cara penyelesain masalah pada kasus atribut data numerik pada proses perhitungan Algoritma C4.5 dan jika kamu ingin belajar lebih dalam lagi, kamu bisa mendapatkan file excelnya.
- File Excel ini berisikan 8 sheet perhitungan dari 3 algoritma
- Naive Bayes (atribut numerik, deskrit, campuran), k-NN (atribut numerik, campuran ), C4.5 (numerik, deskrit)
- Harga File Rp. 85.000, -
- Jika Custom Data pada satu Algoritma Rp.150.000,-
- Bonus perhitungan Confusion Matrix.
- File Excel untuk Satu Agoritma saja Rp. 30.000,-
Bisa menghubungi Admin di menu Contact yang terletak di footer bawah.
Demikian semoga bermanfaat dan satu kata "Jangan Lupa Bernafas dan Tetap Bersyukur".
Wassalamulaikum Wr.Wb
See You.