Cara Menghitung Algoritma C4.5
MATERI 8. ANALISI ALGORITMA C4.5
C4.5 adalah perbaikan dari model ID3. Santosa dan Umam (2018) ditulis dalam buku Mitchell (1997) ID3 adalah model decision tree yang lain, beberapa pengembangan yang diterapkan antara lain :
- Bisa mengatasi missing data
- Bisa mengatasi data kontinyu
- Pruning dan aturan
- Menggunakan gain ratio sebagai kriteria pemecahan.
Algoritma C4.5 merupakan struktur pohon keputusan dimana terdapat simpul yang mendiskripsikan atribut – atribut, setiap cabang menggambarkan hasil dari atribut yang duji, dan setiap daun menggambarkan kelas (Preasetyo, 2014). Dalam algoritma C4.5 langkah pertama sesudah menyiapkan data latih pemilihan atribut yang bisa dihitung menggunakan konsep entropy.
Entropy menyatakan impurty suatu kumpulan obyek. Berikut adalah rumus perhitungan entropy :
Keterangan :
S = Himpunan Kasus
n = Jumlah partisi S
p_i = probabilitas yang didapat dari jumlah kelas dibagi total kasus
Setelah menghitung nilai entropy dalam algoritma C4.5 pemilihan atribut dilakukan dengan menggunakan Information Gain. Untuk menghitung gain, yang bisa dihitung dengan formula sebagai berikut :
Keterangan :
S = Himpunan kasus
A = Atribut
n = Jumlah atribut
|Si| = Jumlah partisi ke -i
|S| = jumlah kasus dalam S
Apabila ada atribut yang mempunyai banyak nilai atribut perlu untuk menghitung gain ratio, sebelumnya perlu kita ketahui suatu istilah baru yang disebut split information, yang bisa dihitung dengan formula sebagai berikut :
Keterangan :
S = ruang (data) sampel yang digunakan untuk training
A = atribut
S_i = jumlah sampel untuk atibut i
Dimana S_i sampai S_c adalah subset c yang dihasilkan dari pemecahan S dengan menggunakan atribut A yang mempunyai sebanyak c nilai. Selanjutnya gain ratio dihitung dengan cara :
Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5 (Kursini, 2009) ;
- Menyiapkan data latih. Data latih biasanya diambil dari data yang pernah terjadi sebelumnya dan sudah dikelompokkan ke dalam kelas – kelas tertentu.
- Menentukan akar pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung nilai gain dari masing – masing atribut. Nilai gain yang paling tinggi akan menjadi akar pertama. Sebelum menghitung niali gain dari atribut, harus menghitung dulu nilai entropy.
- Menghitung nilai gain ratio
- Mengulangi langkah ke 2 hingga semua record terpartisi
- Proses partisi pohon keputusan akan berhenti saat, semua record dalam simpul N mendapat kelas yang sama, tidak ada atribut record yang dipartisi lagi dan tidak ada record didalam cabang yang kosong.
MATERI 1. MENGAPA PERLU DATA MINING ?
MATERI 2. TUGAS – TUGAS DATA MINING
MATERI 4. CONFUSION MATRIX
MATERI 8. ANALISIS ALGORITMA C4.5
Simak Juga video lengkap tutorial mengenai perhitungan algoritm C4.5 menggunakan Ms. Excel 2016
Terimakasih sudah percaya dan mau belajar sendiri. untuk menghindari kesalah pahaman diantara beribu bintang hanya kau lah yang paling terang.. awowok :)
Nah itulah cara penyelesaian masalah pada proses perhitungan Algoritma C4.5 dan jika kamu ingin belajar lebih dalam lagi, kamu bisa mendapatkan file excelnya.
- File Excel ini berisikan 8 sheet perhitungan dari 3 algoritma
- Naive Bayes (atribut numerik, deskrit, campuran), k-NN (atribut numerik, campuran ), C4.5 (numerik, deskrit)
- Harga File Rp. 85.000, -
- Jika Custom Data pada satu Algoritma Rp. 150.000,-
- Bonus perhitungan Confusion Matrix.
- File Excel untuk Satu Agoritma saja Rp. 30.000,-
Bisa menghubungi Admin di menu Contact yang terletak di footer bawah.