Cara Menghitung Gini Index Algoritma C4.5 dengan Excel
Assalamalaikum wr. wb - Salam Sejahtera dan Salam Budaya.
Algoritma C4.5 adalah algoritma pengambangan dari decision tree. Pengembangan yang dimaksud adalah bisa menentukan atribut yang bertipe numerik dan bisa melakukan teknik pruning serta bisa mengatasi atribut yang missing value.
Perhitungan dari algoritma C4.5 sendiri terdapat empat kriteria penentuan nilai yaitu, Info Gain, Split Info, Gain Ratio & Gini Index. Namun pada artikel ini akan khusus menghitung dengan menentukan nilai Gini Index menggunakan excel.
Rumus Gini Index
Dimana c adalah jumlah nilai dari masing-masing atribut dan Pi adalah jumlah masing-masing atribut berdasarkan kelas atau labelnya. Kemudian dilakukanlah proses penguadratan. Setelah itu dilakukanlah penjumlahan nilai gini index pada satu atribut.
Nah, selanjutnya kita akan mencoba menghitungnya dengan menggunakan microsoft excel. Yuk langsung saja kita cuss kebawah.
1. Persiapan Data dan Tabel
Pada gambar tabel diatas terdapat dua pemisahan atribut yaitu asal sekolah dan JK dimana juga dipisahkan berdasarkn sub kriteria atribut nya. Dan ada dua atribut kelas yaitu Lulus dan Tidak Lulus.
2. Perhitungan Gini Index Sub Kriteria Atribut
- 1-((Jumlah SMA Lulus / Jumlah SMA)^2 + (Jumlah SMA Tidak Lulus / Jumlah SMA)^2)
- 1-((7/8)^2 + (1/8)^2) = 0.21875
Kemudian jika kamu mengkonversinya menjadi formula di dalam Ms. Excel, hanya dengan menuliskan satu formula rumus saja. Dalam arti lain untuk perhitungan atribut yang lain, kamu hanya tinggal copy-paste saja.
Perhatikan pada kotak yang bergaris merah, itu adalah penulisan rumus gini index nya, yg akan tertulis seperti ini
- =1-(($M10/$L10)^2 + ($N10/$L10)^2
Dimana M10 adalah letak dari Jumlah SMA Lulus dan N10 adalah Jumlah SMA Tidak Lulus dan L10 adalah Jumlah Total SMA. Nah pada penulisan rumus tersebut terdapat simbol $ (dolar) di depannya. Apa fungsinya ?. Fungsinya adalah untuk mengunci cell atau kolom tersebut supaya tetap absolut tapi tidak permananen. Caranya adalah dengan menekan tombol F4 pada keyboard sebanyak 3 kali.
Nah, Selanjutnya untuk penulisan rumus pada masing-masing sub kriteria atributnya, kamu hanya tinggal copy rumus diatas yang tadi itu, kemudian paste pada kolom masing-masing sub kriteria atributnya.
Perhitungan Gini Index Pada Kriteria Atribut Utama
Setelah menyelesaikan tahapan sebelumnya yaitu menghitung nilai gini index pada masing-masing sub kriteria atribut, selanjutnya adalah menghitung nilai gini index pada kriteria atribut utama. Dalam arti lain adalah kita akan menghitung nilai gini index pada atribut Asal Sekolah.
Menghitung Gini Index ini adalah menjumlahkan semua nilai gini index sebanyak total sun kriteria atribut.
Penyelesaian Manual atribut Asal Sekolah
- (Jumlah SMA / Jumlah Total Data * Gini Index SMA) + (Jumlah SMK / Jumlah Total Data * Gini Index SMK) + (Jumlah SMK Kesehatan / Jumlah Total Data * Gini Index SMK Kesehatan) + (Jumlah MA / Jumlah Total Data * Gini Index MA)
- (8/20*0.21875) + (4/20*0.375) + (4/20*0.375) + (4/20*0.375) = 0.3125
- =($L10/$L$4*$O10) + ($L11/$L$4*$O11) + ($L12/$L$4*$O12) + ($L13/$L$4*$O13)
- (Jumlah Laki-Laki / Jumlah Total Data*Gini Index Laki-Laki )+ (Jumlah Perempuan / Jumlah Total* Gini Index Perempuan)
- (10/20*0.48) + (10/20*0.48) = 0.48
- =($L15/$L$4*$O15)+($L16/$L$4*$O16)
- File Excel ini berisikan 8 sheet perhitungan dari 3 algoritma
- Naive Bayes (atribut numerik, deskrit, campuran), k-NN (atribut numerik, campuran ), C4.5 (numerik, deskrit)
- Harga File Rp. 85.000, -
- Jika Custom Data pada satu Algoritma Rp. 150.000,-
- Bonus perhitungan Confusion Matrix.
- File Excel untuk Satu Agoritma saja Rp. 30.000,-
Terimakasih, semoga kamu bisa menemukan apa yang kamu cari, dan bisa bermanfaat "Jangan Lupa Bernafas dan Tetap Bersyukur"
Wassalamualaikum wr.wb - See You Later