Assalamualaikum Wr.Wb - Salam Sejahtera dan Salam Budaya
Gain Ratio adalah sebuah perhitungan yang dilakukan khusus untuk penggunaan algorirma C4.5. Berbeda dengan Information Gain untuk menghitung Gain Ratio digunakan agar tidak bias dalam menentukan atribut pemilah terbaik. (The best split attribute).
Algoritma C4.5 adalah pengembangan dari algoritma ID3 yang juga termasuk dalam keluarga decision tree. Yang membedakan adalah algoritma C4.5 bisa mengatasi atribut data benilai numerik (kontinu) dan bisa menangani atribut yang memiliki nilai yang kosong (missing value). Dan bisa memangkas pohon keputusan, yaitu membuang cabang-cabang pohon yang overfit dan menggantikannya dengan simpul-simpul daun yang lebih general.
Gain Ratio biasa digunakan untuk menentukan atribut yang betipe numerik (komtinu) dan kategorikal atau diskrit.
Gain Ratio hanya dimiliki oleh algoritma C4.5
Gain Ratio bisa memberikan nilai sedikit lebih spesifik daripada information gain ?
Cara Menghitung Gain Ratio.
Untuk menghitung Gain Ratio, terlebih dahulu kamu harus menghitung split inforation. Nah, Split Information adalah formula yang digunakan untuk memilah sejumlah atribut. Rumusnya adalah sebagai berikut :
S = Jumlah Data Sampel
Si = Jumlah masing-masing pada setiap atribut.
Misalkan saya punya data sebagai berikut :
Diketahui,
S = 10,
Si(Jenis Kelamin|Laki-Laki) = 6,
Si(Jenis Kelamin|Perempuan) = 4.
Maka perhitungan Split Information yang dilakukan untuk atribut jenis kelamin adalah
Selanjutnya adalah menghitung Gain Ratio. Formula atau rumusnya adalah sebagai berikut :
Gain yang dimaksud adalah hasil dari perhitungan Information Gain. Sedangkan untuk menghitung Information Gain adalah dengan cara menentukan dan menghitung nilai Entropy terlebih dahulu. Bagaimana cara menghitungnya ? kamu bisa telusuri tautan dibawah ini
Oke, setelah itu anggap saja kita sudah mendapatkan nilai Information Gain dari atribut Jenis Kelamin yaitu dengan hasil 0.6988 . Kemudian kita masukkan ke dalam formula untuk Gain Ratio.
Setelah berhasil menentukan nilai dari Gain Ratio. Maka tahap selanjutnya adalah memilih nilai v atau Gain Ratio yang menghasilkan pratisi terbaik atau nilai yang paling besar. Kemudian terbuatlah node akar pertama untuk pembentukan pohon keputusan berdasarkan tahapan dari algoritma C4.5.
Conclusion
Nah, sebelumnya kita lihat hasil dari Information Gain dan Gain Ratio. Disitu terlihat hasilnya berbeda sedikit. Namun seringkali pertanyaan seperti ini akan muncul di benak pikiran. Apakah Algoritma C4.5 Harus ditentukan dengan nilai Gain Ratio ?.
Jawabnya adalah Tidak Harus . Kenapa ?
Karena Gain Ratio digunakan apabila datanya bertipe numerik dan campuran (kategorikal dan numerik) serta akan sangat membantu jika digunakan pada atribut yang memiliki nilai yang kosong (missing value). Dan algoritma C4.5 boleh kita hitung hanya memakai kriteria dari Information Gain jika atribut data nya berniilai diskrit/kategorikal. Karena sudah kita bahas diawal tadi bahwa Algoritma C4.5 adalah pengembangan dari algoritma ID3 yang termasuk keluarga dari Decision Tree.
Algoritma C4.5 sendiri juga masih ada pengembangan lagi yang dinamakan Algoritma C5.0, dan yang menjadi pembeda adalah ada tahapan boosting didalamnya. Namun kita akan membahasnya dilain artikel. Dan untuk artikel ini cukup samapai disini saja.
Dan jika kamu ingin belajar lebih dalam lagi, kamu bisa mendapatkan file excelnya.
Terimakasih, semoga bermanfaat dan bisa memberikan kamu pengalaman edukasi tentang Algoritma C4.5. Satu kata "Jangan Lupa Bernafas dan Tetap Bersyukur".
Wassalamualaikum Wr.Wb,- See You
Sumber Referensi :
Suyanto, 2018. Machine Learning Tingkat Dasar dan Lanjut. INFORMATIKA. Bandung