Cara Hitung Entropy 3 Kelas atau lebih - Algoritma Decision Tree
Assalamualaikum Wr. Wb, Salam Sejahtera dan Salam Budaya
Pada dasarnya algoritma Decision Tree terbagi menjadi beberapa bagian, yaitu ada Algoritma CART, ID3, C4.5, C5.0, Random Forest, serta Gradient Boosting. Dari beberapa algoritma tersebut dasar dari perhitungannya tetap sama yaitu mencari nilai Entropy sebagai tahap awal, namun untuk langkah selanjutnya akan berbeda tahapan sesuai dari masing-masing kriteria pada algoritma tersebut.
Dalam contoh perhitungan ID3 akan selesai pada tahap menghitung information gain. Berbeda dengan algoritma C4.5 yang bisa menghitung sampai tahap gain ratio bahkan algoritm C4,5 juga bisa menghitung hanya dengan information gain. Serta juga bisa menghitung dengan gini index yang berbeda dengan gain ratio.
Baca Juga : Analisis algoritma C4.5 dan Pembahasan Dasar
Nah, pada artikel ini saya akan menuliskan beberapa cara untuk menghitung tahapan awal algoritma decision tree yaitu menghitung nilai Entropy pada kasus atau kondisi multiclass. Yang dimaksud dengan kondisi multiclass adalah terdapat output class yang terdiri lebih dari dua kelas. Namun sebelum itu mari kita lihat dulu rumus dasar entropy.
Rumus Entropy
Rumus dasar Entropy yang sering kita lihat adalah seperti ini
Keterangan :
S = Himpunan Kasus
n = Jumlah partisi S
p_i = probabilitas yang didapat dari jumlah kelas dibagi total kasus
dari rumus tersebut bisa kita lihat terdapat log2 . Pada kasus tersebut logaritma yang hitung hanya 2 kasus yang berbeda. Atau dalam kalimat lain rumus tersebut hanya bisa digunakan jika output class atau label kelasnya hanya terdapat dua kategori.
Memang beberapa referensi yang sering kita lihat, entah itu referensi dalam bentuk buku, jurnal, paper, atau situs-situs web pasti akan memberikan gambaran rumus seperti yang diatas. Hal tersebut memang mengacu dari krtiteria dari himpunan data yang digunakan klasifikasi supervised learning atau binnary classfication atau klasifikasi dengan minimal terdapat label kelas 2 kategori.
Baca Juga : Himpunan data dan macam-macam fitur dalam Machine Learning
Lalu bisakah rumus tersebut digunakan untuk kondisi lebih dari 2 kelas ?
Jika kita memakai rumus yang seperti itu maka jawabannya tidak bisa. Karena jika kita memiliki set data dengan kondisi multi class maka nilai Entropy yang dihasilkan nilainya lebih dari 1. Dimana dalam buku yang berjudul "Machine Learning Tingkat Dasar dan Lanjut" Karya Suyanto tahun 2018. Dikatan bahwa interval nilai Entropy adalah antara 0 - 0,5 sampai 1.
Nah, seperti pengalaman saya pribadi ketika mempunyai set data dengan label/output class nya 3 kategori dan saya mencoba menggunakan rumus entorpy diatas hasilnya adalah lebih dari 1.
Lantas bagaimanakah solusinya ?
Logaritma
Kita bahas dulu apa itu logaritma. Logaritma adalah operasi matematika yang merupakan kebalikan (invers) dari eksponensiasi (pemangkatan). Artinya, logaritma merupakan operasi pencarian eksponen supaya basis tertentu dipangkatkan dengan eksponen ini menghasilkan nilai dimasukkan. (Sumber : Wikipedia).
Jika kita fokuskan pada kata yang bergaris bawah maka bisa diartikan secara singkat adalah pencarian nilai tertentu sesuai nilai yang dipangkatkan. 😁 (Koreksi jika salah)
Nah artinya pada rumus log kita bisa memasukkan sesuai dengan jumlah dari pemangkatan.
Contoh 2 pangkat 3 yang dihitung 2x2x2= 8 maka penulisannya adalah 2log8 = 3
Implementasi
Lalu kenapa dituliskan log2 ? Nah, sudah dijelaskan diawal tadi bahwa 2 adalah batas minimal dari karateristik himpunan data pada klasifikasi supervised learning,
Artinya jika kita memiliki set data dengan jumlah kelasnya lebih dari 2 atau dalam contoh kasus saya yang memiliki 3 kelas maka log yang digunakan adalah log3.
Cara Hitung Entropy di Excel Kondisi Multi Class
Oke setelah kita sudah memahai tentang berbagai informasi diatas, berikutnya adalah cara menghitung log menggunakan excel
Konsep Dasar Menghitung Log (Logaritma) diecel
=LOG(number,[based])
number = nilai yang akan dihitung
based = antialgoritma / berupa bilangan positif.
Disamping adalah cara meghitung log3 dari nilai yang terletak di kolom A1.. Cara menghitung Gini Index Algoritma C4.5
. Cara Menghitung Gain Ratio Algoritma C4.5
. Implementasi Algoritma C4.5 di Aplikasi Rapidminer Studio
Menghitung Entropy di excel.
Jika pada rumus dasar entropy menggunakan log2 di aplikasi microsoft excel kita bisa menuliskan IMLOG2 namun jika kita menemukan kasus lebih dari 2 kelas atau memiliki nilai atribut 3 kelas kita harus menggunakan rumus log3 seperti dibawah ini.
Jumlah adalah total dari jumlah dari himpunan data atau set data.
A, B, dan C adalah jumlah atribut kelas nya.
Rumus Excel nya adalah
=((-X4/V4)*LOG((X4/V4),3)+(-Y4/V4)*LOG((Y4/V4),3)+(-Z4/V4)*LOG((Z4/V4),3))
V4 = adalah jumlah data
X4, Y4, dan Z4 = jumlah dari masing-masing kelas/label/output.
Kesimpulan
- File Excel ini berisikan 8 sheet perhitungan dari 3 algoritma
- Naive Bayes (atribut numerik, deskrit, campuran), k-NN (atribut numerik, campuran ), C4.5 (numerik, deskrit)
- Harga File Rp. 85.000, -
- Jika Custom Data pada satu Algoritma Rp. 150.000,-
- Bonus perhitungan Confusion Matrix.
- File Excel untuk Satu Agoritma saja Rp. 30.000,-