Algoritma C4.5 Pada Kasus Missing Value
Missing Values Dalam Sebuah Set Data
Dalam suatu data yang jumlaahnya besar, tak jarang juga sering ditemukan data yang nilainya hilang atau missing values. Missing Value adalah suatu record data yang salah satu atau bahkan lebih pada atributnya tidak diketahui nilainya, pada kasus ini untuk menutupi kekurangan tersebut, juga sering kali dilakukan imputasi atau juga dengan mengisi nilai rata-rata dari atribut yang sering muncul dan bahkan juga dilakukan penghapusan atribut data yang nilainya tidak diketahui. Nilai yang hilang juga menjadi permasalahan dalam proses klasifikasi menggunakan data mining. Karena seperti menurut Bapak Romi Satria Wahono "Data mining itu bukan Magic , melainkan harus ada datanya".
Pada pengujian data mining terhadap kasus missing value pemilihan metode atau algoritma yang mampu mengatasi missing value tanpa harus melakukan imputasi data adalah algoritma dari keluarga decision tree. Hal ini juga diperkuat oleh (Yusa, Utami, and Luthfi, n.d.2016) dalam penelitiannya adalah membandingkan penggunan tiga jenis algoritma decision tree yaitu CART, ID3 dan C4.5,
Baca Juga : Cara Menghapus Atribut Data Missing Value secara terstruktur dengan RapidMiner
Pada penelitian terbaru tahun 2019, dikatakan algoritma C4.5 mampu memberikan kinerja yang baik dalam kasus data yang pada beberapa atributnya tidak diketahui nilainya atau missing value. Algoritma C4.5 sendiri dalam Buku karya Santosa dan Umam (2018) yang berjudul "Data Mining dan Big Data Analytics" menjelaskan bahwa algoritma C4.5 adalah pengembangan dari algoritma ID3 yang mampu mengatasi atribut yang mengalami missing data dan mampu bekerja dengan baik pada kasus data yang bertipe numerik dan diskrit atau atributnya campuran.
Nah, pada artikel ini saya akan mencoba membuktikan apakah algoritma C4.5 benar-benar mampu mengatasi missing data atau mampu tapi kinerja dan performansinya sangat buruk ? Jika kamu penasaran maka bacalah artikel ini sampai tuntas.
Evaluasi Algoritma C4.5 Pada Kasus Missing Value.
Evaluasi yang akan saya lakukan ini adalah dengan meringkas dan review sebuah artikel paper atau jurnal yang berjudul "Detection of Potentially Students Drop Out of College in Case of Missing Value Using C4.5". yang dipublikasikan oleh researhget.net pada tahun 2019.
Peneletian yang dilakukan adalah memprediksi mahasiswa yang berpotensi berhenti kuliah di suatu perguruan tinggi yang berada di Jawa Timur. Data yang diperoleh berupa file PDF yang diambil dari database di sistem informasi akademiknya. Maka dilakukanlah pra proses data untuk memilih atribut terbaik, sehingga data yang diperoleh mulai dari tahun 2009-2015, dan mendapatkan sejumlah 425 record data dengan 32 atribut dengan tipe numerik dan diskrit dengan label kelas Drop Out dan Lulus.
Distribusi kelas yang diperoleh didapatkan masih tergolong kelas yang seimbang atau balanced class distribution. Karena antara kelas Lulus dan Drop Out diperoleh distribusi antara 44,49% : 55,06%. Maka untuk kasus ini digunakanlah algoritma C4.5 untuk klasifikasinya.
Dengan memilih data terbaik sebanyak 425, ternyata masih didapatkan atribut yang kehilangan nilianya atau missing value. Dari 32 atribut yang diperoleh hanya 5 atribut yang tidak missing value. Diantaranya atribut, Jenis kelamin, Program Kuliah, Histori presentase absensi, status cuti dan Jumlah MK yang diambil.
Metode Klasifikasi yang pertama adalah menggunakan algoritma C4.5 dengan memakai 4 kriteria dalam perhitungannya yaitu menentukan nilai Gain Ratio, Information Gain, Gini Index dan Accuracy. Baca Juga : Analisis perhitungan algoritma C4.5
Sedangkan untuk metode validasinya untuk menguji kinerja atau performa dari algoritma tersebut menggunakan teknik 10-fold cross validation dengan 3 teknik sampling yaitu Linear, Shuffled & Stratified Sampling. Dan untuk metode valuasinya menggunakan nilai accuracy, precission, recall dan Area Under Curve (AUC).
Tes dilakukan sebanyak 60 kali dengan 4 metode yang berbeda, yang pertama berfokus pada penentuan kriteri C4.5, dan kedua menentukan nilai Gain Ratio, Information Gain, Gini Index dan Accuracy, ketiga didasarkan pada metode pengambilan sampel, keempat berfokus pada tahun akademik.
Pada gambar diatas adalah merupakan hasil dari penentuan C4.5 yang membentuk menjadi pohon diatas. Hasil tersebut menenjukkan bahwa semua data mahasiswa yang memiliki potensi Drop Out dengan data yang memiliki karateristik missing value. Dan karateristik kedua adalah jika semester memiliki IPK 2,225 dan telah mengambil 50 mata kuliah menjadi 'Drop Out' sedangkan untuk mahasiswa pindahan atau transfer akan 'Lulus'. Hal ini terjadi karena data yang tercatat dalam penelitian tersebut adalah jumlah mata kuliah oleh mahasiswa yang telah DO dan Lulus, bukan jumlah total mata kuliah tiap semester melainkan sacara komulatif.
Tes ketiga didasarkan pada tahun akademik yang terdiri dari tahun pertama, kedua, ketiga, keempat, dan kelima. Deteksi mahasiswa dengan potensi DO memiliki hasil yang optimal saat menggunakan data di tahun ketiga selama studi mereka dalam kasus Distribusi Kelas Seimbang seperti yang ditunjukkan dengan menerapkan stratified samplingSementara penerapan data berdasarkan hasil studi tahun pertama dalam kinerja rata-rata yang sangat buruk, terutama di Data Distribusi Kelas Tidak Seimbang ditunjukkan dengan menerapkan Sampling Linier