Skip to content Skip to sidebar Skip to footer

Perbedaan Algoritma C4.5, Gradient Boosting, Random Forest dan Deep Learning

Sumber Referensi :

JudulKOMPARASI KINERJA ALGORITMA C4.5, GRADIENT BOOSTING TREES, RANDOM FORESTS, DAN DEEP LEARNING PADA KASUS EDUCATIONAL DATA MINING

Penulis : Siti Mutrofin 1, M. Mughniy Machfud 2, Diema Hernyka Satyareni 3, Raden Venantius Hari Ginardi 4,Chastine Fatichah 5

(1,2,3) Sistem Informasi, Universitas Pesantren Tinggi Darul Ulum, (4,5) Teknik Informatika, Institut Teknologi
Sepuluh Nopember

Publikasi : Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK)
Vol. 7, No. 4 Agustus 2020, hlm. 807-814


Educational Data Mining adalah sebuah proses pembelajaran ilmu data mining pada bidang pendidikan dan edukasi. Dengan menerapkan metode-metode pembelajaran pada ilmu data mining juga di harapkan mampu meningkatkan hasil pengelolahan data pada bidang pendidikan secara efektif dan akurat.

SMA Negeri 1 Jogoroto Kabupaten Jombang Provinsi Jawa Timur, dalam proses pembelajarannya menggunakan kurikulum 2013, Guna untuk penentuan jurusan siswa sekarang tidak hanya melibatkan keinginan siswa dan tes materi peminatan yang dilakukan, tetapi juga merujuk dengan nilai siswa samasa di SMP yang terdiri dari nilai rapor, nilai ujian nasional, serta rujukan dari guru Bimbingan Konseling. Analisis yang dilakukan masih cenderung memakan waktu yang lama, juga berpotensi salah pada perhitungan anailisisnya. Sedangkan dalam penentuan jurusan itu sendiri dilakukan setiap awal tahun pelajaran baru pada siswa kelas sepuluh.  Hal inilah yang akan menjadi konsentrasi utama untuk melakukan pembelajaran supervised learning pada kasus educational data mining. Dengan menimbang dan memperhatikan penelitian-penelitian terdahulu yang sudah dilakukan diantaranya adalah pada penelitian
  • PEÑA-AYALA, A., 2014. Educational data mining: A survey and a data mining-based analysis of recent works. Expert Systems with Applications, 41(4), pp. 1432-1462.
  • KUSTIYAHNINGSIH, Y. & SYAFA’AH, N., 2015. Sistem pendukung keputusan untuk menentukan jurusan pada siswa sma menggunakan metode kNN dan SMART. Jurnal Sistem Informasi Indonesia, 1(1), pp. 19-28.
  • BROWN, I. & MUES, C., 2012. An experimental comparison of classification algorithms for imbalanced credit. Expert Systems with Applications, 39(2012), p. Expert Systems with Applications.
  • KRISTANTO, O., 2014. Penerapan algoritma klasifikasi data mining ID3 untuk menentukan penjurusan siswa SMAN 6 Semarang, Semarang: Universitas Dian Nuswantoro.
Dan masih banyak lagi selain sumber pustaka yang disebutkan diatas. Namun pada intinya dengan melihat dan memahami hasil dari penelitian tersebut adalah membandingkan beberapa algoritma atau metode klasifikasi seperti algoritam C4.5, ID3, Deep Learning, Gradient Boosting, Random Forest dalam kasus yang berbeda, tipe data yang berbeda guna untuk mengetahui hasil terbaik.

Sehingga metode yang diusulkan untuk kasus ini adalah 
  1. Pengumpulan dan Pra Proses Data
  2. Pemilihan Algoritma
  3. Melakukan Skenario Uji Coba
  4. Pengujian dengan 10-fold Croos Validation
  5. Mengukur performansi dengan Confusion Matrix
  6. Evaluasi
Tujuan dari mengusulkan ke enam metode tersebut adalah guna untuk mengetahui hasil dan kinerja dari beberapa metode yang dipilih agar hasil yang diperoleh bisa menunjukkan keefektifannya dalam menentukan jurusan di SMA tersebut.

Data yang akan digunakan untuk proses klafikasinya adalah dengan mengambil data penerimaan siswa baru pada tahun pelajaran 2018/2019. Dengan data tersebut maka metode atau algoritma yang digunakan untuk mengetahui kinerja terbaik adalah algoritma C4.5, Gradient Boosting Trees, Random Forest dan Deep Learning. Keempat metode tersbut dipilih karena masing-masing memiliki hasil yang baik pada kasus data bertipe nominal dan polynominal seperti yang tertulis pada penelitian sebelumnya.

Data yang diperoleh memiliki tiga  kelas utama yaitu Bahasa, IPS, dan IPA dan 6 atribut yang terdiri dari nilai rapor tertinggi, nilai UN, pilihan siswa itu sendiri, pilihan orang tua siswa, rekomendasi guru BK, dan hasil tes peminatan di minggu pertama menjadi siswa di SMA Negeri 1 Jogoroto. Masalah lain yang muncul adalah terjadinya tidak keseimbangan kelas karena data dari kelas Bahasa jauh lebih sedkit dari kelas sebelumnya. Bahasa hanya sejumlah 32 dari289 atau 0,11%, IPA sejumlah 124 dari 289 atau 0,43%, dan IPS sejumlah 133 dari 289 atau 0,46%.
.
Source Code PHP & MySQL,

Hasil yang diperoleh adalah dengan mengambil skenario uji coba sebanyak 150 kali, dimana uji coba dilakukan berdasarkan tipe data numerik dan polynominal sebanyak masing-masing 75 kali. Dan 4 algoritma atau metode yang sudah ditentukan dilakukan uji coba berdasarkan 3 teknik sampling, yaitu Stratified Random Sampling, Linear Random Sampling & Shuffled Random Sampling.

Berikut hasil dari percobaan yang sudah dilakukan dengan 4 algoritma yaitu C4.5, Gradient Boosting Trees, Random Forest dan Deep Learning 


Algoritma / Metode Hasil Uji Coba Terbaik Akurasi (%) Weighted Mean Recall (%) Weighted Mean Presisi (%)
C4.5 Shuffled Sampling 92,04 88,85 88
Gradient Boosting Linear Sampling 74,82 26,93 28,94
Random Forest Shuffled Sampling 91,71 95,14 92,95
Deep Learning Stratified Sampling 94,14 92,43 95,05

Hasil Kinerja yang bagus adalah didasarkan pada nilai evaluasi akurasi, weighted mean presisi,
dan weighted mean recall 
Sedangkan untuk teknik sampling nya adalah menggambarkan distribusi kelas yang seimbang antara set data latih dan set data uji.

Dengan melihat hasil di atas, mayoritas teknik dengan hasil terbaik dimiliki oleh teknik Shuffled sampling yang cocok dengan model algoritma Tree. Sedangan untuk tenik Stratified Sampling akan baik jika digunakan oleh model kernel yaitu algoritma Deep Learning. Dalam catatan kecil bahwa algoritma gradient boosting lebih buruk kinerjanya dibandingkan ketiga algoritma lainnya. yang bisa dilihat pada tabel perbandingan diatas.

Demikin itulah hasil review saya tentang Perbandingan Kinerja Algoritma C4.5, Gradient Boosting, Random Forest dan Deep Learning. Dan jika kamu ingin melihat langsung jurnal diatas kamu bisa riset jurnalnya sesuai judul yang dituliskan diatas.

Terimakasih "Jangan Lupa Bernafas dan Tetap Bersyukur"
Sampai Jumpa