Pengujian Data dengan Cross Validation
- Apa itu cross validation ?
- Apa fungsinya ?
- Bagaimana cara kerja cross validation
Assalamualikum Wr. Wb, Salam Sejahtera dan Salam Budaya
Pada pembahasan kali ini saya akan mencoba memberikan kalian pengalaman tentang apa itu k-fold cross-validation .
Cross validation adalah suatu metode tambahan dari teknik data mining yang bertujuan untuk memperoleh hasil akurasi yang maksimal. Metode ini sering juga disebut dengan k-fold cross validation dimana percobaan sebanyak k kali untuk satu model dengan parameter yang sama (Santosa dan Umam 2018) Dalam bukunya yang berjudul "Data Mining dan Big Data Analytics"
Secara umum, kita akan membandingkan n model dalam cross validation ini, dalam arti lain fungsi dari penggunaan metode cross validation adalah
Percobaan diatas adalah contoh ilustrasi dari 5-fold cross validation yang artinya adalah melakukan percobaan sebanyak 5 kali tahapan.
Percobaan 1, yaitu menjadikan bagian partisi pertama menjadi data testing dan partisi lainnya menjadi data training.
Pada pembahasan kali ini saya akan mencoba memberikan kalian pengalaman tentang apa itu k-fold cross-validation .
Cross validation adalah suatu metode tambahan dari teknik data mining yang bertujuan untuk memperoleh hasil akurasi yang maksimal. Metode ini sering juga disebut dengan k-fold cross validation dimana percobaan sebanyak k kali untuk satu model dengan parameter yang sama (Santosa dan Umam 2018) Dalam bukunya yang berjudul "Data Mining dan Big Data Analytics"
Secara umum, kita akan membandingkan n model dalam cross validation ini, dalam arti lain fungsi dari penggunaan metode cross validation adalah
- Untuk mengetahui performa dari suatu model algoritma dengan melakukan percobaan sebanyak k kali
- Untuk menningkatkan tingkat performansi dari model tersebut
- Untuk mengolah data set dengan kelas yang seimbang
Dalam kasus klasifikasi, ada yang perlu diperhatikan dalam pembagian set data ke sejumlah k partisi, yaitu harus melakukan stratification yang artinya kita akan mempartisi atau membagi set data tersebut ke k partisi denga komposisi kelas yang seimbang disetiap partisinya. Dengan kata lain, distribusi kelas setiap partisi harus sama antar kelas, yang berarti juga sama dengan distribusi kelas di set data originalnya.
Cross Validation juga merupakan teknik validasi dari pengembangan model Split Validation dimana validasinya mengukur training error dengan menguji dengan test data atau data uji. Cross Validation sendiri dikembangkan karena pada model sebelumnya terdapat kelemahan yaitu pengambilan sampelnya diambali secara acak, kemudian pengambilan sampel test error nya juga tidak bisa mendistribusikan kelas secara tersetruktur. Meskipun hasil yang di peroleh bisa maksimal tapi tidak bisa menjangkau pengujian yang lebih efisien.
Maka muncul lah cross validation yang mampu bekerja dengan cepat dengan pengambilan sampel yang lebih struktur, jadi dalam jumlah pengujian beberapa pun set data latih dan set data uji akan diambil dengan data yang berbeda dengan percobaan atau literasi sebelumnya.
Berikut adalah contoh tabel dari cara kerja cross validation
Percobaan diatas adalah contoh ilustrasi dari 5-fold cross validation yang artinya adalah melakukan percobaan sebanyak 5 kali tahapan.
Percobaan 1, yaitu menjadikan bagian partisi pertama menjadi data testing dan partisi lainnya menjadi data training.
Percobaan 2, yaitu menjadikan bagian partisi kedua menjadi data testing dan partisi lainnya menjadi data training.
Percobaan 3, yaitu menjadikan bagian partisi ketiga menjadi data testing dan partisi lainnya menjadi data training dan begitu seterusnya.
Dari 5 hasil percobaan ini, kita akan catat nilai evaluasi performa dari model tersebut dengan menggunakan confussion matrix
kemudian tentukan nilai rata-rata dari setiap percobaan. Maka disitu akan ditemukan percobaan mana yang dapat dijadikan acuan dari penggunaan suatu model algoritma yang terlah dipilih.
Dari 5 hasil percobaan ini, kita akan catat nilai evaluasi performa dari model tersebut dengan menggunakan confussion matrix
kemudian tentukan nilai rata-rata dari setiap percobaan. Maka disitu akan ditemukan percobaan mana yang dapat dijadikan acuan dari penggunaan suatu model algoritma yang terlah dipilih.
Dalam beberapa penelitian yang sudah dilakukan oleh pakar-pakar data mining, model pengujian atau validasi model dari suatu algoritma klasifikasi, Cross Validation lebih sering dipakai ketimbang Split Validation karena model validasi dengan menerapkan 10-Cross Validation sudah merupakan standar dan suatu metode validasi yang canggih atau lebih praktis dan efisien serta mampu meningkatkan sedikit nilai performansinya.
Penggunaan k-fold cross validation bisa juga dengan menggunakan aplikasi rapidminer studio, yang akan saya bahas di postingan berikutnya.
Penggunaan k-fold cross validation bisa juga dengan menggunakan aplikasi rapidminer studio, yang akan saya bahas di postingan berikutnya.
Didalam Rapidminer Studio sendiri metode pengambilang sampel yang ada pada model cross validation terdapat 4 model yaitu, Linear Sampling, Shuffled Sampling, Stratified Sampling dan Simple Random Sampling (Automatic)
Terimakasih, semoga informasi ini bisa bermanfaat, apabila kamu berkenan bisa bantu donasi untuk pengembangan blog yang saya bangun melalui link ini https://saweria.co/PenS .
Baca Juga : Tutorial Rapidminer Uji Model dengan Cross Validation
Sekian, itulah sedikit pengalaman saya yang bisa saya bagikan, Terimakasih sudah percaya dan mau belajar disini, satu kata "Jangan Lupa Bernafas dan Tetap Bersyukur".
See You.