Skip to content Skip to sidebar Skip to footer

Cara Menghitung Dengan Metode Cross Validation Manual


Assalamualaikum wr.wb, Salam Bagas, Salam Rahayu dan Salam Wilujeng

Dalam sebuah teknik machine learning yang lebih terfokus pada algoritma-algoritma sebagai metode pembelajarannya pasti membutuhkan sebuah teknik validasi yang digunakan untuk mengukur seberapa besar akurasi atau seberapa akurat algoritma itu digunakan. 

Untuk bisa memperoleh nilai akurasi yang besar, biasanya pembelajaran membutuhkan dataset yang besar agar proses trainingnya mendapatkan pola atau model yang lebih terperinci yang akan digunakan untuk memproses data baru yang akan menghasilkan sebuah informasi dari pembelajaran itu sendiri.

Salah satu dari teknik validasi itu sendiri adalah Cross Validation. Dimana teknik ini digunakan untuk tujuan melihat nilai akurasi algoritma itu sendiri dari berbagai kasus atau dengan berbagai model dataset yang digunakan. Kamu bisa membaca artikel saya sebelumnya tentang konsep dasar cross validation

Pada dasarnya cross validation adalah teknik validasi silang yang membagi sebuah dataset menjadi dua bagian yang mana dinamakan training data dan test data. Hal ini dilakukan dengan membagi data dalam berbagai partisi. Itulah mengapa cross validation juga sering disebut dengn k-fold cross validation karena dimana percobaan dilakukan sebanya nilai k . Dan pada umum nya juga unutk memperoleh hasil akurasi yang maksimal dilakukan lah teknik 10-fold cross validation yang membagi atau melakukan percobaan sebanyak 10 kali.

Untuk melakukan teknik cross validation sendiri sebenarnya sangat mudah jika kita sudah memahami konsep dasarnya dan bisa menerapkannya pada aplikasi Rapidminer Studio. atau aplikasi-aplikasi lainnya yang sering digunakan dalam teknik machine learning

Jika kamu adalah pengguna Rapidminer Studio kamu juga bisa menyimak artikel lengkapnya tentang cara menerapkan teknik cross validation dengan rapidminer dibawah ini.

Baca Juga : Tutorial Rapidminer Teknik Cross Validation 

Namun, sebenarnya tahap per tahap apa yang dilakukan oleh Rapidminer jika menerapkan metode Cross Validation tidak ada penggambaran dari tahap per k nya, Yang ditampilkan adalah nilai akurasi, presisi dan sensitivitasnya.

Nah, jika digambarkan dari bentuk tabel maka tahap-tahap dari teknik ini akan terlihat seperti pada gambar dibawah ini.

Cross Validation
Pada gambar diatas adalah penggambaran dari tahapan 5-fold cross validation. Artinya dilakukan sebanyak 5 kali percobaan untuk mendapatkan hasil akurasi yang baik.

Bagaiamana cara menerapkan dengan perhitungan manual ?

Pertanyaan diatas juga sering kali terbekas dalam pikiran saya waktu itu, karena seiring berjalannya waktu saya belajar dulu dengan membaca banyak jenis jurnal, tidak ada yang menjelaskan tentang bagaimana cara mengghitung cross validation dengan cara manual, rata-rata apa yang dijelaskan adalah menggunakan tools bantuan untuk menyelesaian tahapannya.

memang memakai berbagai tools untuk menyelesaian tahapan cross validation akan membantu sekali karena akan memangkas waktu untuk penelitiannya.

Namun sering kali, kita yang mahasiswa atau sejenisnya juga dituntut untuk menjelaskan tahapan-tahapan dalam menghitung metode validasi menggunakan cross validation

Nah, pada artikel ini saya akan menjelaskan sedikit tentang cara menghitung cross validation dengan cara manual.

Namun sebelum itu, perlu diketahui pada informasi ini, saya akan menjelaskan berdasarkan pengalaman pribadi saya, tanpa adanya referensi dan semacamnya. Mungkin untuk kamu bisa dijadikan bahan perbandingan bukan sebagai referensi utama.

Pengalaman ini saya dapatkan pada saat saya ujian akhir skripsi semasa kuliah dahulu.

Tahapan Menghitung Cross Validation

1. Tahap Pertama, pada tahap pertama ini mungkin hal yang paling dibutuhkan adalah adanya sebuah set data untuk proses pembelajaran, dalam hal ini biasa dikatakan dengan set training data atau data latih.

2. Tahap Kedua, jika sudah memiliki sebuah set data untuk proses pelatihan atau pembelajaran, selanjutnya adalah proses sampling atau pengacakan.

Dalam proses sampling ini kamu bisa menggunakan tiga teknik rekomendasi diantaranya adalah 

  1. Shuffled Sampling, 
  2. Stratified Sampling dan 
  3. Linier sampling.

Dari ketiga teknik sampling diatas merupakan teknik sampling secara ter-struktur, jadi jika kamu nantinya pada set data latih yang kamu gunakan memiliki 3 kelas

misalnya terdapat 20% kelas A, 30% Kelas B, 50% Kelas C. Dengan menggunakan ketiga teknik diatas maka data yang teracak akan tetap berpacu dari ketiga kondisi tersebut.

3. Tahap Ketiga, tentukan nilai k-fold nya untuk melakukan validation.

Oke, kita selesai pada tahap 3 saja.

Conclusion and Example

Dalam ketiga tahap diatas mungkin akan sangat membingungkan dan jika tidak bingung maka akan sangat lama prosesnya terutama dalam teknik sampling jika itu dilakukan secara manual.

Jika kamu tidak ingin membuang waktumua kamu bisa sampling dengan menggunakan Rapidminer dan tutorialnya bisa kamu baca disini

Baca Juga : Tutorial Teknik Sampling Data Menggunakan RapidMiner

Dalam Contoh, kita akan melakukan 5-fold cross validation. Maka teknik samplingnya begini.

Percobaan 1, 

  1. Sampling Data dengan kondisi, 90% Data Training, 10% Data Testing.
  2. Sampling Data dengan kondisi, 80% Data Training, 10% Data Testing.
  3. Sampling Data dengan kondisi, 70% Data Training, 10% Data Testing.
  4. Sampling Data dengan kondisi, 60% Data Training, 10% Data Testing.
  5. Sampling Data dengan kondisi, 50% Data Training, 10% Data Testing.
Percobaan 2, 
  1. Sampling Data dengan kondisi, 90% Data Training, 20% Data Testing.
  2. Sampling Data dengan kondisi, 80% Data Training, 20% Data Testing.
  3. Sampling Data dengan kondisi, 70% Data Training, 20% Data Testing.
  4. Sampling Data dengan kondisi, 60% Data Training, 20% Data Testing.
  5. Sampling Data dengan kondisi, 50% Data Training, 20% Data Testing.
Percobaan 3, 
  1. Sampling Data dengan kondisi, 90% Data Training, 30% Data Testing.
  2. Sampling Data dengan kondisi, 80% Data Training, 30% Data Testing.
  3. Sampling Data dengan kondisi, 70% Data Training, 30% Data Testing.
  4. Sampling Data dengan kondisi, 60% Data Training, 30% Data Testing.
  5. Sampling Data dengan kondisi, 50% Data Training, 30% Data Testing.
Percobaan 4, 
  1. Sampling Data dengan kondisi, 90% Data Training, 40% Data Testing.
  2. Sampling Data dengan kondisi, 80% Data Training, 40% Data Testing.
  3. Sampling Data dengan kondisi, 70% Data Training, 40% Data Testing.
  4. Sampling Data dengan kondisi, 60% Data Training, 40% Data Testing.
  5. Sampling Data dengan kondisi, 50% Data Training, 40% Data Testing.
Percobaan 5, 
  1. Sampling Data dengan kondisi, 90% Data Training, 50% Data Testing.
  2. Sampling Data dengan kondisi, 80% Data Training, 50% Data Testing.
  3. Sampling Data dengan kondisi, 70% Data Training, 50% Data Testing.
  4. Sampling Data dengan kondisi, 60% Data Training, 50% Data Testing.
  5. Sampling Data dengan kondisi, 50% Data Training, 50% Data Testing.

Contoh diatas adalah percobaan dari 5 literasi yang berbeda yang pada percobaan kelima, terdapat kondisi yang 50-50. Dimana jumlah set data latih dan set data uji sama.

Jika kamu melakukan dengan 10-Fold Cross atau 10 kali literasi percobaan maka nanti kan ketemu dimana jumlah data uji akan lebih banyak dari data latih.

Nah, setiap kali melakukan percobaan kamu juga diharuskan untuk mencari nilai akurasi nya yang nanti pada kesimpulan akhirnya akan dihitung rata-rata nilai akurasinya. Kemudian suatu algoritma atau metode itu dapat disimpulkan layak atau tidak algoritma itu diterapkan.

Dislaimer : Saya tekankan sekali lagi ini hanya berdasarkan pengalaman saya sewaktu ujian akhir skripsi  dan tidak bisa dijadikan referensi utama, kamu juga perlu menyaring referensi lainnya untuk melakukanp perbandingan.

Oke, cukup sekian informasi yang bisa saya berikan. Semoga bermanfaat dan kamu bisa menemukan apa yang kamu cari. "Jangan Lupa Bernafas dan Tetap Bahagia dalam Tautan Rasa Syukur".

Wassalamualaikum Wr. Wb  Salam Rahayu, Salam Bagas dan Salam Wilujeng.