Himpunan Data dan Macam-Macam Fitur dalam Machine Learning
Yang akan dibahas pada artikel ini adalah bagaiamana melakukan pra-pemrosesan terhadap himpunan data, sehingga siap digunakan untuk proses pembelajaran pada suatu model machine learning.
Sumber : Pixabay |
Assalamualaikum Wr. Wb, - Salam Sejahtera dan Salam Budaya
Semua teknik dan metode pada machine learning menggunakan himpunan data untuk proses pembelajaran atau pelatihan pada ilmu data mining atau penambangan data. Setiap teknik dan metode atau Algoritma machine learning memiliki karateristik yang berbeda-beda.
Misalnya, Jika kamu diberi suatu permasalahan dengan sebuah himpunan data yang berisi seribu baris atau lebih (objek data) dan 10 kolom fitur yang terdiri dari 3 fitur bernilai nominal, 3 bernilai biner, 2 numerik, dan 2 fitur ordinal. Maka teknik dan Algoritma apa yang akan kamu gunakan ? 😆 Bingung kan !!
Nah, pada empat jenis fitur yang berbeda ini yaitu, nominal, biner, ordinal dan numerik. Memiliki karateristik yang berbeda. Jika fitur nominal, biner dan ordinal adalah kualitatif. Dalam arti, ketiga fitur ini menggambarkan fitur dari suatu objek namun tanpa memberikan ukuran atau kuantitas yang sebenarnya. Sedangkan fitur numerik adalah kuantitatif, yang memberikan ukuran atau kuantitas. Supaya lebih jelas, yuk kita bahas keempat fitur tersebut satu per satu menjadi satu yang terdiri dari satu poin dari beberapa satu yang satu tertulis. 😅
Baca Juga : Peberbedaan Antara Algoritma dan Model Dalam Machine Learning
Macam-Macam Fitur dalam Himpunan Data
1. Fitur Nominal
Pada fitur ini kita sering mengatakan mungkin sebagai data kategorikal, dalam artinya memiliki nilai yang menggambarkan kategori, kode, atau status yang tidak memiliki urutan. Misalnya fitur Jenis Kelamin yang memiliki dua kategori benilai teks: Pria dan Wanita.
2. Fitur Biner
Dalam database akan tertulis tipe data boolean. Fitur Biner, merupakan fitur nominal yang hanya memiliki dua kategori nilai yaitu 0 atau 1. Dimana 0 biasanya menyatakan "Tidak" (Tergantung penyesuaian yang negatif atau berdampak kecil). Sedangan 1 menyatakan "Ya" (Tergantung penyesuaian yang positif atau berdampak besar).
Atribut Biner sendiri dibedakan menjadi dua kategori, yaitu Fitur biner simetris dan asimetris.
- Fitur Biner Simetris
- Jika nilainya dianggap memberikan dampak yang setara, misalnya atribut Jenis Kelamin yang beniali Pria dan Wanita dalam hal ini maka tidak penting mana yang harus bernilai 0 dan mana yang bernilai 1, karena keduanya dianggap setara.
- Fitur Biner Asimetris
- Jika nilainya memberikan dampak berbeda, yang secara konvensi bernilai 1 untuk yang jarang terjadi atau benilai 0 yang umum terjadi. Misalnya, atribut Hasil Tes Buta Warna yang bernilai 1 adalah Buta Warna dan 0 adalah Tidak Buta Warna.
3. Fitur Ordinal
Fitur Ordinal merupakan fitur dengan nilai-nilai yang menggambarkan urutan atau peringkat (ranking). Namun, ukuran perbedaan antara dua nilai yang berurutan tidak diketahui. Misalnya, atribut Pelanggan yang bisa bernilai General, Gold atau Platinum. Ketiga nilai nilai tersebut memiliki urutan atau tingkatan, namun tidak menjelaskan seberapa besar perbedaan antara ketiga nilai tersebut.
Baca Juga : Metode Pengujian Model dengan RMSE dan MAPE
Pada fitur ini akan sangat berguna dalam pengisian survei, yaitu untuk penilaian subjektif (kualitatis) yang tidak dapat diukur secara objektif. Misalnya, survei dengan lima nilai ordinal, yaitu
- 1, (Sangat Tidak Puas)
- 2, (Tidak Puas)
- 3, (Netral)
- 4, (Puas)
- 5, (Sangat Puas)
4. Fitur Numerik
Fitur Numerik atau kuantitatif, adalah fitur yang memiliki nilai berupa kuantitas yang terukur dan dinyatakan dalam nilai-nilai bulat (integer) atau (real).
Pada dasarnya keempat jenis fitur ini dapat dikelompokkan ke dalam diskrit atau kontinu. Fitur diskrit memiliki nilai bilangan bulat terbatas, seperti fitur Bulan yang bernilai bilangan bulat dari 1 sampai 12. Sedangkan fitur kontinu memiliki nilai rill atau pecahan yang dalam komputer biasanya direpresentasikan sebagai bilaing real (float, double, atau decimal).
Sebagai contoh fitur Harga bernilai jumlah Rp. 10.500,-. Fitur IPK bernilai 2.35, 3.21 atau 2.87. Dan lain sebagainya.
Setelah mengetahui keempat fitur tersebut, maka selanjutnya kamu belajar memahi data. Untuk Apa ? Supaya kita dapat memilih pendekatan, teknik dan Algoritma atau metode pra-pemrosesan data yang sesuai. Sehingga kita dapat menentukan suatu metode atau Algoritma machine learning yang tepat untuk menganalisis, mengklasifikasi atau klastering dengan data yang representasinya sudah disederhanakan tersebut.
Tiga Cara Memahami Data
1. Tendensi Sentral
Secara uum, tendensi sentral diukur menggunakan empat cara, yaitu rata-rata (mean), median, modus dan midrange. Namun, median, modus dan midrange terkadang bisa memberikan informasii yang lebih akurat dibandingkan rata-rata (mean).
Rata-rata (mean) merupakan cara paling umum dan efektif untuk mengukur pusat dari himpunan N nilai dalam suatau atribut X. mean bisa dihitung dengan menggunakan rumus :
Dimana Xi adalah data ke-i pada himpunan data X dan N adalah jumlah data. Atau dalam Microsoft Excel formulanya akan tertulis =AVERAGE(Cell Himpunan Data X).
Median atau nilai tengah merupakan sebuah nilai yang berada persis di tengah-tengah himpunan nilai yang sudah diurutkan. Sebagai contoh, lihat tabel dibawah ini
Kita hitung median pada kolom E. Maka kita urutkan dari yang terkecil hingga terbesar, yaitu 1.35, 2.02, 2.08, 2.71, 2.73, 2.77, 2.82, 2.82, 2.98. Selanjutnya ambil dua nilai yang berada ditengah, yaitu urutan ke-5 dari depan. Maka kita peroleh nilai 2.73.
Namun, bagaimana jika data berjumlah genap. Maka kamu harus mengambil rata-rata dua nilai yang berada ditengah. Sebagai contoh data diatas berjumlah 10 kita tambahkan seperti ini 1.35, 2.02, 2.08, 2.71, 2.73, 2.77, 2.82, 2.82, 2.98, 3.01. Maka ambil dua nilai urutan ke-5 (2.73) dan urutan ke-6 (2.77). Kemudian jumlahkan dan bagi dua. Dalam contoh 2.73+2.77 = 5.5 / 2 = 2.75.
Modus, atau nilai yang paling sering muncul, juga dapat kamu gunakan untuk mengukur pusat dari himpunan N nilai dalam suatu atribut X.
Midrange, merupakan rata-rata dari nilai minimum dan nilai maksimum. Dalam contoh kita akan menghitung midrange pada kolom E tabel diatas. Nilai minium dan maksimum 1.35 + 2.98 / 2 = 2.2.
Namun secara umum midrange sangat jarang digunakan karena kurang akurat dalam mengukur pusat dari himpunan data bernilai kategorikal yang menunjukkan urutan.
2. Sebaran Data.
3. Visualisasi Data
Sumber Referensi :
Suyanto, 2018. Machine Learning Tingkat Dasar dan Lanjut. INFORMATIKA. Bandung