Proses dan Tahap-Tahap Ilmu Data Mining
Assalamualaikum Wr. Wb, Salam Sejahtera dan Salam Budaya
Ada banyak kumpulan-kumpulan materi tentang data mining, bagi sebagian mahasiswa yang juga pernah saya alami dulu, ketertarikan saya mengenai ilmu data mining bisa dikatakan rendah sekali. Bahkan saya tidak tahu apa sejatinya fungsi dari ilmu data mining itu sendiri. Pandangan pertama saya mengenai ilmu ini adalah berhadapan dengan proses-proses perhitungan yang njelimet atau ribet, maklum tingkat ilmu matematiku sangat rendah.
Hal lain yang membuat saya bingung mengenai ilmu data mining adalah sebuah tahapan dan proses yang belum penuh saya pahami. Karena ada algoritma-algoritma atau metode-metode yang sedikit atau bahkan sebanyak mengbingungkan saya. Nah pada postingan ini saya akan memberikan sedikit pengalaman yang beredukasi tantang bagaimana proses atau tahapan ilmu data mining ?.
Secara umum seperti yang disampaikan seorang pakar data mining yaitu bapak Romi Satrai Wahono, ada 4 tahapan atau proses pada bidang ilmu data mining.
- Himpunan Data
- Metode Data Mining
- Pengetahuan
- Evaluation
Saya akan menjelaskan secara singkat dari beberapa proses diatas dan semoga kalian bisa memahaminya.
1. Himpunan Data
Himpunan data adalah sebuah himpunan data yang berasal dari informasi masa-masa lampau dan dikelola menjadi sebuah informasi untuk melakukan teknik dari ilmu data mining. ada beberapa yang bisa disebut data pre-processing atau tahapan pra proses data. Hal ini biasanya dilakukan sebelum memilih metode data mining atau pada proses kedua dalam ilmu data mining. 3 penjelasa pra proses data secara singkat akan dijelaskan dibawah ini.
- Data Cleaning adalah tahapan pra proses data jika banyak data yang berpotensi data yang salah, data tidak lengkap atau missing, data yang mengandung noise atau kesalahan penulisan. Tahapan ini kebanyakan dilakukan pada saat data terjadi missing value. Data akan dihapus jika akan mempengaruhi proses data mining dan jika sedikit data yang missing biasanya para pakar data mining akan membiarkannya.
- Data Reduction adalah tahapan pengurangan data. Hal ini dilakukan apabila data yang didapat terlalu besar dan akan mempengaruhi proses analisis yang membutuhkan waktu yang sangat lama.
- Metode data reduction pengurangan dimensi.
- Melakukan teknik sampling data
- Meode data reduction pengurangan angka
- Model Regresi dan Log-Linear
- Melakuan pengelompokan, historgram atau pengambilan sampel
- Data Transfotmation adalah Fungsi yang memetakan seluruh rangkaian nilai yang diberikanatribut ke set nilai penggantian baru.
- Metode yang digunakan
- Normalisasi
- Smoothing atau menghilangan noise dari data
- Agregasi atau peringasan
- Disritisasi atau pemodelan pada konsep hirarki.
2. Metode Data Mining
Pada proses kedua adalah metode data mining. Tahapan ini dilakukan setelah pra proses data. Jenis data dan atribut yang didapatkan juga mempengaruhi metode mana yang akan dipilih pada ilmu data mining. Ada 5 Metode yang umum didapatkan.
- Estimasi
- Metode ini dilakukan jika set data atau lebel nya berupa angka numerik
- Algoritma yang dipakai (Linear Regression, Neural Network, Support Vector Mchine)
- Prediksi atau Forecasting
- Metode ini dilakukan pada contoh data seperti forecasting harga saham, forecasting prakiraan cuaca.
- Algoritma yang dipakai (Linear Regression, Neural Network, Support Vector Mchine)
- Klasifikasi
- Metode ini dilakukan mengklasifikasi data yang lampau untuk dijadikan prediksi di masa mendatang.
- Algoritma yang dipakai (Decision Tree, C4.5, ID3, Naive Bayes, k-Nearest Neighbor, Linear Discriminant Analysis)
- Clustering / Klaster
- Metode ini dilakukan untuk mengklaster seperti jenis Pasien COVID-19, diklaster berdasarkan jumlah orang dalam resiko(ODR), pasien dalam pengawasan (PDP), dan pasien positif untuk dijadikan pedoman cara penanggulangan.
- Algoritma yang dipakai (K-Means, K-Medoids, Fuzzy C-Means)
- Assosias / Association.
- Metode ini dilakukan jika set data atau atribut mucul secara bersamaan. Contoh (Pada situs Shopee atau Buka Lapak yang mampu mengasosiasi produk berdasarkan kategori dan produk terlaris)
- Algoritma yang dipakai(Apriori, FP-Growth Algorithm, GRI Algorithm).
3. Pengetahuan
Adalah tahapan setelah memilih metode data mining yang cocok terus dilakukan perhitungan, maka model atau tree bisa juga rules, cluster. Maka pengetahuan ini akan dijadikan acuan untuk melakukan prediksi atau klasifikasi pada data baru yang digunakan di masa kini atau masa mendatang.
Contoh Model Decision Tree
4. Evaluation
Model evaluasi yang digunakan pada algoritma ini adalah menentukan nilai Accuracy, Precission,dan Recall. Tahapan atau proses ini dilakukan supaya bisa mengetahui sejauh mana atau tingkat ke akuratan dari model atau metode yang sudah digunakan. Berikut contoh model evaluasi dari beberapa metode data mining.
- Estimasi
- Error: Root Mean Square Error (RMSE), MSE, MAPE
- Forecasting
- Error: Root Mean Square Error (RMSE), MSE, MAPE
- Klasifikasi / Classification
- Confusion Matrix: Accuracy, Precission, Recall
- ROC Curve: Area Under Curve (AUC)
- Clustering / Klaster
- Internal Evaluation: Davies–Bouldin index, Dunn index,
- External Evaluation: Rand measure, F-measure, Jaccard index, Fowlkes–Mallows index, Confusion matrix
- Associaton / Asosiasi
- Lift Charts: Lift Ratio
Demikian Terimakasih sudah percaya dan mau berkunjung semoga bermanfaat dan saya sampaikan satu kata " Jangan Lupa Bernafas dan Tetap Bersyukur".
See You, & Wassalamualikum Wr. Wb
Sumber Referensi
https://romisatriawahono.net/