Assalamualaiakum Wr. Wb, Salam Sejahtera dan Salam Budaya
Sering kali saat kita belajar analisis data selalu mendapatkan kata-kata yang susah untuk dipahami, bahkan tak jarang kita sudah paham kasusnya namun lupa apa namanya. Nah, dalam contoh kali ini kata asing yang akan saya bahas adalah tentang Data Outlier dan berbagai jenisnya.
Data Outlier
Dalam bahasa Indonesia baku diartikan sebagai data pencilan. Namun untuk pengertian dari Data Outlier ini adalah suatu data hasil observasi yang memunculkan nilai-nilai yang berlebihan atau melebihi batas dan jauh berbeda dengan data-data yang masih masuk dalam satu sub set data.
Dalam contoh kita memiliki satu set data berupa data kelulusan mahasiswa sebanyak 50 Data yang terbagi dari 45 Data Mahasiswa yag Lulus dan 5 Data mahasiswa yang tidak lulus. Nah, tentunya 5 Mahasiswa tersebut memiliki nilai yang ekstrem sehingga bisa disebut Data Outlier. Namun dalam metode analisis yang lain hal ini juga bisa saja dinamakan Imbalanced Data atau ketidakseimbangan data.
Contoh sederhana Data Outlier yang diterjemahkan pada digaram dibawah ini
Untuk kasus seperti ini dalam sebuah penelitian harus dilakukan tindakan khusus, karena jika dibiarkan nanti akan menyebabkan terjadinya bias pada hasilnya atau ketidak akuratan pada analisisnya. Tapi bagi sebagian penelitian ada juga yang membiarkan kasus ini karena kebutuhan atau upaya untuk menilai keberadaanya.
Pada kondisi Data Outlier juga bisa dilihat dari berbagai tipe datanya. Yang dimaksud adalah Studenzied Residual, Outlier Multivariat dan Outlier Univariat.
Baca Juga : Cara Menentukan Analisis Regresi Linear di Excel
Outlier Univariat
Outlier Univariat adalah data pencilan yang disebabkan oleh sebuah variabel dependen atau terikat. Dalam arti lain yaitu jika variabel dependen terdapat pencilan, maka besar kemungkinan akan terjadi Oitlier Univariat. Apabila hal ini tidak ada tindakan khusus atau dibiarkan saja, besar kemungkinan akan menyebabkan masalah pada normalitas residual pada analisis regresi linier. Dan hasil dari nilai R dan R Square akan menjadi bias.
Outlier Multivariate
Outlier Multivariat adalah pencilan data yang disebabkan oleh sekumpulan variabel bebas atau independen. Atau dalam contoh sederhana jika dalam sebuah sub set data terdapat banyak veriabel atau atribut dan banyak yang terjadi Outlier maka hal tersebut sudah dipastikan terjadi Outlier Multivairat.
Studenzied Residual
Dalam contoh dalam sebuah analisis regresi sederhana atau anailis regresi liner, munculnya data pencilan bisa dilihat dari nilai studenzied residual atau nilai residual yang normalisasi berdasarkan nilai mean dan standart deviasi. Jika nilai absolut dari z-residual lebih dari 3, maka observasi yang bersangkutan adalah sebagai Outlier Univariat dan untuk mengetahui Outlier Multivariat pada regresi sederhana dapat dilihat dari nilai peluang mahanolobis atau nilai leverage kurang dari 0,001, maka observasi yang bersangkutan menjadi outlier multi variat.
Selanjutnya saya akan memberikan sedikit setidaknya 5 cara untuk menemukan Outlier pada set data.
1. Menyortir Lembar Data Anda untuk Menemukan Outlier
Menyortir lembar datamu adalah cara sederhana namun efektif untuk menyoroti nilai yang tidak biasa. Cukup urutkan lembar datamu untuk setiap variabel dan kemudian cari nilai yang sangat tinggi atau rendah.
2. Membuat Grafik Data Anda untuk Mengidentifikasi Outlier
Kamu bisa membuat grafik dengan berbagai macam grafik seperti, diagaram batang, scatter plot, histogram dan lain sebagainya. Dalam hal ini kamu bisa memanfaatkan aplikasi yang berhubungan dengan analisis seperti Ms. Excel, SPSS dan lain-lain.
3. Menggunakan Z-skor untuk Mendeteksi Outlier
Z-skor dapat mengukur keanehan suatu pengamatan ketika data mu mengikuti distribusi normal. Z-skor adalah jumlah standar deviasi di atas dan di bawah rata-rata bahwa setiap nilai turun. Misalnya, Z-score 2 menunjukkan bahwa pengamatan adalah dua stmur deviasi di atas rata-rata sementara Z-score -2 menmukan itu adalah dua stmur deviasi di bawah rata-rata. Sebuah Z-skor nol mewakili nilai yang sama dengan rata-rata.
Untuk menghitung skor-Z untuk suatu pengamatan, lakukan pengukuran mentah, kurangi rata-rata, dan bagi dengan simpangan baku. Secara matematis, rumus untuk proses tersebut adalah sebagai berikut:
Semakin jauh Z-score pengamatan dari nol, semakin tidak biasa. Nilai batas stmur untuk menemukan outlier adalah Z-skor +/-3 atau lebih jauh dari nol. Distribusi probabilitas di bawah ini menampilkan distribusi Z-score dalam distribusi normal stmur. Z-skor di luar +/- 3 sangat ekstrim sehingga mu hampir tidak dapat melihat bayangan di bawah kurva.
4. Menggunakan Rentang Interkuartil untuk Membuat Pagar Outlier
Kamu apat menggunakan rentang interkuartil (IQR), beberapa nilai kuartil, dan faktor penyesuaian untuk menghitung batas untuk apa yang merupakan outlier minor dan mayor. Minor dan mayor menunjukkan ketidakbiasaan dari outlier relatif terhadap distribusi nilai secara keseluruhan. Pencilan utama lebih ekstrim. Analis juga menyebut kategorisasi ini sebagai outlier ringan dan ekstrim.
cek selengkapnya ditulisan Mr. Jim
disini5. Menemukan Pencilan dengan Uji Hipotesis
Kamu juga apat menggunakan tes hipotesis untuk menemukan outlier.
Nah, itulah beberapa informasi terkait Data Outlier dan 5 Cara menemukannya menurut statistics by Jim.
Terimakasih, Semoga bermanfaat dan Kamu bisa menemukan apa yang kamu cari, "Jangan Lupa Bernafas dan Tetap Bahagia dalam Tautan Rasa Syukur".
Wassalamualaikum Wr. Wb, Sampai Jumpa
Reference :
1. https://www.statistikian.com/2016/05/data-outlier.html
2. https://statisticsbyjim.com/basics/outliers/