Cara Mengesan Outliers: 10 Langkah (dengan Gambar)

Isi kandungan:

Cara Mengesan Outliers: 10 Langkah (dengan Gambar)
Cara Mengesan Outliers: 10 Langkah (dengan Gambar)

Video: Cara Mengesan Outliers: 10 Langkah (dengan Gambar)

Video: Cara Mengesan Outliers: 10 Langkah (dengan Gambar)
Video: Nak Jadi Designer Kena Masuk Uni Ke? 2024, Mungkin
Anonim

Dalam statistik, outlier atau "outlier" adalah datum yang menyimpang jauh dari datum lain dalam sampel atau kumpulan datum (set datum disebut data). Sering kali, penyimpang dalam kumpulan data dapat berfungsi sebagai peringatan kepada ahli statistik mengenai kelainan atau kesalahan eksperimen dalam pengukuran yang diambil, yang dapat menyebabkan ahli statistik untuk menghapus penyimpangan dari kumpulan data. Sekiranya ahli statistik mengeluarkan penyimpangan dari set data, kesimpulan yang dapat diambil dari kajian boleh sangat berbeza. Oleh itu, mengetahui cara mengira dan menganalisis outlier adalah sangat penting untuk memastikan pemahaman yang betul mengenai set data statistik.

Langkah

Kira Outliers Langkah 1
Kira Outliers Langkah 1

Langkah 1. Ketahui cara mengenal pasti data yang berpotensi lebih besar

Sebelum kita memutuskan sama ada untuk menghapus datum outlier dari kumpulan data atau tidak, sudah tentu kita mesti mengenal pasti datum mana yang berpotensi untuk menjadi outliers. Secara umum, outlier adalah datum yang menyimpang jauh dari datum lain dalam satu set datum - dengan kata lain, outlier adalah “luar” dari datum lain. Biasanya mudah untuk mengesan outliers dalam jadual data atau (khususnya) grafik. Sekiranya satu set datum dijelaskan secara visual dengan grafik, datum outlier akan kelihatan "sangat jauh" dari datum yang lain. Jika, sebagai contoh, kebanyakan datum dalam set data membentuk garis lurus, datum outlier tidak akan secara wajar ditafsirkan sebagai membentuk garis itu.

Mari kita lihat satu set datum yang mewakili suhu 12 objek berbeza di dalam sebuah bilik. Sekiranya 11 objek mempunyai suhu sekitar 70 Fahrenheit (21 darjah Celsius), tetapi objek ke-12, oven, mempunyai suhu 300 Fahrenheit (150 darjah Celsius), dapat dilihat dengan segera bahawa suhu oven sangat mungkin orang luar

Kira Outliers Langkah 2
Kira Outliers Langkah 2

Langkah 2. Susun datum dalam satu set datum dari terendah hingga tertinggi

Langkah pertama untuk mengira outliers dalam set datum adalah mencari median (nilai tengah) set datum tersebut. Tugas ini menjadi sangat mudah jika datum dalam satu set datum disusun dari yang terkecil hingga yang terbesar. Jadi, sebelum meneruskan, susun datum dalam satu set datum tersebut.

Mari kita teruskan contoh di atas. Ini adalah kumpulan data kami yang mewakili suhu beberapa objek di dalam bilik: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Sekiranya kita menyusun datum dari terendah hingga tertinggi, urutan datum menjadi: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Kira Outliers Langkah 3
Kira Outliers Langkah 3

Langkah 3. Hitung median set datum

Median set datum adalah datum di mana separuh datum yang lain berada di atas datum itu dan separuh yang tersisa di bawahnya - pada dasarnya, datum itu adalah datum yang berada di "tengah" set datum. Sekiranya bilangan datum dalam set datum ganjil, sangat mudah didapati - median adalah datum yang mempunyai nombor yang sama di atas dan di bawahnya. Walau bagaimanapun, jika bilangan datum dalam kumpulan data adalah sama, maka, kerana tidak ada datum yang sesuai di tengah, 2 datum di tengah rata-rata untuk mencari median. Harus diingat bahawa, ketika mengira garis luar, median biasanya diberikan pemboleh ubah Q2-ni kerana Q2 berada di antara Q1 dan Q3, kuartil bawah dan atas, yang akan kita bincangkan kemudian.

  • Tidak boleh dikelirukan dengan set datum di mana jumlah datum adalah sama rata-rata dari 2 datum tengah akan sering mengembalikan nombor yang tidak ada dalam set datum itu sendiri-ini tidak mengapa. Walau bagaimanapun, jika 2 datum tengah adalah nombor yang sama, rata-rata, tentu saja, juga akan menjadi nombor yang sama, yang juga baik.
  • Dalam contoh di atas, kita mempunyai 12 datum. 2 datum tengah masing-masing adalah datum ke-6 dan ke-7-70 dan 71. Jadi, median set datum kami adalah purata 2 nombor ini: ((70 + 71) / 2), = 70.5.
Kira Outliers Langkah 4
Kira Outliers Langkah 4

Langkah 4. Hitung kuartil bawah

Nilai ini, yang kami berikan pemboleh ubah Q1, adalah datum yang mewakili 25 persen (atau seperempat) dari data tersebut. Dengan kata lain, datum inilah yang membelah data yang berada di bawah median. Sekiranya bilangan datum di bawah median adalah sama, anda mesti mengira semula 2 datum di tengah untuk mencari Q1, sama seperti yang anda cari untuk mencari median itu sendiri.

Dalam contoh kami, terdapat 6 datum yang terletak di atas median, dan 6 datum yang berada di bawah median. Ini bermaksud, untuk mencari kuartil yang lebih rendah, kita perlu mengira rata-rata 2 datum di tengah-tengah 6 datum di bawah median. Data ke-3 dan ke-4 dari 6 datum di bawah median keduanya 70. Jadi, rata-rata adalah ((70 + 70) / 2), = 70. 70 menjadi Q1 kami.

Kira Outliers Langkah 5
Kira Outliers Langkah 5

Langkah 5. Hitung kuartil atas

Nilai ini, yang kami berikan pemboleh ubah Q3, adalah datum di mana terdapat 25 persen datum dalam set datum. Mencari Q3 hampir sama dengan mencari Q1, kecuali bahawa, dalam kes ini, kita melihat data di atas median, bukan di bawah median.

Meneruskan contoh kami di atas, 2 datum di tengah-tengah 6 datum di atas median adalah 71 dan 72. Rata-rata 2 datum ini adalah ((71 + 72) / 2), = 71, 5. 71, 5 menjadi Q3 kami.

Kira Outliers Langkah 6
Kira Outliers Langkah 6

Langkah 6. Cari jarak antara kuartil

Setelah kita menjumpai Q1 dan Q3, kita perlu mengira jarak antara dua pemboleh ubah ini. Jarak dari Q1 ke Q3 dijumpai dengan mengurangkan Q1 dari Q3. Nilai yang anda perolehi untuk jarak antara kuartil sangat penting untuk menentukan batas datum bukan luar dalam kumpulan data anda.

  • Dalam contoh kami, nilai Q1 dan Q3 kami adalah 70 dan 71, 5. Untuk mencari jarak antara kuartil, kami tolak Q3 - Q1 = 71.5 - 70 = 1, 5.
  • Harus diingat bahawa ini juga berlaku walaupun Q1, Q3, atau kedua-duanya adalah nombor negatif. Sebagai contoh, jika nilai Q1 kami adalah -70, jarak interkuartil yang betul adalah 71.5 - (-70) = 141, 5.
Kira Outliers Langkah 7
Kira Outliers Langkah 7

Langkah 7. Cari "pagar dalaman" dalam set datum

Outliers didapati dengan memeriksa sama ada datum berada dalam batas nombor yang disebut "pagar dalam" dan "pagar luar". Datum yang jatuh di luar pagar dalam set datum disebut sebagai "outlier kecil", sementara datum yang jatuh di luar pagar luar disebut sebagai "outlier utama". Untuk mencari pagar dalaman dalam set data anda, pertama kalikan jarak interkuartil dengan 1, 5. Kemudian, tambahkan hasilnya dengan Q3 dan tolak juga dari Q1. Dua nilai yang anda dapat adalah batasan pagar dalam set datum anda.

  • Dalam contoh kami, jarak antara kuartil adalah (71.5 - 70), atau 1.5. Darabkan 1.5 dengan 1.5 yang menghasilkan 2.25. Kami menambah nombor ini ke Q3 dan kita tolak Q1 dengan nombor ini untuk mencari sempadan pagar dalam seperti berikut:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Jadi, batas pagar dalaman kita adalah 67, 75 dan 73, 75.
  • Dalam kumpulan data kami, hanya suhu ketuhar, 300 Fahrenheit - berada di luar had ini dan oleh itu datum ini sedikit lebih kecil. Walau bagaimanapun, kami masih belum mengira sama ada suhu ini adalah faktor utama, jadi jangan sampai membuat kesimpulan sehingga kami membuat pengiraan.

    Kira Outliers Langkah 7Bullet2
    Kira Outliers Langkah 7Bullet2
Kira Outliers Langkah 8
Kira Outliers Langkah 8

Langkah 8. Cari "pagar luar" dalam set datum

Ini dilakukan dengan cara yang sama seperti mencari pagar dalam, kecuali bahawa jarak interkuartil dikalikan dengan 3 dan bukannya 1.5. Hasilnya kemudian ditambahkan ke Q3 dan dikurangkan dari Q1 untuk mencari batas atas dan bawah pagar luar.

  • Dalam contoh kita, mengalikan jarak antara kuartil dengan 3 memberi (1, 5 x 3), atau 4, 5. Kita dapati batas pagar luar dengan cara yang sama seperti sebelumnya:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Batasan pagar luar adalah 65.5 dan 76.
  • Data yang terletak di luar batas pagar luar disebut sebagai outliers utama. Dalam contoh ini, suhu ketuhar, 300 Fahrenheit, jelas berada di luar pagar luar, jadi datum ini "pasti" merupakan penyekat utama.

    Kira Outliers Langkah 8Bullet2
    Kira Outliers Langkah 8Bullet2
Kira Outliers Langkah 9
Kira Outliers Langkah 9

Langkah 9. Gunakan penilaian kualitatif untuk menentukan sama ada atau tidak untuk "membuang" datum outlier

Dengan menggunakan kaedah yang dijelaskan di atas, dapat ditentukan apakah datum adalah datum minor, datum utama, atau tidak sama sekali. Namun, jangan salah - mencari datum sebagai orang luar hanya menandakan bahawa datum sebagai "calon" akan dikeluarkan dari kumpulan data, bukan sebagai datum yang "harus" dibuang. "Sebab" yang menyebabkan datum outlier menyimpang dari datum lain dalam set datum sangat penting dalam menentukan sama ada membuangnya atau tidak. Secara umum, contoh yang disebabkan oleh kesalahan dalam pengukuran, rakaman, atau perancangan eksperimen, misalnya-dapat dibuang. Sebaliknya, outliers yang tidak disebabkan oleh kesalahan dan yang menunjukkan maklumat atau tren baru yang tidak diramalkan sebelumnya biasanya "tidak" dibuang.

  • Kriteria lain yang perlu dipertimbangkan adalah sama ada outlier mempunyai pengaruh besar terhadap rata-rata set datum, iaitu sama ada outlier membingungkannya atau membuatnya salah. Perkara ini sangat penting untuk dipertimbangkan sekiranya anda berhasrat untuk membuat kesimpulan dari rata-rata set data anda.
  • Mari teliti teladan kita. Dalam contoh ini, kerana nampaknya "sangat" mustahil ketuhar mencapai 300 Fahrenheit melalui kekuatan semula jadi yang tidak dapat diramalkan, kita dapat menyimpulkan dengan hampir pasti bahawa ketuhar tidak sengaja tersisa, mengakibatkan kelainan suhu pada datum. Juga, jika kita tidak membuang outliers, rata-rata set data kami adalah (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 Fahrenheit (32 darjah Celsius), sementara rata-rata jika kita membuang garis pusat adalah (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 Fahrenheit (21 darjah Celsius).

    Oleh kerana penyekat ini disebabkan oleh kesalahan manusia dan kerana tidak betul untuk mengatakan bahawa suhu bilik rata-rata mencapai hampir 90 Fahrenheit (32 darjah Celsius), lebih baik kita memilih untuk “membuang” outliers kita

Kira Outliers Langkah 10
Kira Outliers Langkah 10

Langkah 10. Ketahui kepentingan (kadang-kadang) menjaga outlier

Walaupun beberapa outliers harus dikeluarkan dari datum set kerana mereka menyebabkan kesalahan dan / atau membuat hasilnya tidak tepat atau salah, beberapa outliers harus dijaga. Jika, misalnya, orang luar nampaknya diperoleh secara semula jadi (bukan hasil ralat) dan / atau memberikan perspektif baru mengenai fenomena yang sedang dikaji, maka outlier tidak boleh dikeluarkan dari kumpulan data. Penyelidikan saintifik biasanya merupakan situasi yang sangat sensitif ketika berhadapan dengan outlier - penyingkiran outlier yang salah boleh bererti membuang maklumat yang menunjukkan trend atau penemuan baru.

Sebagai contoh, katakan kita merancang ubat baru untuk meningkatkan saiz ikan di kolam ikan. Kami akan menggunakan kumpulan data lama kami ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), kecuali, kali ini, setiap datum akan menunjukkan berat ikan (dalam gram) setelah diberi ubat eksperimen yang berbeza dari lahir. Dengan kata lain, ubat pertama menyebabkan seekor ikan seberat 71 gram, ubat kedua menyebabkan ikan lain seberat 70 gram, dan seterusnya. Dalam hal ini, 300 adalah "masih" penyekat yang besar, tetapi kita tidak boleh membuang datum ini kerana, dengan asumsi bahwa data tersebut diperoleh tanpa kesalahan, ini menunjukkan keberhasilan dalam kajian ini. Ubat yang dapat membuat ikan seberat 300 gram berfungsi lebih baik daripada semua ubat lain, jadi datum ini sebenarnya adalah "paling" penting dalam set datum kami, bukan yang "paling tidak penting"

Disyorkan: