बाहरी लोगों की गणना करें

वीडियो: पायथन का उपयोग करके डेटासेट में एक बाहरी ढूँढना

विषय

कदम बढ़ाने के लिए
टिप्स
नेसेसिटीज़

ए ग़ैर या ग़ैर सांख्यिकी में एक डेटा बिंदु है जो एक नमूने में अन्य डेटा बिंदुओं से काफी भिन्न होता है। अक्सर, आउटलेर्स सांख्यिकीविदों को माप में विसंगतियों या त्रुटियों की ओर इशारा करते हैं, जिसके बाद वे डेटा सेट से आउटलाइन को हटा सकते हैं। यदि वे वास्तव में डेटा सेट से आउटलेर्स को हटाने का चयन करते हैं, तो यह अध्ययन से निकाले गए निष्कर्षों में महत्वपूर्ण बदलाव ला सकता है। यही कारण है कि यदि आप सांख्यिकीय डेटा की ठीक से व्याख्या करना चाहते हैं, तो आउटलेर्स की गणना और निर्धारण करना महत्वपूर्ण है।

कदम बढ़ाने के लिए

जानें कि कैसे संभव है। इससे पहले कि हम यह तय कर सकें कि किसी विशेष डेटा सेट से विसंगतियों को दूर करना है, हमें निश्चित रूप से पहले डेटा सेट में संभावित आउटलेर्स की पहचान करनी चाहिए। सामान्य तौर पर, आउटलेर्स वे डेटा बिंदु होते हैं जो उस प्रवृत्ति से महत्वपूर्ण रूप से विचलित होते हैं जो सेट में अन्य मूल्यों को बनाते हैं - दूसरे शब्दों में, वे बाहर गोली मारो अन्य मूल्यों की। यह आमतौर पर टेबल में और (विशेषकर) ग्राफ़ में इसे पहचानना आसान होता है। यदि डेटा सेट नेत्रहीन रूप से रेखांकन किया जाता है, तो आउटलेर अन्य मानों से "दूर" होगा। उदाहरण के लिए, यदि डेटा सेट में अधिकांश बिंदु एक सीधी रेखा बनाते हैं, तो आउटलेयर इस रेखा के अनुरूप नहीं होंगे।
- आइए एक कमरे में 12 अलग-अलग वस्तुओं के तापमान को दर्शाने वाले डेटा सेट पर एक नज़र डालें। यदि वस्तुओं के 11 का तापमान 21 डिग्री सेल्सियस के आसपास कुछ डिग्री तक कम हो जाता है, जबकि एक वस्तु, एक ओवन, में 150 डिग्री सेल्सियस का तापमान होता है, तो आप एक नज़र में देख सकते हैं कि ओवन संभवतः एक बाहरी है।
सभी डेटा बिंदुओं को निम्नतम से उच्चतम तक क्रमबद्ध करें। आउटलेर्स की गणना करने में पहला कदम डेटा सेट के मध्यमान मूल्य (या मध्य मूल्य) का पता लगाना है। यह कार्य बहुत आसान हो जाता है यदि सेट में मूल्य निम्नतम से उच्चतम तक होते हैं। तो जारी रखने से पहले, अपने डेटासेट में इस तरह से मानों को क्रमबद्ध करें।
- ऊपर के उदाहरण के साथ जारी रखें। यहाँ हमारा डेटा सेट एक कमरे में विभिन्न वस्तुओं के डिग्री फ़ारेनहाइट में तापमान दिखा रहा है: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}। यदि हम सेट के मानों को निम्नतम से उच्चतम तक क्रमबद्ध करते हैं, तो यह हमारा नया सेट बन जाता है: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}।
डेटा सेट के माध्यिका की गणना करें। डेटासेट का माध्यिका वह डेटा बिंदु है जहां डेटा का आधा हिस्सा उसके ऊपर होता है, और डेटा का आधा हिस्सा उसके नीचे होता है - यह, वास्तव में, डेटासेट का "केंद्र" है। यदि डेटा सेट में विषम संख्या में अंक होते हैं, तो माध्यिका को ढूंढना आसान होता है - मध्य बिंदु वह बिंदु है जिसके नीचे कई बिंदु हैं। यदि अंकों की एक समान संख्या है, क्योंकि एक केंद्र नहीं है, तो आपको औसतक खोजने के लिए दो केंद्र बिंदुओं का औसत लेना होगा। आउटलेयर की गणना करते समय, माध्यिका को आम तौर पर वेरिएबल Q2 द्वारा संदर्भित किया जाता है - क्योंकि यह Q1 और Q3 के बीच स्थित है, पहला और तीसरा बार्टाइल। हम इन चरों का निर्धारण बाद में करेंगे।
- एक समान संख्या के साथ डेटासेट द्वारा भ्रमित न हों - दो मध्य बिंदुओं का औसत अक्सर एक संख्या होती है जो स्वयं डेटासेट में नहीं होती है - यह ठीक है। हालांकि, यदि दो मध्य बिंदु समान हैं, तो निश्चित रूप से इसका मतलब यह संख्या भी होगी - यह भी है अच्छा जी.
- हमारे उदाहरण में हमारे 12 अंक हैं। मध्य दो पद क्रमशः 6 और 7 - 70 और 71 हैं, इसलिए हमारे डेटा सेट का माध्य इन दो बिंदुओं का अर्थ है: ((70 + 71) / 2) =70,5.
पहले चतुर्थक की गणना करें। यह बिंदु, जिसे हम परिवर्तनशील Q1 के साथ निरूपित करते हैं, वह डेटा बिंदु है जिसके नीचे 25 प्रतिशत (या एक चौथाई) अवलोकनों के झूठ होते हैं। दूसरे शब्दों में, यह आपके डेटा सेट में सभी बिंदुओं का केंद्र है के नीचे मध्यस्थ। यदि माध्यिका के नीचे मानों की संख्या समान है, तो आपको Q1 खोजने के लिए फिर से दो मध्य मानों का औसत लेना होगा, जैसा कि आपने माध्यिका को स्वयं निर्धारित करने के लिए किया होगा।
- हमारे उदाहरण में, छह अंक माध्यिका से ऊपर हैं और छह अंक इसके नीचे हैं। तो पहली चतुर्थक को खोजने के लिए हमें नीचे के छह बिंदुओं में दो मध्य बिंदुओं का औसत निकालना होगा। नीचे के छह के अंक 3 और 4 दोनों 70 हैं, इसलिए उनका मतलब ((70 + 70) / 2) = है70। तो Q1 के लिए हमारा मान 70 है।
तीसरी चतुर्थांश की गणना करें। यह बिंदु, जिसे हम परिवर्तनीय Q3 के साथ निरूपित करते हैं, वह डेटा बिंदु है जिसके ऊपर 25 प्रतिशत डेटा निहित है। क्यू 3 ढूंढना व्यावहारिक रूप से Q1 को खोजने के समान है, सिवाय इसके कि हम इस मामले में बिंदुओं को देख रहे हैं ऊपर मध्यस्थ।
- उपरोक्त उदाहरण के साथ आगे बढ़ते हुए, हम देखते हैं कि माध्यिका के ऊपर के छह बिंदुओं के दो मध्य बिंदु 71 और 72 हैं। इन दो बिंदुओं का मतलब है ((71 + 72) / 2) =71,5। तो Q3 के लिए हमारा मान 71.5 है।
इंटरक्वेर्टाइल रेंज का पता लगाएं। अब जब हमने Q1 और Q3 को निर्धारित किया है, तो हमें इन दो चर के बीच की दूरी की गणना करनी होगी। आप Q1 से Q3 को घटाकर Q1 और Q3 के बीच की दूरी का पता लगा सकते हैं। आपके डेटा सेट में गैर-विचलित बिंदुओं के लिए सीमाओं का निर्धारण करने के लिए आपको इंटरक्वेर्टाइल रेंज के लिए प्राप्त मूल्य महत्वपूर्ण है।
- हमारे उदाहरण में, Q1 और Q3 के मूल्य क्रमशः 70 और 71.5 हैं। इंटरक्वेर्टाइल रेंज को खोजने के लिए, हम Q3 - Q1: 71.5 - 70 = की गणना करते हैं1,5.
- यह तब भी काम करता है जब Q1, Q3, या दोनों संख्याएँ नकारात्मक हों। उदाहरण के लिए, यदि Q1 के लिए हमारा मान -70 था, तो इंटरक्वेर्टाइल रेंज 71.5 - (-70) = 141.5 होगी, जो सही है।
डेटासेट की "इनर लिमिट" का पता लगाएं। आप बाहरी लोगों को यह निर्धारित करके पहचान सकते हैं कि क्या वे कई संख्यात्मक सीमाओं के भीतर हैं; तथाकथित "आंतरिक सीमा" और "बाहरी सीमा"। एक बिंदु जो डेटासेट की आंतरिक सीमा के बाहर आता है, उसे एक के रूप में वर्गीकृत किया गया है हल्के बाहरी, और बाहरी सीमा के बाहर एक बिंदु को एक के रूप में वर्गीकृत किया गया है अत्यधिक बाहर। अपने डेटा सेट की आंतरिक सीमाओं को खोजने के लिए, पहले इंटरकार्टाइल रेंज को 1.5 से गुणा करें। Q3 में परिणाम जोड़ें और इसे Q1 से घटाएं। दो परिणाम आपके डेटा सेट की आंतरिक सीमाएँ हैं।
- हमारे उदाहरण में, इंटरक्वेर्टाइल रेंज है (71.5 - 70), या 1.5। 2.25 प्राप्त करने के लिए इसे 1.5 से गुणा करें। हम इस संख्या को Q3 में जोड़ते हैं और इसे आंतरिक सीमाओं को खोजने के लिए Q1 से घटाते हैं:
  - 71,5 + 2,25=73,75
  - 70 - 2,25=67,75
  - तो आंतरिक सीमाएँ हैं 67.75 और 73.75.
- हमारे डेटा सेट में, केवल ओवन का तापमान - 300 डिग्री फ़ारेनहाइट - इस सीमा के बाहर है। तो यह एक हल्का बाहरी हो सकता है। हालांकि, हमें अभी तक यह निर्धारित करना है कि क्या यह तापमान एक अत्यधिक बाहरी है, इसलिए चलो अभी तक निष्कर्ष पर नहीं जाएं।
डेटासेट की "बाहरी सीमा" का पता लगाएं। आप इसे आंतरिक सीमाओं के साथ उसी तरह से करते हैं, एकमात्र अंतर के साथ कि आप इंटरकार्टाइल दूरी को 1.5 के बजाय 3 से गुणा करते हैं। फिर आप परिणाम को Q3 में जोड़ते हैं और बाहरी सीमा मानों को खोजने के लिए Q1 से घटाते हैं।
- हमारे उदाहरण में, हम प्राप्त करने के लिए इंटरक्वेर्टाइल की दूरी 3 से बढ़ाते हैं (1.5 * 3) या 4.5। अब हम बाहरी सीमाओं को उसी तरह से पा सकते हैं जैसे कि आंतरिक सीमाएं:
  - 71,5 + 4,5=76
  - 70 - 4,5=65,5
  - तो बाहरी सीमाएँ हैं 65.5 और 76.
- बाहरी सीमाओं के बाहर झूठ बोलने वाले डेटा बिंदु को चरम सीमा पर माना जाता है। हमारे उदाहरण में, ओवन का तापमान, 300 डिग्री फ़ारेनहाइट, बाहरी सीमाओं से परे है। तो ओवन का तापमान है निश्चित रूप से एक अति सुंदर।
यह निर्धारित करने के लिए एक गुणात्मक मूल्यांकन का उपयोग करें कि क्या आपको आउटलेयर को "बाहर फेंकना" चाहिए। उपरोक्त विधि से आप यह निर्धारित कर सकते हैं कि कुछ बिंदु हल्के आउटलेयर, अत्यधिक आउटलेयर या कोई आउटलेयर बिल्कुल नहीं हैं। लेकिन कोई गलती न करें - एक बिंदु को एक बाहरी के रूप में पहचानना इसे सिर्फ एक बनाता है उम्मीदवार डेटासेट से हटाया जा सकता है, और तुरंत हटाए जाने वाले बिंदु पर नहीं जरूर में बदलना। कारण सेट के बाकी बिंदुओं से एक अलगता क्यों अलग है, यह निर्धारित करने में महत्वपूर्ण है कि क्या आउटलाइन को हटाया जाना चाहिए। आम तौर पर, कुछ त्रुटि के कारण आउटलेयर - रिकॉर्डिंग में या प्रयोगात्मक डिजाइन में माप में त्रुटि, उदाहरण के लिए - हटा दी जाती है। इसके विपरीत, आउटलेर जो त्रुटियों के कारण नहीं होते हैं और जो नई, अप्रकाशित जानकारी या रुझान प्रकट करते हैं नहीं हटा दिया गया।
- विचार करने के लिए एक और मानदंड यह है कि क्या आउटलेर्स एक तरह से तिरछे या भ्रामक डेटा सेट के माध्यम को प्रभावित करते हैं। यह विशेष रूप से महत्वपूर्ण है यदि आप अपने डेटा सेट के माध्यम से निष्कर्ष निकालने की योजना बनाते हैं।
- आइए हमारे उदाहरण का न्याय करें। के बाद से उच्चतम यह संभावना नहीं है कि भट्ठी प्रकृति के कुछ अप्रत्याशित बल के कारण 300 ° F के तापमान पर पहुंच गई, हमारे उदाहरण में हम लगभग 100% निश्चितता के साथ निष्कर्ष निकाल सकते हैं कि भट्ठी गलती से चालू हो गई थी, जिससे असामान्य रूप से उच्च तापमान रीडिंग हो गई थी। इसके अतिरिक्त, यदि हम बाहरी को नहीं हटाते हैं, तो हमारे डेटा सेट का मतलब (69 + 69 + 70 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 ° एफ, जबकि माध्य के बग़ैर इसका परिणाम (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 ° F है।
  - चूँकि बाहरी त्रुटि मानवीय त्रुटि के कारण हुई थी, और क्योंकि यह कहना गलत है कि औसत कमरे का तापमान 32 ° C के करीब था, इसलिए हमें अपने बाहरी उपयोग का चयन करना होगा। हटाना.
(कभी-कभी) आउटलायर्स को बनाए रखने के महत्व को समझें। जबकि कुछ आउटलेर्स को एक डेटासेट से हटाया जाना चाहिए क्योंकि वे त्रुटियों का परिणाम हैं या क्योंकि वे परिणामों को भ्रामक तरीके से तिरछा करते हैं, अन्य आउटलेयर को संरक्षित किया जाना चाहिए। उदाहरण के लिए, यदि एक आउटलाइन को सही ढंग से प्राप्त किया गया है (और इसलिए त्रुटि का परिणाम नहीं है) और / या यदि आउटलीयर को मापी जाने वाली घटना में एक नई अंतर्दृष्टि प्रदान करता है, तो इसे तुरंत नहीं हटाया जाना चाहिए। वैज्ञानिक प्रयोग विशेष रूप से संवेदनशील परिस्थितियां हैं जब यह आउटलेयर से निपटने की बात आती है - गलती से एक बाहरी को हटाने का मतलब एक नई प्रवृत्ति या खोज के बारे में महत्वपूर्ण जानकारी फेंकना हो सकता है।
- उदाहरण के लिए, कल्पना करें कि हम एक मछली फार्म में मछली बनाने के लिए एक नई दवा डिजाइन कर रहे हैं जो बड़े हो रहे हैं। आइए हमारे पुराने डेटा सेट ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) का उपयोग करें, इस अंतर के साथ कि प्रत्येक बिंदु अब मछली के द्रव्यमान का प्रतिनिधित्व करता है (ग्राम में) ) जन्म के बाद एक अन्य प्रयोगात्मक दवा के साथ इलाज के बाद। दूसरे शब्दों में, पहली दवा ने एक मछली को 71 ग्राम का द्रव्यमान दिया, दूसरे ने दूसरी मछली को 70 ग्राम का द्रव्यमान दिया, और इसी तरह। इस स्थिति में, 300 फिर भी एक विशाल रूपरेखा, लेकिन हमें इसे अभी नहीं निकालना चाहिए। क्योंकि, अगर हम यह मान लें कि परिणाम एक त्रुटि का परिणाम नहीं है, तो यह हमारे प्रयोग में एक महान सफलता का प्रतिनिधित्व करता है। 300 ग्राम मछली का उत्पादन करने वाली दवा किसी भी अन्य दवा की तुलना में बेहतर काम करती है, इसलिए यह यह है अधिकांश इसके बजाय हमारे सेट में महत्वपूर्ण डेटा बिंदु कम से कम महत्वपूर्ण डेटा बिंदु।