उत्सर्जन की गणना कैसे करें

लेखक: Janice Evans
निर्माण की तारीख: 23 जुलाई 2021
डेट अपडेट करें: 1 जुलाई 2024
Anonim
जीएचजी उत्सर्जन की गणना - उदाहरण 7
वीडियो: जीएचजी उत्सर्जन की गणना - उदाहरण 7

विषय

आँकड़ों में, आउटलेयर वे मान होते हैं जो एकत्रित डेटासेट में अन्य मानों से बहुत भिन्न होते हैं। एक बाहरी डेटा वितरण या माप त्रुटियों में विसंगतियों को इंगित कर सकता है, इसलिए आउटलेर्स को अक्सर डेटासेट से बाहर रखा जाता है। डेटासेट से आउटलेर्स को हटाकर, आप अप्रत्याशित या अधिक सटीक निष्कर्ष पर आ सकते हैं। इसलिए, आँकड़ों की उचित समझ सुनिश्चित करने के लिए आउटलेर्स की गणना और अनुमान लगाने में सक्षम होना आवश्यक है।

कदम

  1. 1 संभावित आउटलेर्स को पहचानना सीखें। आउटलेर्स को डेटासेट से बाहर करने से पहले संभावित आउटलेर्स की पहचान की जानी चाहिए। आउटलेयर वे मान होते हैं जो डेटासेट के अधिकांश मानों से बहुत भिन्न होते हैं; दूसरे शब्दों में, आउटलेयर अधिकांश मूल्यों की प्रवृत्ति से बाहर हैं। यह मानों की तालिका में या (विशेषकर) रेखांकन में खोजना आसान है। यदि डेटासेट में मान प्लॉट किए जाते हैं, तो आउटलेयर अधिकांश अन्य मानों से दूर होंगे। यदि, उदाहरण के लिए, अधिकांश मान एक सीधी रेखा पर आते हैं, तो आउटलेयर ऐसी सीधी रेखा के दोनों ओर स्थित होते हैं।
    • उदाहरण के लिए, एक कमरे में 12 विभिन्न वस्तुओं के तापमान का प्रतिनिधित्व करने वाले डेटासेट पर विचार करें। यदि 11 वस्तुएं लगभग 70 डिग्री हैं, लेकिन बारहवीं वस्तु (संभवतः एक भट्टी) 300 डिग्री है, तो मूल्यों पर एक त्वरित नज़र यह संकेत दे सकती है कि भट्ठी एक संभावित झटका है।
  2. 2 डेटा को आरोही क्रम में क्रमबद्ध करें। आउटलेर्स का निर्धारण करने में पहला कदम डेटासेट के माध्यिका की गणना करना है। यदि डेटासेट में मानों को आरोही क्रम (सबसे छोटे से सबसे बड़े) में व्यवस्थित किया जाए तो यह कार्य बहुत सरल हो जाता है।
    • उपरोक्त उदाहरण को जारी रखते हुए, कई वस्तुओं के तापमान का प्रतिनिधित्व करने वाले निम्नलिखित डेटासेट पर विचार करें: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}। इस सेट को निम्नानुसार क्रमित किया जाना चाहिए: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}।
  3. 3 डेटासेट के माध्यिका की गणना करें। डेटासेट का माध्यिका डेटासेट के बीच का मान होता है। यदि डेटासेट में विषम संख्या में मान हैं, तो माध्यिका पहले और बाद का मान है जिसके बाद डेटासेट में समान संख्या में मान होते हैं। लेकिन यदि डेटासेट में मानों की संख्या सम है, तो आपको दो माध्यों का अंकगणितीय माध्य ज्ञात करना होगा। ध्यान दें कि आउटलेर्स की गणना करते समय, माध्यिका को आमतौर पर Q2 के रूप में संदर्भित किया जाता है, क्योंकि यह Q1 और Q3 के बीच स्थित है, निचला और ऊपरी चतुर्थक, जिसे हम बाद में परिभाषित करेंगे।
    • ऐसे डेटासेट के साथ काम करने से न डरें जिनमें मानों की संख्या सम हो - दो माध्यों का अंकगणितीय माध्य वह संख्या होगी जो डेटासेट में नहीं है; यह सामान्य है। लेकिन अगर दो माध्य मान एक ही संख्या हैं, तो अंकगणितीय माध्य इस संख्या के बराबर है; यह भी चीजों के क्रम में है।
    • ऊपर के उदाहरण में, मध्य 2 मान 70 और 71 हैं, इसलिए माध्यिका ((70 + 71) / 2) = 70.5 है।
  4. 4 नीचे चतुर्थक की गणना करें। यह मान, जिसे Q1 कहा जाता है, वह है जिसके नीचे डेटा सेट मान का 25% है। दूसरे शब्दों में, यह माध्यिका तक के मानों का आधा है। यदि माध्यिका से पहले डेटासेट से मानों की संख्या समान है, तो आपको Q1 की गणना करने के लिए दो साधनों का अंकगणितीय माध्य ज्ञात करना होगा (यह माध्यिका की गणना के समान है)।
    • हमारे उदाहरण में, 6 मान माध्यिका के बाद और 6 मान इसके पहले स्थित हैं। इसका मतलब यह है कि निम्न चतुर्थक की गणना करने के लिए, हमें छह मानों के दो माध्यों का अंकगणितीय माध्य ज्ञात करना होगा जो माध्यिका से पहले हैं। यहाँ औसत मान 70 और 70 हैं। इस प्रकार, Q1 = ((70 + 70) / 2) = 70।
  5. 5 ऊपरी चतुर्थक की गणना करें। यह मान, जिसे Q3 कहा जाता है, वह है जिसके ऊपर डेटा सेट मान का 25% है। Q3 की गणना करने की प्रक्रिया Q1 की गणना करने की प्रक्रिया के समान है, लेकिन यहां माध्यिका के बाद के मानों पर विचार किया जाता है।
    • ऊपर के उदाहरण में, माध्यिका के बाद छह के दो औसत 71 और 72 हैं। तो Q3 = ((71 + 72) / 2) = 71.5।
  6. 6 इंटरक्वेर्टाइल रेंज की गणना करें। Q1 और Q3 की गणना करने के बाद, इन मानों के बीच की दूरी ज्ञात करना आवश्यक है। ऐसा करने के लिए, Q1 को Q3 से घटाएं। इंटरक्वेर्टाइल रेंज का मूल्य उन मूल्यों की सीमाओं को निर्धारित करने के लिए अत्यंत महत्वपूर्ण है जो आउटलेयर नहीं हैं।
    • हमारे उदाहरण में, Q1 = 70 और Q3 = 71.5। इंटरक्वेर्टाइल रेंज ७१.५ - ७० = १.५ है।
    • ध्यान दें कि यह नकारात्मक Q1 और Q3 मानों पर भी लागू होता है। उदाहरण के लिए, यदि Q1 = -70, तो इंटरक्वेर्टाइल रेंज 71.5 - (-70) = 141.5 है।
  7. 7 डेटासेट में मानों की "आंतरिक सीमाएं" खोजें। आउटलेयर मूल्यों का विश्लेषण करके निर्धारित किया जाता है - चाहे वे तथाकथित "आंतरिक सीमाओं" और "बाहरी सीमाओं" के भीतर आते हैं या नहीं। "आंतरिक सीमा" के बाहर एक मूल्य को "मामूली बाहरी" के रूप में वर्गीकृत किया जाता है, जबकि "बाहरी सीमा" के बाहर के मूल्य को "महत्वपूर्ण बाहरी" के रूप में वर्गीकृत किया जाता है। आंतरिक सीमाओं को खोजने के लिए, आपको इंटरक्वेर्टाइल रेंज को 1.5 से गुणा करना होगा; परिणाम को Q3 में जोड़ा जाना चाहिए और Q1 से घटाया जाना चाहिए। पाए गए दो नंबर डेटासेट की आंतरिक सीमाएँ हैं।
    • हमारे उदाहरण में, इंटरक्वेर्टाइल रेंज (71.5 - 70) = 1.5 है। आगे: 1.5 * 1.5 = 2.25। इस संख्या को Q3 में जोड़ा जाना चाहिए और आंतरिक सीमाओं को खोजने के लिए Q1 से घटाया जाना चाहिए:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • इस प्रकार, आंतरिक सीमाएँ 67.75 और 73.75 हैं।
    • हमारे उदाहरण में, केवल भट्ठी का तापमान - 300 डिग्री - इन सीमाओं से बाहर है और इसे एक महत्वहीन उत्सर्जन माना जा सकता है। लेकिन निष्कर्ष पर न जाएं - हमें यह निर्धारित करना होगा कि क्या यह तापमान एक महत्वपूर्ण बाहरी है।
  8. 8 डेटासेट की "बाहरी सीमाएँ" खोजें। यह उसी तरह से किया जाता है जैसे आंतरिक सीमाओं के लिए, सिवाय इसके कि इंटरक्वेर्टाइल रेंज को 1.5 के बजाय 3 से गुणा किया जाता है। परिणाम को Q3 में जोड़ा जाना चाहिए और Q1 से घटाया जाना चाहिए। पाए गए दो नंबर डेटासेट की बाहरी सीमाएँ हैं।
    • हमारे उदाहरण में, इंटरक्वेर्टाइल रेंज को 3: 1.5 * 3 = 4.5 से गुणा करें। बाहरी सीमा की गणना करें:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • तो बाहरी सीमाएँ 65.5 और 76 हैं।
    • बाहरी सीमाओं के बाहर आने वाले किसी भी मूल्य को महत्वपूर्ण उत्सर्जन माना जाता है। हमारे उदाहरण में, ३०० डिग्री के भट्टी तापमान को एक महत्वपूर्ण झटका माना जाता है।
  9. 9 यह निर्धारित करने के लिए गुणात्मक अनुमान का उपयोग करें कि क्या आउटलेर्स को डेटासेट से बाहर रखा जाना चाहिए। ऊपर वर्णित विधि आपको यह निर्धारित करने की अनुमति देती है कि क्या कुछ मान आउटलेयर (मामूली या महत्वपूर्ण) हैं। हालांकि, कोई गलती न करें - एक मान जिसे एक बाहरी के रूप में वर्गीकृत किया गया है, वह अपवाद के लिए केवल एक "उम्मीदवार" है, जिसका अर्थ है कि आपको इसे बाहर करने की आवश्यकता नहीं है। बाहरी का कारण बाहरी को बाहर करने के निर्णय को प्रभावित करने वाला मुख्य कारक है। एक नियम के रूप में, त्रुटियों (माप, रिकॉर्डिंग, आदि में) के कारण होने वाले आउटलेयर को बाहर रखा गया है। दूसरी ओर, आउटलेयर त्रुटियों से नहीं बल्कि नई जानकारी या प्रवृत्ति से जुड़े होते हैं जिन्हें आमतौर पर डेटासेट में छोड़ दिया जाता है।
    • डेटासेट के माध्यिका पर आउटलेर्स के प्रभाव का आकलन करना भी उतना ही महत्वपूर्ण है (चाहे वे इसे विकृत करते हों या नहीं)। यह विशेष रूप से महत्वपूर्ण है जब आप किसी डेटासेट के माध्यिका से निष्कर्ष निकाल रहे हों।
    • हमारे उदाहरण में, यह बहुत कम संभावना है कि ओवन 300 डिग्री के तापमान तक गर्म हो जाएगा (जब तक कि हम प्राकृतिक विसंगतियों को ध्यान में नहीं रखते)। इसलिए, यह निष्कर्ष निकाला जा सकता है (उच्च स्तर की निश्चितता के साथ) कि ऐसा तापमान एक माप त्रुटि है जिसे डेटासेट से बाहर करने की आवश्यकता है। इसके अलावा, यदि आप आउटलेयर से इंकार नहीं करते हैं, तो डेटासेट का माध्यक (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 डिग्री होगा। लेकिन यदि आप बाहरी को हटा दें, तो माध्यिका (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 डिग्री होगी।
      • आउटलेयर आमतौर पर मानवीय त्रुटि का परिणाम होते हैं, इसलिए आउटलेर्स को डेटासेट से बाहर करने की आवश्यकता होती है।
  10. 10 डेटासेट में छोड़े गए (कभी-कभी) आउटलेयर के महत्व को समझें। कुछ आउटलेयर को डेटासेट से बाहर रखा जाना चाहिए क्योंकि वे त्रुटियों और तकनीकी समस्याओं के कारण हैं; अन्य आउटलेर्स को डेटासेट में छोड़ दिया जाना चाहिए। यदि, उदाहरण के लिए, एक बाहरी त्रुटि का परिणाम नहीं है और / या परीक्षण के तहत घटना की एक नई समझ प्रदान करता है, तो इसे डेटासेट में छोड़ दिया जाना चाहिए। वैज्ञानिक प्रयोग विशेष रूप से बाहरी लोगों के प्रति संवेदनशील होते हैं - गलती से एक बाहरी को हटाकर, आप कुछ नई प्रवृत्ति या खोज को याद कर सकते हैं।
    • उदाहरण के लिए, हम मत्स्य पालन में मछली के आकार को बढ़ाने के लिए एक नई दवा विकसित कर रहे हैं। हम पुराने डेटासेट ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) का उपयोग करेंगे, लेकिन इस बार प्रत्येक मान मछली के वजन का प्रतिनिधित्व करेगा (ग्राम में) अंतर्ग्रहण के बाद प्रायोगिक दवा। दूसरे शब्दों में, पहली दवा से मछली का वजन 71 ग्राम तक बढ़ जाता है, दूसरी दवा - 70 ग्राम तक, और इसी तरह। इस स्थिति में, 300 एक महत्वपूर्ण बाहरी है, लेकिन हमें इसे खारिज नहीं करना चाहिए; यदि हम मानते हैं कि कोई माप त्रुटि नहीं थी, तो प्रयोग में इस तरह की एक महत्वपूर्ण सफलता है। मछली के वजन को 300 ग्राम तक बढ़ाने वाली दवा अन्य दवाओं की तुलना में बहुत बेहतर काम करती है; इस प्रकार 300 डेटासेट में सबसे महत्वपूर्ण मान है।

टिप्स

  • जब आउटलेयर पाए जाते हैं, तो उन्हें डेटासेट से बाहर करने से पहले उनकी उपस्थिति की व्याख्या करने का प्रयास करें। वे माप त्रुटियों या वितरण विसंगतियों का संकेत दे सकते हैं।

आपको किस चीज़ की जरूरत है

  • कैलकुलेटर