Տվյալների հավաքածուի վրա դրված ցուցիչների ամենատարածված պատճառները. հայտնաբերման մեթոդներ) Տվյալների մշակման սխալներ (տվյալների մանիպուլյացիա կամ տվյալների հավաքածուի չնախատեսված մուտացիաներ)
Ո՞րն է արտաքուստի հնարավոր պատճառը:
Կա արտանետումների երեք պատճառ՝ տվյալների մուտքագրում/Փորձի չափման սխալներ, նմուշառման խնդիրներ և բնական տատանումներ: Տվյալները փորձարկելիս/մուտքագրելիս կարող է սխալ առաջանալ: Տվյալների մուտքագրման ժամանակ տառասխալը կարող է սխալ արժեք մուտքագրել:
Ո՞րն է ամենից շատ ազդում արտանետումների վրա:
Միջինը, միջինը և ռեժիմը կենտրոնական միտումի չափումներ են: Միջինը կենտրոնական տենդենցի միակ չափումն է, որի վրա միշտ ազդում է արտաքուստ: Միջինը, միջինը, կենտրոնական միտումի ամենահայտնի չափումն է:
Արդյո՞ք միջակայքի վրա ամենաշատն են ազդում արտանետումները:
Այսպիսով, եթե մենք ունենք {52, 54, 56, 58, 60}-ի բազմություն, ապա կստանանք r=60−52=8, ուստի միջակայքը 8 է: Հաշվի առնելով այն, ինչ մենք հիմա գիտենք, ճիշտ է. ասեք, որ - ն ամենաշատը կազդի ռանի վրա:
Արդյո՞ք պետք է հեռացվեն տվյալներից արտանետումները:
Առաջնորդների հեռացումը օրինական է միայն հատուկ պատճառներով Անցյալները կարող են շատ տեղեկատվական լինել առարկայական ոլորտի և տվյալների հավաքագրման գործընթացի վերաբերյալ: … Outliers-ը մեծացնում է ձեր տվյալների փոփոխականությունը, ինչը նվազեցնում է վիճակագրական հզորությունը: Հետևաբար, արտանետումները բացառելը կարող է հանգեցնել ձեր արդյունքների վիճակագրորեն նշանակալի դառնալուն: