Разлічыце выпадак

Аўтар: Charles Brown
Дата Стварэння: 8 Люты 2021
Дата Абнаўлення: 1 Ліпень 2024
Anonim
ЭЛЕКТРОСКУТЕР ЗАПАС ХОДА 100 км 1 АКБ SKYBOARD BR50-3000 pro max CITYCOCO SKYBOARD дальность поездки
Відэа: ЭЛЕКТРОСКУТЕР ЗАПАС ХОДА 100 км 1 АКБ SKYBOARD BR50-3000 pro max CITYCOCO SKYBOARD дальность поездки

Задаволены

А адхіленне альбо адхіленне у статыстыцы - гэта пункт дадзеных, які значна адрозніваецца ад астатніх пунктаў у выбарцы. Часта адхіляльнікі паказваюць статыстыку на разыходжанні або памылкі ў вымярэннях, пасля чаго яны могуць выдаліць адхіленне ад набору дадзеных. Калі яны на самой справе вырашаць выдаліць выкіды з набору дадзеных, гэта можа ўнесці істотныя змены ў высновы, зробленыя ў ходзе даследавання. Вось чаму важна разлічыць і вызначыць адхіленні, калі вы хочаце правільна інтэрпрэтаваць статыстычныя дадзеныя.

Крок

  1. Даведайцеся, як выявіць магчымыя адхіленні. Перш чым мы зможам вырашыць, ці выдаляць анамальныя значэнні з пэўнага набору дадзеных, мы, вядома, павінны спачатку вызначыць магчымыя адхіленні ў наборы дадзеных. Увогуле, выкіды - гэта кропкі дадзеных, якія значна адхіляюцца ад тэндэнцыі, якая фарміруе іншыя значэнні ў наборы - іншымі словамі, яны выстраляць іншых значэнняў. Звычайна гэта лёгка распазнаць у табліцах і (асабліва) у графіках. Калі набор дадзеных візуальна намаляваны, адхіленні будуць "далёкія" ад астатніх значэнняў. Напрыклад, калі большасць кропак у наборы дадзеных утвараюць прамую лінію, выкіды не будуць адпавядаць гэтай лініі.
    • Давайце паглядзім на набор дадзеных, які паказвае тэмпературу 12 розных аб'ектаў у пакоі. Калі тэмпература 11 аб'ектаў вагаецца на некалькі градусаў, максімум, каля 21 ° C, у той час як адзін аб'ект, духоўка, мае тэмпературу 150 ° C, вы з першага погляду можаце зразумець, што печ, верагодна, з'яўляецца выбыўшым.
  2. Сартаваць усе кропкі дадзеных ад самага нізкага да самага высокага. Першы крок пры разліку выкідаў - знайсці медыяну (альбо сярэдняе значэнне) набору дадзеных. Гэта задача становіцца нашмат прасцей, калі значэнні ў наборы знаходзяцца ў парадку ад самага нізкага да самага высокага. Таму, перш чым працягваць, адсартуйце значэнні ў наборы дадзеных, як гэта.
    • Працягнем прыклад вышэй. Вось наш набор дадзеных, які паказвае тэмпературу розных градусаў у пакоі ў градусах Фарэнгейта: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Калі мы сартуем значэнні ў наборы ад самага нізкага да самага высокага, гэта становіцца нашым новым наборам: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Вылічыце медыяну набору дадзеных. Медыяна набору дадзеных - гэта кропка дадзеных, дзе палова дадзеных знаходзіцца вышэй за яго, а палова дадзеных знаходзіцца ніжэй - гэта, па сутнасці, "цэнтр" набору дадзеных. Калі набор дадзеных утрымлівае няцотную колькасць балаў, медыяну знайсці лёгка - медыянай з'яўляецца кропка з такой колькасцю кропак вышэй, як ніжэй. Калі ёсць цотная колькасць балаў, паколькі няма аднаго цэнтра, вам трэба ўзяць сярэдняе значэнне двух цэнтральных пунктаў, каб знайсці медыяну. Пры разліку выкідаў на медыяну звычайна спасылаецца зменная Q2 - бо яна знаходзіцца паміж Q1 і Q3, першым і трэцім кватэлямі. Гэтыя зменныя мы вызначым пазней.
    • Няхай вас не бянтэжаць наборы дадзеных з цотнай колькасцю кропак - у сярэднім па двух сярэдніх кропках часта бывае лічба, якой няма ў самім наборы дадзеных - гэта нармальна. Аднак, калі дзве сярэднія кропкі аднолькавыя, сярэдняе, вядома, таксама будзе гэтай лічбай - таксама гэта Добра.
    • У нашым прыкладзе мы маем 12 балаў. Сярэднія два члены - пункты 6 і 7 - адпаведна 70 і 71. Такім чынам, медыяна нашага набору дадзеных - гэта сярэдняе значэнне гэтых двух пунктаў: ​​((70 + 71) / 2) =70,5.
  4. Вылічыце першы кватэр. Гэты пункт, які мы абазначаем са зменнай Q1, з'яўляецца пунктам дадзеных, ніжэй якога знаходзіцца 25 адсоткаў (альбо чвэрць) назіранняў. Іншымі словамі, гэта цэнтр усіх кропак у вашым наборы дадзеных ніжэй медыяна. Калі цотная колькасць значэнняў знаходзіцца ніжэй за медыяну, вам трэба зноў узяць сярэдняе з двух сярэдніх значэнняў, каб знайсці Q1, як вы маглі б зрабіць, каб вызначыць медыяну самастойна.
    • У нашым прыкладзе шэсць балаў вышэй за медыяну і шэсць балаў ніжэй за яе. Такім чынам, каб знайсці першы квартал, нам трэба ўзяць сярэдняе значэнне двух сярэдніх ачкоў у ніжніх шасці ачках. Акуляры 3 і 4 з шасці ніжніх - 70, таму іх сярэдняе значэнне ((70 + 70) / 2) =70. Такім чынам, наша значэнне для Q1 складае 70.
  5. Вылічыце трэці квартал. Гэты пункт, які мы абазначаем са зменнай Q3, з'яўляецца кропкай дадзеных, вышэй якой знаходзіцца 25 адсоткаў дадзеных. Пошук Q3 - гэта практычна тое ж самае, што Q1, за выключэннем таго, што мы разглядаем кропкі ў гэтым выпадку вышэй медыяна.
    • Працягваючы прыклад вышэй, мы бачым, што дзве сярэднія кропкі шасці пунктаў вышэй медыяны - 71 і 72. Сярэдняе значэнне гэтых двух пунктаў ((71 + 72) / 2) =71,5. Такім чынам, наша значэнне для Q3 складае 71,5.
  6. Знайдзіце міжквартыльны арэал. Цяпер, калі мы вызначылі Q1 і Q3, нам трэба вылічыць адлегласць паміж гэтымі дзвюма зменнымі. Вы можаце знайсці адлегласць паміж Q1 і Q3, адняўшы Q1 ад Q3. Значэнне, якое вы атрымліваеце для інтэрквартыльнага дыяпазону, мае вырашальнае значэнне для вызначэння межаў для кропак, якія не адхіляюцца ў вашым наборы дадзеных.
    • У нашым прыкладзе значэнні Q1 і Q3 складаюць 70 і 71,5 адпаведна. Каб знайсці інтэрквартыльны дыяпазон, мы разлічваем Q3 - Q1: 71,5 - 70 =1,5.
    • Гэта працуе, нават калі Q1, Q3 або абедзве лічбы адмоўныя. Напрыклад, калі б наша значэнне для Q1 было -70, міжквартыльны дыяпазон быў бы 71,5 - (-70) = 141,5, што правільна.
  7. Знайдзіце "Унутраныя абмежаванні" набору дадзеных. Вы можаце распазнаць адхіленні, вызначыўшы, ці ўваходзяць яны ў шэраг лікавых межаў; так званыя "унутраныя межы" і "знешнія межы". Кропка, якая выходзіць за ўнутраныя межы набору дадзеных, класіфікуецца як адна мяккае адхіленне, а кропка за межамі знешніх межаў класіфікуецца як адна крайні адхіленне. Каб знайсці ўнутраныя межы набору дадзеных, спачатку памножце інтэрквартыльны дыяпазон на 1,5. Дадайце вынік да Q3 і адніміце яго ад Q1. Два вынікі - гэта ўнутраныя межы вашага набору дадзеных.
    • У нашым прыкладзе інтэрквартыльны дыяпазон складае (71,5 - 70), альбо 1,5. Памножце гэта на 1,5, каб атрымаць 2,25. Мы дадаем гэты лік да Q3 і аднімаем яго ад Q1, каб знайсці ўнутраныя межы наступным чынам:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Такім чынам, унутраныя межы ёсць 67,75 і 73,75.
    • У нашым наборы дадзеных толькі тэмпература духоўкі - 300 градусаў па Фарэнгейце - знаходзіцца за межамі гэтага дыяпазону. Так што гэта можа быць мяккім адхіленнем. Аднак нам яшчэ трэба вызначыць, ці вельмі моцная гэтая тэмпература, таму давайце пакуль не будзем рабіць высновы.
  8. Знайдзіце "знешнія межы" набору дадзеных. Вы робіце гэта гэтак жа, як і з унутранымі межамі, з той толькі розніцай, што памножце міжквартыльную адлегласць на 3 замест 1,5. Затым вы дадаеце вынік да Q3 і аднімаеце ад Q1, каб знайсці знешнія абмежаванні.
    • У нашым прыкладзе мы памножым міжквартыльную адлегласць на 3, каб атрымаць (1,5 * 3) альбо 4,5. Цяпер мы можам знайсці знешнія межы гэтак жа, як і ўнутраныя:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Такім чынам, знешнія межы ёсць 65,5 і 76.
    • Кропкі дадзеных, якія ляжаць за межамі знешніх межаў, лічацца крайнімі адхіленнямі. У нашым прыкладзе тэмпература ў духоўцы, 300 градусаў па Фарэнгейце, значна перавышае вонкавыя межы. Такім чынам, тэмпература ў духоўцы безумоўна экстрэмальны выкід.
  9. Выкарыстоўвайце якасную ацэнку, каб вызначыць, ці варта вам «выкідваць» выпадак. З дапамогай вышэйапісанага метаду вы можаце вызначыць, ці з'яўляюцца некаторыя пункты мяккімі, экстрэмальнымі альбо наогул не выпадаюць. Але не памыліцеся - прызнанне пункту як несапраўднага робіць яго проста адным кандыдат выдаляецца з набору дадзеных, а не адразу выдаляецца кропка мусіць ператварыцца ў. прычына чаму выпадак адрозніваецца ад астатніх пунктаў у наборы, вырашальнае значэнне мае вызначэнне таго, ці варта выдаляць выпадак. Як правіла, выкіды, выкліканыя некаторай памылкай - напрыклад, памылкай у вымярэннях, у запісах альбо ў эксперыментальнай канструкцыі, - выдаляюцца. У адрозненне ад гэтага звычайна становяцца выкіды, якія не выкліканы памылкамі і якія раскрываюць новую, непрадказальную інфармацыю ці тэндэнцыі не выдалены.
    • Іншым крытэрыем, на які трэба звярнуць увагу, з'яўляецца тое, ці ўплываюць выкіды на сярэдняе значэнне набору дадзеных скажона або ўводзяць у зман. Гэта асабліва важна, калі вы плануеце рабіць высновы з сярэдняга набору дадзеных.
    • Давайце разгледзім наш прыклад. Паколькі найвышэйшы Малаверагодна, што печ дасягнула тэмпературы 300 ° F з-за нейкай непрадбачанай сілы прыроды, у нашым прыкладзе мы можам зрабіць амаль 100-працэнтную выснову, што печ была выпадкова ўключана, што выклікала анамальна высокія паказчыкі тэмпературы. Акрамя таго, калі мы не выдалім выпадак, сярэдняе з нашага набору дадзеных атрымаецца (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, а сярэдняя без выхад выходзіць да (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Паколькі адхіленне было выклікана чалавечай памылкай, і паколькі казаць пра тое, што сярэдняя тэмпература ў памяшканні была блізкай да 32 ° C, няправільна, мы павінны выбраць наш выпадак. выдаліць.
  10. Зразумейце важнасць (часам) захавання выкідаў. Хоць некаторыя выкіды варта выдаляць з набору дадзеных, таму што яны з'яўляюцца вынікам памылак альбо таму, што яны скажаюць вынікі ў зман, іншыя захады павінны быць захаваны. Напрыклад, калі выпадак быў правільна атрыманы (і, такім чынам, не вынікам памылкі), і / або калі ён прапануе новае разуменне з'явы, якую трэба вымераць, яго нельга адразу выдаляць. Навуковыя эксперыменты з'яўляюцца асабліва адчувальнай сітуацыяй, калі гаворка ідзе пра абыходжанні з няўдалымі асобамі - памылкова выдаленне выкіду можа азначаць выкідванне важнай інфармацыі пра новую тэндэнцыю альбо адкрыццё.
    • Напрыклад, уявіце, што мы распрацоўваем новы прэпарат, каб зрабіць рыбу ў рыбгасе больш буйной. Давайце скарыстаем наш стары набор дадзеных ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), з той розніцай, што кожная кропка зараз уяўляе масу рыбы (у грамах ) пасля лячэння іншым эксперыментальным прэпаратам з нараджэння. Іншымі словамі, першы прэпарат даваў адной рыбе масу 71 грам, другі даваў масе 70 грам і г.д. У гэтай сітуацыі 300 да гэтага часу велізарнае адхіленне, але мы не павінны выдаляць яго зараз. Таму што, калі мы зыходзім з таго, што выпадак не з'яўляецца вынікам памылкі, ён уяўляе вялікі поспех у нашым эксперыменце. Прэпарат, які даў 300-грамовую рыбу, дзейнічаў лепш, чым любы іншы наркотык, і гэта ўсё большасць важны пункт дадзеных у нашым наборы, а не мінімум важны пункт дадзеных.

Парады

  • Калі вы выявілі выпадак, паспрабуйце растлумачыць іх, перш чым выдаляць з набору дадзеных; яны могуць паказваць на памылкі вымярэння альбо адхіленні ў размеркаванні.

Неабходнасці

  • Калькулятар