Як вылічыць выкіды

Аўтар: Janice Evans
Дата Стварэння: 23 Ліпень 2021
Дата Абнаўлення: 1 Ліпень 2024
Anonim
Автомат Калашникова / АК-47 / Штурмовая винтовка (Анимация)
Відэа: Автомат Калашникова / АК-47 / Штурмовая винтовка (Анимация)

Задаволены

У статыстыцы выкіды - гэта значэння, рэзка адрозныя ад іншых значэнняў у сабраным наборы дадзеных. Выкід можа паказваць на анамаліі у размеркаванні дадзеных або на памылкі пры вымярэннях, таму часцяком выкіды выключаюцца з набору дадзеных. Выключыўшы выкіды з набору дадзеных, вы можаце прыйсці да нечаканых або больш дакладным высноў. Таму неабходна ўмець вылічаць і ацэньваць выкіды, каб забяспечыць належнае разуменне статыстычных дадзеных.

крокі

  1. 1 Навучыцеся распазнаваць патэнцыйны выкід. Перад тым, як выключаць якія вылучаюцца значэння з набору дадзеных, варта вызначыць патэнцыйныя выкіды. Выкіды з'яўляюцца значэннямі, якія моцна адрозніваюцца ад большасці значэнняў у наборы дадзеных; іншымі словамі, выкіды ляжаць па-за трэнду большасці значэнняў. Гэта лёгка выявіць у табліцах значэнняў або (асабліва) на графіках. Калі значэнні ў наборы дадзеных нанесці на графік, то выкіды будуць ляжаць далёка ад большасці іншых значэнняў. Калі, напрыклад, большасць значэнняў кладуцца на прамую, то выкіды ляжаць па абодва бакі ад такой прамой.
    • Напрыклад, разгледзім набор дадзеных, які ўяўляе тэмпературы 12 розных аб'ектаў у пакоі. Калі 11 аб'ектаў маюць тэмпературу прыкладна 70 градусаў, але дванаццаты месца (магчыма, печ) мае тэмпературу 300 градусаў, то хуткі прагляд значэнняў можа паказаць, што печ з'яўляецца верагодным выкідам.
  2. 2 Ўпарадкуйце дадзеныя па ўзрастанні. Першы крок пры вызначэнні выкідаў - гэта вылічэнне медыяны набору дадзеных. Гэтая задача значна спрашчаецца, калі значэння ў наборы дадзеных размешчаны па ўзрастанні (ад меншага да большага).
    • Працягваючы прыведзены вышэй прыклад, разгледзім наступны набор дадзеных, які ўяўляе тэмпературы некалькіх аб'ектаў: ​​{71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Гэты набор павінен быць упарадкаваны наступным чынам: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 3 Вылічыце медыяну набору дадзеных. Медыяна набору дадзеных - гэта велічыня, якая знаходзіцца ў сярэдзіне набору дадзеных. Калі набор даных змяшчае няцотная колькасць значэнняў, то медыяна - гэта значэнне, да якога і пасля якога размешчана аднолькавая колькасць значэнняў у наборы дадзеных. Але калі набор даных змяшчае цотная колькасць значэнняў, то трэба знайсці сярэдняе арыфметычнае двух сярэдніх значэнняў. Звярніце ўвагу, што пры вылічэнні выкідаў медыяна, як правіла, пазначаецца як Q2, так як яна ляжыць паміж Q1 і Q3 - ніжнім і верхнім квартилями, якія мы вызначым пазней.
    • Не бойцеся працаваць з наборамі дадзеных, у якіх цотная колькасць значэнняў - сярэднім арыфметычным двух сярэдніх значэнняў будзе лік, якога няма ў наборы даных; гэта нармальна. Але калі два сярэдніх значэння - гэта адно і тое ж лік, то сярэдняе арыфметычнае роўна гэтага ліку; гэта таксама ў парадку рэчаў.
    • У прыведзеным вышэй прыкладзе сярэднія 2 значэння - гэта 70 і 71, так што медыяна роўная ((70 + 71) / 2) = 70,5.
  4. 4 Вылічыце ніжні квартиль. Гэтая велічыня, якая пазначаецца як Q1, ніжэй якой ляжыць 25% значэнняў з набору дадзеных. Іншымі словамі, гэта палова значэнняў, размешчаных да медыяны. Калі да медыяны ляжыць цотная колькасць значэнняў з набору дадзеных, трэба знайсці сярэдняе арыфметычнае двух сярэдніх значэнняў, каб вылічыць Q1 (гэта аналагічна вылічэнню медыяны).
    • У нашым прыкладзе 6 значэнняў размешчаныя пасля медыяны і 6 значэнняў - да яе. Гэта азначае, што для вылічэнні ніжняга квартиля нам трэба знайсці сярэдняе арыфметычнае двух сярэдніх значэнняў з шасці значэнняў, якія ляжаць да медыяны. Тут сярэднія значэнні роўныя 70 і 70. Такім чынам, Q1 = ((70 + 70) / 2) = 70.
  5. 5 Вылічыце верхні квартиль. Гэтая велічыня, якая пазначаецца як Q3, вышэй якой ляжыць 25% значэнняў з набору дадзеных. Працэс вылічэнні Q3 аналагічны працэсу вылічэнні Q1, але тут разглядаюцца значэння, размешчаныя пасля медыяны.
    • У прыведзеным вышэй прыкладзе два сярэдніх значэння з шасці значэнняў, якія ляжаць пасля медыяны, роўныя 71 і 72. Такім чынам, Q3 = ((71 + 72) / 2) = 71,5.
  6. 6 Вылічыце межквартильный дыяпазон. Вылічыўшы Q1 і Q3, неабходна знайсці адлегласць паміж гэтымі велічынямі. Для гэтага Вылічаная Q1 з Q3. Значэнне межквартильного дыяпазону вельмі важна для вызначэння межаў значэнняў, якія не зьяўляюцца выкідамі.
    • У нашым прыкладзе Q1 = 70, а Q3 = 71,5. Межквартильный дыяпазон роўны 71,5 - 70 = 1,5.
    • Звярніце ўвагу, што гэта дастасоўна і да адмоўных значэнняў Q1 і Q3. Напрыклад, калі Q1 = -70, то межквартильный дыяпазон роўны 71,5 - (-70) = 141,5.
  7. 7 Знайдзіце «унутраныя межы» значэнняў у наборы дадзеных. Выкіды вызначаюцца праз аналіз значэнняў - трапляюць яны ці няма ў межы так званых «ўнутраных межаў» і «знешніх межаў». Значэнне, якое ляжыць па-за «ўнутраных межаў», класіфікуецца як «нязначны выкід», у той час як значэнне, якое знаходзіцца за «вонкавымі межамі», класіфікуецца як «значны выкід». Каб знайсці ўнутраныя межы, неабходна памножыць межквартильный дыяпазон на 1,5; вынік трэба дадаць да Q3 і адняць з Q1. Два знойдзеных колькасці з'яўляюцца ўнутранымі межамі набору дадзеных.
    • У нашым прыкладзе межквартильный дыяпазон роўны (71,5 - 70) = 1,5. Далей: 1,5 * 1,5 = 2,25. Гэтую лiчбу варта дадаць да Q3 і адняць яго з Q1, каб знайсці ўнутраныя мяжы:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Такім чынам, унутраныя межы роўныя 67,75 і 73,75.
    • У нашым прыкладзе толькі тэмпература печы - 300 градусаў - ляжыць па-за гэтымі межаў і можа лічыцца нязначным выкідам. Але не спяшаецеся з высновамі -Нам трэба будзе вызначыць, ці з'яўляецца гэтая тэмпература значным выкідам.
  8. 8 Знайдзіце «знешнія межы» набору дадзеных. Гэта робіцца такім жа чынам, як для ўнутраных межаў, за выключэннем таго, што межквартильный дыяпазон памнажаецца на 3, а не на 1,5. Вынік трэба дадаць да Q3 і адняць з Q1. Два знойдзеных колькасці з'яўляюцца знешнімі межамі набору дадзеных.
    • У нашым прыкладзе памножце межквартильный дыяпазон на 3: 1,5 * 3 = 4,5. Вылічыце знешнія межы:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Такім чынам, знешнія межы роўныя 65,5 і 76.
    • Любыя значэння, якія ляжаць за межамі знешніх межаў, лічацца значнымі выкідамі. У нашым прыкладзе тэмпература печы - 300 градусаў - лічыцца значным выкідам.
  9. 9 Скарыстайцеся якаснай ацэнкай для вызначэння таго, ці трэба выключаць выкіды з набору дадзеных. Метад, апісаны вышэй, дазваляе вызначыць, ці з'яўляюцца некаторыя значэння выкідамі (нязначнымі або значнымі). Тым не менш, не памыліцца - значэнне паводле класіфікацыі ў якасці выкіду, з'яўляецца толькі «кандыдатам» на выключэнне, то значыць, вы не абавязаны яго выключаць. Прычына ўзнікнення выкіду - гэта асноўны фактар, які ўплывае на рашэнне аб выключэнні выкіду. Як правіла, выкіды, якія ўзнікаюць з-за памылкі (у вымярэннях, запісах і гэтак далей), выключаюцца. З іншага боку, выкіды, звязаныя няма з памылкамі, а з новай інфармацыяй або тэндэнцыяй, як правіла, пакідаюць у наборы дадзеных.
    • Не менш важна ацаніць уплыў выкідаў на медыяну набору дадзеных (скажаюць Ці яны яе ці не). Гэта асабліва важна ў тым выпадку, калі вы робіце высновы на аснове медыяны набору дадзеных.
    • У нашым прыкладзе вельмі малаверагодна, што печ нагрэецца да тэмпературы 300 градусаў (калі толькі не ўлічваць прыродныя анамаліі). Таму можна заключыць (з высокай доляй упэўненасці), што такая тэмпература - гэта памылка вымярэнняў, якую трэба выключыць з набору дадзеных. Больш за тое, калі вы не выключыце выкід, медыяна набору дадзеных будзе роўная (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 градусаў, але калі вы выключыце выкід, медыяна будзе роўная (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 градусаў.
      • Выкіды - гэта, як правіла, вынік чалавечых памылак, таму выкіды неабходна выключаць з набораў дадзеных.
  10. 10 Ўразумець важнасць (часам) выкідаў, якія пакідаюцца ў наборы дадзеных. Некаторыя выкіды павінны быць выключаны з набору дадзеных, так як іх прычынамі з'яўляюцца памылкі і тэхнічныя непаладкі; іншыя выкіды неабходна пакінуць у наборы дадзеных. Калі, напрыклад, выкід не з'яўляецца вынікам памылкі і / або дае новае разуменне тэставага з'явы, то яго трэба пакінуць у наборы дадзеных. Навуковыя эксперыменты асабліва адчувальныя да выкідаў - выключыўшы выкід па памылцы, вы можаце прапусціць некаторую новую тэндэнцыю або адкрыццё.
    • Напрыклад, мы распрацоўваем новы прэпарат для павелічэння памеру рыб у рыбнай гаспадарцы. Мы будзем выкарыстоўваць стары набор дадзеных ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), але на гэты раз кожнае значэнне будзе прадстаўляць масу рыбы (у грамах) пасля прыёму эксперыментальнага прэпарата. Іншымі словамі, першы прэпарат прыводзіць да павелічэння масы рыбы да 71 г, другі прэпарат - да 70 г і гэтак далей. У гэтай сітуацыі 300 - гэта значны выкід, але мы не павінны выключаць яго; калі выказаць здагадку, што не было памылак вымярэння, то такі выкід - гэта значны поспех у эксперыменце. Прэпарат, які павялічыў вага рыбы да 300 грамаў, дзейнічае значна лепш за іншых прэпаратаў; такім чынам, 300 - гэта самае важнае значэнне ў наборы дадзеных.

парады

  • Калі выкіды знойдзеныя, паспрабуйце растлумачыць іх наяўнасць да таго, як выключыць іх з набору дадзеных. Яны могуць паказваць на памылкі вымярэння або анамаліі у размеркаванні.

Што вам спатрэбіцца

  • калькулятар