Како (и зашто) користити функцију Оутлиерс у Екцелу
Изузетак је вредност која је знатно већа или мања од већине вредности у вашим подацима. Када користите Екцел за анализу података, изванредни резултати могу искривити резултате. На пример, средњи просек скупа података може заиста одражавати ваше вредности. Екцел пружа неколико корисних функција које помажу у управљању вашим изванредним резултатима, па погледајмо.
Брзи пример
На доњој слици, крајње је лако уочити - вредност две додељене Ерицу и вредност 173 додељене Риану. У оваквом скупу података довољно је лако ручно уочити и решити те одступања.
У већем скупу података то неће бити случај. Важно је идентификовати крајње вредности и уклонити их из статистичких прорачуна - а то је оно што ћемо гледати у овом чланку.
Како пронаћи одступања у подацима
Да бисмо пронашли одступања у скупу података, користимо следеће кораке:
- Израчунајте 1. и 3. квартил (мало ћемо разговарати о томе шта су то).
- Процените међуквартилни опсег (то ћемо објаснити и мало даље).
- Вратите горњу и доњу границу нашег опсега података.
- Користите ове границе да бисте идентификовали удаљене тачке података.
Опсег ћелија десно од скупа података приказан на слици испод користиће се за чување ових вредности.
Хајде да почнемо.
Први корак: Израчунајте квартиле
Ако своје податке поделите на четвртине, сваки од тих скупова назива се квартил. Најнижих 25% бројева у опсегу чине 1. квартил, следећих 25% 2. квартил итд. Овај корак предузимамо прво јер је најчешће коришћена дефиниција одступања тачка података која је за више од 1,5 интерквартилних опсега (ИКР) испод 1. квартила и 1,5 интерквартилних опсега изнад 3. квартила. Да бисмо одредили те вредности, прво морамо да схватимо који су квартили.
Екцел пружа функцију КУАРТИЛЕ за израчунавање квартила. Потребне су две информације: низ и кварт.
= КВАРТИЛ (низ, кварт)
Тхе низ је опсег вредности који процењујете. И кварт је број који представља квартил који желите да вратите (нпр. 1 за 1. квартил, 2 за 2. квартил и тако даље).
Белешка: У програму Екцел 2010, Мицрософт је објавио функције КУАРТИЛЕ.ИНЦ и КУАРТИЛЕ.ЕКСЦ као побољшања функције КУАРТИЛЕ. КУАРТИЛЕ је уназад компатибилнији када радите у више верзија програма Екцел.
Вратимо се нашој табели примера.
За израчунавање 1. квартила можемо користити следећу формулу у ћелији Ф2.
= КВАРТИЛНИ (Б2: Б14,1)
Док уносите формулу, Екцел пружа листу опција за аргумент куарт.
Да бисмо израчунали 3. квартил, можемо унети формулу попут претходне у ћелију Ф3, али користећи тројку уместо једну.
= КВАРТИЛНИ (Б2: Б14,3)
Сада смо добили квартилне тачке података приказане у ћелијама.
Други корак: Процените интерквартилни опсег
Интерквартилни опсег (или ИКР) је средњих 50% вредности у вашим подацима. Израчунава се као разлика између вредности 1. квартила и вредности 3. квартила.
У ћелију Ф4 ћемо употребити једноставну формулу која одузима 1. квартил од 3. квартила:
= Ф3-Ф2
Сада можемо видети наш интерквартилни асортиман.
Трећи корак: Вратите доњу и горњу границу
Доња и горња граница су најмање и највеће вредности опсега података које желимо да користимо. Све вредности мање или веће од ових везаних вредности су изванредне вредности.
Израчунаћемо доњу границу у ћелији Ф5 множењем вредности ИКР са 1,5 и одузимањем од тачке података К1:
= Ф2- (1,5 * Ф4)
Белешка: Заграде у овој формули нису потребне јер ће се део множења израчунати пре дела одузимања, али формулу чини лакшом за читање.
Да бисмо израчунали горњу границу у ћелији Ф6, поново ћемо помножити ИКР са 1,5, али овог пута додати до К3 тачке података:
= Ф3 + (1,5 * Ф4)
Четврти корак: Идентификујте крајње вредности
Сада када смо поставили све основне податке, време је да идентификујемо своје спољне тачке података - оне које су ниже од вредности доње границе или веће од вредности горње границе.
Користићемо функцију ОР да извршимо овај логички тест и прикажемо вредности које испуњавају ове критеријуме уношењем следеће формуле у ћелију Ц2:
= ИЛИ (Б2 $ Ф $ 6)
Затим ћемо копирати ту вредност у наше ћелије Ц3-Ц14. Вредност ТРУЕ означава одступање, а као што видите, имамо две у нашим подацима.
Занемаривање крајњих вредности при израчунавању средњег просека
Коришћење функције КУАРТИЛЕ израчунајмо ИКР и радимо са најчешће кориштеном дефиницијом одступања. Међутим, приликом израчунавања средњег просека за распон вредности и занемаривања одступања, постоји бржа и лакша функција за употребу. Ова техника неће идентификовати странца као раније, али ће нам омогућити да будемо флексибилни са оним што бисмо могли сматрати својим страним делом.
Функција која нам је потребна назива се ТРИММЕАН, а синтаксу за њу можете видети у наставку:
= ТРИММЕАН (низ, проценат)
Тхе низ је опсег вредности које желите да просечите. Тхе проценат је проценат тачака података које треба изузети са врха и дна скупа података (можете га унети као проценат или децималну вредност).
Формулу испод унели смо у ћелију Д3 у нашем примеру да бисмо израчунали просек и изузели 20% одступања.
= ТРИММЕАН (Б2: Б14, 20%)
Тамо имате две различите функције за руковање изванредним ситуацијама. Без обзира да ли их желите идентификовати за неке потребе извештавања или их искључити из прорачуна као што су просеци, Екцел има функцију која одговара вашим потребама.