Какво представляват непараметричните статистически данни?
Непараметричната статистика се отнася до статистически метод, при който данните не се изискват за нормално разпределение. Непараметричната статистика използва данни, които често са порядъчни, което означава, че не разчита на числата, а по-скоро на класиране или подредба от сортове. Например, проучване, представящо предпочитанията на потребителите, вариращи от харесващи до неприязъчни, ще се счита за обикновени данни.
Непараметричната статистика включва непараметрични описателни статистически данни, статистически модели, изводи и статистически тестове. Структурата на модела на непараметричните модели не е определена априорно, а вместо това се определя от данни. Терминът непараметричен не означава, че в такива модели напълно липсват параметри, а по-скоро, че броят и естеството на параметрите са гъвкави и не се фиксират предварително. Хистограмата е пример за непараметрична оценка на вероятностното разпределение.
Разбиране на непараметричната статистика
В статистиката параметричната статистика включва параметри като средно, средно, стандартно отклонение, дисперсия и др. Тази форма на статистика използва наблюдаваните данни за оценка на параметрите на разпределението. При параметрична статистика се приема, че данните отговарят на нормално разпределение с неизвестни параметри μ (средна стойност на населението) и σ 2 (дисперсия на популацията), които след това се оценяват с помощта на средната проба и дисперсията на извадката.
Непараметричната статистика не предполага предположението за размера на извадката или дали наблюдаваните данни са количествени.
Непараметричната статистика не предполага, че данните се черпят от нормално разпределение. Вместо това формата на разпределението се оценява при тази форма на статистическо измерване. Въпреки че има много ситуации, в които може да се предположи нормално разпространение, има и някои сценарии, при които няма да е възможно да се определи дали данните ще бъдат нормално разпространявани.
Примери за непараметрична статистика
В първия пример помислете за изследовател, който иска оценка на броя на бебетата в Северна Америка, родени с кафяви очи, може да реши да вземе проба от 150 000 бебета и да направи анализ на набора от данни. Измерването, което те получават, ще бъде използвано за оценка на цялата популация на бебета с кафяви очи, родени на следващата година.
За втори пример помислете за друг изследовател, който иска да знае дали лягането рано или късно е свързано с това колко често човек се разболява. Ако приемем, че пробата е избрана на случаен принцип от популацията, разпределението на размера на извадката по честота на заболяването може да се приеме за нормално. Обаче експеримент, който измерва устойчивостта на човешкото тяло към щам бактерии, не може да се приеме, че има нормално разпределение.
Това е така, защото данните, избрани на случаен принцип, могат да бъдат устойчиви на щам. От друга страна, ако изследователят вземе предвид фактори като генетичен състав и етническа принадлежност, той може да открие, че избраният размер на пробата, използвайки тези характеристики, може да не е устойчив на щам. Следователно човек не може да приеме нормално разпределение.
Този метод е полезен, когато данните нямат ясна числена интерпретация и е най-добре да се използват с данни, които имат сортово класиране. Например, тестът за оценка на личността може да има класиране на неговите показатели, определени като силно несъгласни, несъгласни, безразлични, съгласни и категорично съгласни. В този случай трябва да се използват непараметрични методи.
Специални съображения
Непараметричната статистика спечели благодарение на тяхната лекота на използване. Тъй като необходимостта от параметри се облекчава, данните стават по-приложими при по-голямо разнообразие от тестове. Този тип статистика може да се използва без средното, размера на извадката, стандартното отклонение или оценката на други свързани параметри, когато никоя от тази информация не е налична.
Тъй като непараметричната статистика прави по-малко предположения за примерните данни, нейното приложение е по-широко в обхвата от параметричната статистика. В случаите, когато параметричното тестване е по-подходящо, непараметричните методи ще бъдат по-малко ефективни. Това е така, защото резултатите, получени от непараметричната статистика, имат по-ниска степен на доверие, отколкото ако резултатите са получени с помощта на параметрична статистика.
Ключови заведения
- Непараметричната статистика е лесна за използване, но не предлага точната точност на други статистически модели. Този тип анализ е най-подходящ, когато обмисляте реда на нещо, където дори и да се променят числовите данни, резултатите вероятно ще останат същите.