Какво представлява статистиката на Chi-Square?
Чи-квадрат ( χ 2) statistic е тест, който измерва как очакванията се сравняват с реално наблюдаваните данни (или резултатите от модела). Данните, използвани при изчисляването на статистиката на хи-квадрат, трябва да бъдат произволни, сурови, взаимно изключващи се, извлечени от независими променливи и да са взети от достатъчно голяма извадка. Например резултатите от хвърлянето на монета 100 пъти отговарят на тези критерии.
Хи-квадратните тестове често се използват при тестване на хипотези.
Формулата за Chi-Square е
χc2 = ∑ (Oi − Ei) 2Eiwhere: c = степени на свободаO = наблюдавана (и) стойност (и) E = очаквана (и) стойност (и) начало {подравнено} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {където:} \ & c = \ текст {степени на свобода} \ & O = \ текст {наблюдавана стойност (и)} \ & E = \ текст {очаквана стойност (и) } \ \ край {подравнен} χc2 = ∑Ei (Oi −Ei) 2, където: c = степени на свободаO = наблюдавана стойност (и) E = очаквана стойност (и)
Какво ви казва статистиката на Chi-Square?
Има два основни вида хи-квадратни тестове: тестът за независимост, който задава въпрос за взаимоотношения, като например: „Има ли връзка между пол и SAT оценките?“; и тестът за доброто прилягане, който пита нещо от рода на „Ако монета е хвърлена 100 пъти, дали ще изплува глави 50 пъти и опашки 50 пъти?“
За тези тестове се използват степени на свобода, за да се определи дали определена нулева хипотеза може да бъде отхвърлена въз основа на общия брой променливи и проби в рамките на експеримента.
Например, когато разглеждаме студентите и избора на курса, размерът на извадката от 30 или 40 студенти вероятно не е достатъчно голям, за да генерира значителни данни. Получаването на едни и същи или подобни резултати от изследване, използващо размер на извадка от 400 или 500 ученици, е по-валидно.
В друг пример, помислете да хвърлите монета 100 пъти. Очакваният резултат от хвърлянето на честна монета 100 пъти е главите да се издигнат 50 пъти, а опашките да излязат 50 пъти. Действителният резултат може да е, че главите се появяват 45 пъти, а опашките - 55 пъти. Статистиката на хи-квадрат показва всякакви несъответствия между очакваните резултати и реалните резултати.
Пример за Chi-Squared тест
Представете си, че е проведена случайна анкета между 2000 различни избиратели, мъже и жени. Хората, които отговориха, бяха класифицирани по пол и независимо дали са републикански, демократични или независими. Представете си решетка с колоните, обозначени републикански, демократи и независими, и два реда, обозначени с мъже и жени. Да приемем, че данните от 2000 анкетирани са, както следва:
Първата стъпка за изчисляване на статистическата статистика на чи е да се намерят очакваните честоти. Те се изчисляват за всяка "клетка" в мрежата. Тъй като има две категории пол и три категории политически възгледи, има шест общи очаквани честоти. Формулата за очакваната честота е:
E (r, c) = n (r) × c (r) никъде: r = ред във въпросc = колона във въпросn = съответстваща сума \ начало {подравнено} & E (r, c) = \ frac {n (r) пъти c (r)} {n} \ & \ textbf {където:} \ & r = \ текст {въпрос във въпрос} \ & c = \ текст {въпросната колона} \ & n = \ текст {съответстващ общ} \ \ край {подравнен} E (r, c) = nn (r) × c (r), където: r = ред във въпросc = колона във въпросn = съответстваща сума
В този пример очакваните честоти са:
- E (1, 1) = (900 x 800) / 2 000 = 360E (1, 2) = (900 x 800) / 2 000 = 360E (1, 3) = (200 x 800) / 2 000 = 80E (2, 1) = (900 x 1200) / 2 000 = 540E (2, 2) = (900 x 1200) / 2 000 = 540E (2, 3) = (200 x 1, 200) / 2 000 = 120
На следващо място, те се използват стойности за изчисляване на статистиката на квадрат chi по следната формула:
Chi-квадрат = ∑2E (r, c) където: O (r, c) = наблюдавани данни за дадения ред и колона \ започва {подравнено} & \ текст {Chi-квадрат} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {където:} \ & O (r, c) = \ текст {наблюдавани данни за дадения ред и колона} \ \ край {подравнен} Chi-квадрат = ∑E (r, c) 2, където: O (r, c) = наблюдавани данни за дадения ред и колона
В този пример изразът за всяка наблюдавана стойност е:
- O (1, 1) = (400 - 360) 2/360 = 4.44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96 О (2, 2) = (600 - 540) 2/540 = 6, 67 О (2, 3) = (100 - 120) 2/120 = 3, 33
Статистиката с чи-квадрат след това се равнява на сумата от тези стойности, или 32.41. След това можем да разгледаме таблица с статистически данни с чи-квадрат, за да видим, предвид степените на свобода в нашата настройка, дали резултатът е статистически значим или не.