Съдържание
- Какво е Т-тест?
- Обясняване на Т-теста
- Нееднозначни резултати от теста
- Предположения за Т-тест
- Изчисляване на Т-тестове
- Съответстващ (или сдвоен) Т-тест
- T-тест с еднаква вариация (сбор)
- T-тест за неравномерна вариация
- Определяне кой Т-тест да се използва
- Пример за нееднакво измерение на Т-тест
Какво е Т-тест?
Т-тестът е вид инфекциозна статистика, използвана за определяне дали има значителна разлика между средствата на две групи, които могат да бъдат свързани по определени характеристики. Използва се най-вече, когато наборите от данни, като набора от данни, записан като резултат от прелистване на монета 100 пъти, ще последват нормално разпространение и може да имат неизвестни отклонения. Т-тестът се използва като инструмент за тестване на хипотези, който позволява тестване на предположение, приложимо за популация.
Т-тестът разглежда t-статистиката, стойностите на t-разпределението и степените на свобода, за да определи вероятността за разлика между два набора от данни. За да проведете тест с три или повече променливи, трябва да използвате анализ на дисперсията.
Т-тест
Обясняване на Т-теста
По същество t-тестът ни позволява да сравним средните стойности на двата набора от данни и да определим дали те са от една и съща популация. В горните примери, ако трябваше да вземем извадка от ученици от клас А и друга извадка от ученици от клас Б, не бихме очаквали те да имат точно същото средно и стандартно отклонение. По същия начин, пробите, взети от контролираната група, приемана с плацебо, и тези, взети от предписаната с лекарството група, трябва да имат малко по-различно средно и стандартно отклонение.
Математически t-тестът взема извадка от всеки от двата набора и установява изложението на проблема, като приема нулева хипотеза, че двете средства са равни. Въз основа на приложимите формули се изчисляват и сравняват определени стойности спрямо стандартните стойности и предполагаемата нулева хипотеза се приема или отхвърля съответно.
Ако нулевата хипотеза отговаря на изискванията за отхвърляне, това показва, че четенето на данни е силно и не е случайно. T-тестът е само един от многото тестове, използвани за тази цел. Статистиците трябва допълнително да използват тестове, различни от t-теста, за да разгледат повече променливи и тестове с по-голям размер на извадката. За голям размер на извадката статистиците използват z-тест. Други опции за тестване включват хи-квадрат тест и f-тест.
Има три типа t-тестове и те са категоризирани като зависими и независими t-тестове.
Ключови заведения
- Т-тестът е вид инфекциозна статистика, използвана за определяне дали има значителна разлика между средствата на две групи, които могат да бъдат свързани по определени характеристики. Т-тестът е един от многото тестове, използвани за тестване на хипотези в статистиката. Изчисляването на t-тест изисква три ключови стойности на данните. Те включват разликата между средните стойности от всеки набор от данни (наречени средна разлика), стандартното отклонение на всяка група и броя стойности на данните на всяка група. Има няколко различни типа t-тест, който може да се извърши в зависимост относно необходимите данни и вид на анализа.
Нееднозначни резултати от теста
Помислете, че производител на лекарства иска да тества ново изобретено лекарство. Следва стандартната процедура за изпробване на лекарството върху една група пациенти и даване на плацебо на друга група, наречена контролна група. Плацебото, дадено на контролната група, е вещество без планирана терапевтична стойност и служи като еталон за измерване как реагира другата група, на която е дадено действителното лекарство.
След изпитването за лекарства, членовете на контролната група, приемана с плацебо, отчитат увеличение на средната продължителност на живота от три години, докато членовете на групата, на които е предписано новото лекарство, отчитат увеличение на средната продължителност на живота от четири години. Незабавното наблюдение може да показва, че лекарството наистина работи, тъй като резултатите са по-добри за групата, използваща лекарството. Възможно е обаче наблюдението да се дължи на случайно събитие, особено изненадващо късмет. Т-тест е полезен, за да се заключи дали резултатите действително са правилни и приложими за цялата популация.
В едно училище 100 ученици в клас А са оценили средно 85% със стандартно отклонение от 3%. Други 100 ученици, принадлежащи към клас Б, са оценили средно 87% със стандартно отклонение от 4%. Въпреки че средната стойност на клас Б е по-добра от тази на клас А, може да не е правилно да се стига до извода, че общата ефективност на учениците в клас Б е по-добра от тази на учениците от клас А. Това е така, защото наред с означава, че стандартното отклонение на клас В също е по-високо от това на клас А. Това показва, че техните крайни проценти, от по-ниски и по-високи страни, са били много по-разпределени в сравнение с тези от клас А. Т-тест може да помогне да се определи кой клас се представи по-добре.
Предположения за Т-тест
- Първото предположение, направено по отношение на t-тестовете, се отнася до мащаба на измерване. Предположението за t-тест е, че измерваната скала, приложена към събраните данни, следва непрекъсната или порядъчна скала, като оценките за IQ тест. Второто предположение е направено от обикновена произволна извадка, че данните са събрани от представителна, избрана на случаен принцип част от общото население. Третото предположение са данните, когато се начертаят, водят до нормално разпределение, използва се звънна крива на разпределение. Четвъртото предположение е разумно голям размер на извадката. По-големият размер на извадката означава, че разпределението на резултатите трябва да се приближава до нормална крива във формата на камбана. Крайното предположение е хомогенността на дисперсията. Хомогенна или равна вариация съществува, когато стандартните отклонения на пробите са приблизително равни.
Изчисляване на Т-тестове
Изчисляването на t-тест изисква три ключови стойности на данни. Те включват разликата между средните стойности от всеки набор от данни (наречени средна разлика), стандартното отклонение на всяка група и броя на стойностите на данните на всяка група.
Резултатът от t-теста произвежда t-стойността. Тази изчислена t-стойност след това се сравнява със стойност, получена от таблица с критични стойности (наречена T-разпределителна таблица). Това сравнение помага да се определи колко вероятна е разликата между средствата, възникнала случайно или дали наборите от данни наистина имат присъщи разлики. Т-тестът задава въпроса дали разликата между групите представлява истинска разлика в изследването или е вероятно безсмислена статистическа разлика.
Таблици с Т-разпределение
Таблицата за разпределение на Т е налична във формат с една опашка и с две опашки. Първият се използва за оценка на случаи, които имат фиксирана стойност или диапазон с ясна посока (положителна или отрицателна). Например, каква е вероятността стойността на изхода да остане под -3 или да получи повече от седем, когато хвърляте чифт зарчета? Последният се използва за анализ, свързан с обхват, като например питане дали координатите падат между -2 и +2.
Изчисленията могат да се извършват със стандартни софтуерни програми, които поддържат необходимите статистически функции, като тези, открити в MS Excel.
T-ценности и степени на свобода
T-тестът произвежда две стойности като своя изход: t-стойност и степени на свобода. T-стойността е съотношение на разликата между средната стойност на двата набора проби и разликата, която съществува в рамките на набор от извадки. Докато стойността на числителя (разликата между средната стойност на двата извадкови набора) е проста за изчисляване, знаменателят (разликата, която съществува в наборите от извадки) може да стане малко сложен в зависимост от вида на съответните стойности на данни. Знаменателят на съотношението е измерване на дисперсията или променливостта. По-високите стойности на t-стойността, наречени също t-score, показват, че съществува голяма разлика между двата набора от проби. Колкото по-малка е t-стойността, толкова повече прилика има между двата набора проби.
- Голям t-резултат показва, че групите са различни. Малък t-score показва, че групите са сходни.
Степен на свобода се отнася до стойностите в изследване, което има свободата да варира и е от съществено значение за оценка на важността и валидността на нулевата хипотеза. Изчисляването на тези стойности обикновено зависи от броя на записаните данни в наличния набор от извадки.
Съответстващ (или сдвоен) Т-тест
Корелираният t-тест се провежда, когато пробите обикновено се състоят от съчетани двойки сходни единици или когато има случаи на повторни мерки. Например, може да има случаи на едни и същи пациенти да бъдат тествани многократно - преди и след получаване на определено лечение. В такива случаи всеки пациент се използва като контролна проба срещу себе си.
Този метод се прилага и за случаите, когато пробите са свързани по някакъв начин или имат съвпадащи характеристики, като сравнителен анализ, включващ деца, родители или братя и сестри. Корелираните или сдвоени t-тестове са от зависим тип, тъй като те включват случаи, когато двата набора проби са свързани.
Формулата за изчисляване на t-стойността и степените на свобода за сдвоен t-тест е:
- Средно1 и средно2 са средните стойности на всеки от извадковите набори, докато var1 и var2 представляват дисперсията на всеки от извадковите набори.
Останалите два вида принадлежат към независимите t-тестове. Пробите от тези типове са избрани независимо един от друг - тоест, наборите от данни в двете групи не се отнасят до едни и същи стойности. Те включват случаи като група от 100 пациенти, които са разделени на две групи по 50 пациенти всеки. Една от групите става контролната група и получава плацебо, докато другата група получава предписаното лечение. Това представлява две независими групи от извадки, които не са сдвоени.
Т-тест с еднаква вариация (или сбор)
T-тест за равна дисперсия се използва, когато броят на пробите във всяка група е еднакъв или дисперсията на двата набора от данни е сходна. Следната формула се използва за изчисляване на t-стойността и степента на свобода за t-тест с еднаква вариация:
T-стойност = n1 + n2−2 (n1−1) × var12 + (n2−1) × var22 × n11 + n21 средно1 - средно2, където: средно1 и средно2 = Средни стойности на единиците на пробата setvar1 и var2 = Вариант на всеки набор от пробиn1 и n2 = Брой записи във всеки набор от проби
и, Степен на свобода = n1 + n2−2, където: n1 и n2 = Брой записи във всеки набор от проби
T-тест за неравномерна вариация
T-тестът за неравномерна дисперсия се използва, когато броят на пробите във всяка група е различен и дисперсията на двата набора от данни също е различна. Този тест се нарича още t-тест на Welch. Следната формула се използва за изчисляване на t-стойност и степени на свобода за t-тест на неравномерна дисперсия:
T-стойност = n1var12 + n2var22 средно1 - средно2, където: средно1 и средно2 = Средни стойности на извадката от набор от пробиvar1 и var2 = Вариант на всеки от извадките от набор1 и n2 = Брой записи във всеки набор от проби
и, Степени на свобода = n1−1 (n1var12) 2 + n2−1 (n2var22) 2 (n1var12 + n2var22) 2, където: var1 и var2 = Вариант на всеки от пробните набориn1 и n2 = Число от записи във всеки набор от проби
Определяне на правилния T-тест за използване
Следващата блок-схема може да се използва, за да се определи кой t-тест трябва да се използва въз основа на характеристиките на пробите. Ключовите елементи, които трябва да бъдат разгледани, включват дали примерните записи са сходни, броя записи на данни във всеки набор от проби и дисперсията на всеки набор от извадки.
Изображение от Джули Банг © Инвестопедия 2019
Пример за тест на неравномерна вариация
Да приемем, че правим диагонално измерване на картини, получени в художествена галерия. Едната група от образци включва 10 картини, докато другата включва 20 картини. Наборите от данни със съответните средни и стойности на дисперсия са както следва:
Набор 1 | Задайте 2 | |
19.7 | 28.3 | |
20.4 | 26.7 | |
19.6 | 20.1 | |
17.8 | 23.3 | |
18.5 | 25.2 | |
18.9 | 22.1 | |
18.3 | 17.7 | |
18.9 | 27.6 | |
19.5 | 20.6 | |
21.95 | 13.7 | |
23.2 | ||
17.5 | ||
20.6 | ||
18 | ||
23.9 | ||
21.6 | ||
24.3 | ||
20.4 | ||
23.9 | ||
13.3 | ||
Означава | 19.4 | 21.6 |
вариране | 1.4 | 17.1 |
Въпреки че средната стойност на Set 2 е по-висока от тази на Set 1, не можем да заключим, че всички картини имат средна дължина около 21, 6 единици, тъй като дисперсията на Set 2 е значително по-висока от Set 1. Това случайно ли е или наистина съществуват различия сред цялото население на всички картини, получени в художествената галерия? Ние установяваме проблема, като приемаме нулевата хипотеза, че средната стойност е една и съща между двата извадкови набора и провеждаме t-тест, за да потвърдим дали хипотезата е вярна.
Тъй като броят на записите на данни е различен (n1 = 10 и n2 = 20) и дисперсията също е различна, t-стойността и степента на свобода се изчисляват за горния набор от данни, използвайки формулата, спомената в T-Test на неравната вариация. секция.
Стойността на t е -2.24787. Тъй като знакът минус може да се игнорира при сравняване на двете t-стойности, изчислената стойност е 2, 24787.
Стойността на стойността на свободата е 24, 38 и е намалена до 24, поради дефиницията на формулата, изискваща закръгляне на стойността до най-малкото възможно цяло число.
Всеки път, когато се приеме нормално разпределение, може да се определи ниво на вероятност (алфа ниво, ниво на значимост, p ) като критерий за приемане. В повечето случаи може да се приеме стойност от 5%.
Използвайки степента на стойността на свободата като 24 и 5% ниво на значимост, поглед към таблицата за разпределение на стойностите на t-стойността дава стойност 2.064. Сравняването на тази стойност с изчислената стойност 2, 224 показва, че изчислената стойност на t е по-голяма от табличната стойност при ниво на значимост от 5%. Следователно е безопасно да се отхвърли нулевата хипотеза, че няма разлика между средствата. Наборът от население има присъщи разлики и те не са случайни.
Сравнете инвестиционни сметки × Офертите, които се появяват в тази таблица, са от партньорства, от които Investopedia получава компенсация. Описание на името на доставчикаСвързани условия
Как работи анализът на вариацията (ANOVA) Анализът на дисперсията (ANOVA) е инструмент за статистически анализ, който разделя общата променливост, открита в набора от данни, на два компонента: случайни и систематични фактори. повече Определение на Z-тест z-тестът е статистически тест, използван за определяне дали две популационни средства са различни, когато са известни отклоненията и размерът на извадката е голям. повече Степени на свобода Определение Градусите на свободата се отнася до максималния брой логически независими стойности, които са стойности, които имат свобода да варират в извадката от данни. повече Разбиране на T Разпределението AT е вид вероятностна функция, която е подходяща за оценка на параметрите на популацията за малки размери на пробата или неизвестни отклонения. повече Какви мерки за полуотклонение Полу-отклонението е метод за оценка на колебанията на възвръщаемостта на инвестициите под средното ниво. Използва се като алтернатива на стандартното отклонение. още тест на Bonferroni А тестът Bonferroni е вид тест за многократно сравняване, използван при статистическия анализ. повече партньорски връзкиСвързани статии
икономика
Какви предположения се правят при провеждане на t-тест?
Управление на риска
Използване на историческа нестабилност за оценка на бъдещия риск
Фондова стратегия за търговия и образование
Как да използвате Excel за симулиране на цените на акциите
Финансови съотношения
Как да изчислите IRR в Excel?
Математика и статистика
Какво е относителна стандартна грешка
Финансови съотношения