Какъв е коефициентът на определяне?
Коефициентът на определяне е мярка, използвана в статистическия анализ, която оценява доколко един модел обяснява и прогнозира бъдещи резултати. Това е показателно за нивото на обяснена променливост в набора от данни. Коефициентът на определяне, известен още като "R-квадрат", се използва като ориентир за измерване на точността на модела.
Един от начините за интерпретиране на тази фигура е да се каже, че променливите, включени в даден модел, обясняват приблизително x% от наблюдаваната промяна. Така че, ако R2 = 0, 50, тогава приблизително половината от наблюдаваната промяна може да се обясни с модела.
R-квадрат
Ключови заведения
- Коефициентът на определяне е сложна идея, съсредоточена върху статистическия анализ на бъдещ модел от данни. Коефициентът на определяне се използва, за да обясни доколко променливостта на един фактор може да бъде причинена от връзката му с друг фактор.
Разбиране на коефициента на решителност
Коефициентът на определяне се използва, за да обясни доколко променливостта на един фактор може да бъде причинена от връзката му с друг фактор. В анализа на тенденциите се разчита силно и се представя като стойност между 0 и 1.
Колкото по-близо е стойността до 1, толкова по-добра е връзката или връзката между двата фактора. Коефициентът на определяне е квадратът на коефициента на корелация, известен също като "R", който му позволява да показва степента на линейна корелация между две променливи.
Тази корелация е известна като „доброто прилягане“. Стойност 1, 0 показва перфектно прилягане и по този начин е много надежден модел за бъдещи прогнози, което показва, че моделът обяснява всички наблюдавани вариации. Стойността на 0, от друга страна, означава, че моделът изобщо не успява точно да моделира данните. За модел с няколко променливи, като модел с множествена регресия, коригираният R2 е по-добър коефициент на определяне. В икономиката стойност на R2 над 0, 60 се счита за полезна.
Предимства на анализа на коефициента на определяне
Коефициентът на определяне е квадратът на корелацията между прогнозираните резултати в набор от данни спрямо действителния набор от резултати. Той може да се изрази и като квадрат на корелацията между X и Y оценките, като X е независимата променлива, а Y е зависимата променлива.
Независимо от представянето, R-квадрат, равен на 0, означава, че зависимата променлива не може да бъде предвидена с помощта на независимата променлива. И обратно, ако тя е равна на 1, това означава, че зависимостта на променлива винаги се прогнозира от независимата променлива.
Коефициентът на определяне, който попада в този диапазон, измерва степента, в която зависимата променлива се прогнозира от независимата променлива. R-квадрат от 0, 20 например означава, че 20% от зависимата променлива се прогнозира от независимата променлива.
Добротата на прилягане или степента на линейна корелация измерва разстоянието между монтирана линия на графика и всички точки от данни, които са разпръснати около графиката. Тесният набор от данни ще има регресионна линия, която е много близо до точките и има високо ниво на прилягане, което означава, че разстоянието между линията и данните е много малко. Доброто прилягане има R-квадрат, близък до 1.
R-квадратът обаче не е в състояние да определи дали данните или прогнозите са предубедени. Той също така не казва на анализатора или потребителя дали коефициентът на стойността на определяне е добър или не. Например, нисък R-квадрат не е лош и човекът трябва да вземе решение въз основа на числото R-квадрат.
Коефициентът на определяне не трябва да се тълкува наивно. Например, ако R-квадратът на модела е отчетен на 75%, дисперсията на неговите грешки е 75% по-малка от дисперсията на зависимата променлива, а стандартното отклонение на грешките му е 50% по-малко от стандартното отклонение на зависимия променлива. Стандартното отклонение на грешките на модела е около една трета от размера на стандартното отклонение на грешките, които бихте получили при модел само за постоянно.
И накрая, дори ако стойността на R-квадрат е голяма, може да няма статистическа значимост на обяснителните променливи в даден модел или ефективният размер на тези променливи може да е много малък на практика.