Какво е лъжлива корелация
В статистиката фалшивата корелация или фалшивостта се отнася до връзка между две променливи, която изглежда причинна, но не е. Ложните отношения често имат вид на една променлива, засягаща друга. Тази лъжлива корелация често е причинена от трети фактор, който не е очевиден по време на изследването, понякога наричан объркващ фактор.
Ключови заведения
- Лъжлива корелация или лъжливост е, когато два фактора изглеждат случайно свързани, но не са. Появата на причинно-следствената връзка често се дължи на подобно движение на графиката, което се оказва случайно или е причинено от трети "объркващ" фактор. Лоша корелация често могат да бъдат причинени от малки размери на пробата или произволни крайни точки.
Как действа фалшивата корелация
Когато две произволни променливи се следят внимателно една върху графиката, е лесно да се подозира корелация или връзка между двата фактора, когато промяната засяга другия. Като оставим настрана „причинно-следствена връзка“, друга тема, това наблюдение може да накара читателя на графиката да повярва, че движението на променлива А е свързано с движението в променлива В или обратно. но понякога, при по-внимателно статистическо изследване, подравнените движения са случайни или причинени от трети фактор, който влияе върху първите два. Това е лъжлива корелация. Изследванията, направени с малки размери на пробата или произволни крайни точки, са особености, податливи на фалшивост.
Пример за фалшиви корелации
Не е твърде предизвикателно да откриете интересни корелации. Мнозина обаче ще се окажат фалшиви. За мъжките видове на Уолстрийт две популярни лъжливи корелации включват жени и спорт. Произходът от 20-те години на миналия век е теорията за дължината на полата, според която дължините на полата и посоката на фондовия пазар са свързани. Ако дължината на полата е дълга, това означава, че борсовият пазар намалява; ако те са къси, пазарът се увеличава. Около края на януари се говори за така наречения Super Bowl индикатор, който предполага, че печалба от екипа на AFC вероятно означава, че борсата ще спадне през следващата година, докато победата на NFC екипа предвещава покачване на пазар. От 1966 г. индикаторът има степен на точност от 80%. Това е забавно парче за разговор, но вероятно не е нещо, което сериозният финансов съветник би препоръчал като инвестиционна стратегия за клиентите.
Ето още няколко примера за често срещани лъжливи корелации:
- Удавките се покачват, когато се увеличат продажбите на сладолед. Може да изглежда, че увеличените продажби на сладолед причиняват повече удавяне, но в действителност нарастващата жега може да накара повече хора да плуват, както и да купуват повече сладолед. Процентът на убийствата в САЩ от 2006-2011 г. спадна със същата скорост като Microsoft Internet Explorer Използване. Изпълнителите, които казват, моля и благодаря, по-често се радват на по-доброто споделяне на работата. Хората, които носят екипировка на екипа на Oakland Raiders, са по-склонни да извършват престъпления.
Как да откриете лъжливи корелации
Статистиците и другите учени, които анализират данни, трябва непрекъснато да наблюдават фалшиви отношения. Има много методи, които използват, включително:
- Осигуряване на подходяща представителна извадка. Получаване на адекватен размер на извадката. Внимание за произволни крайни точки. Контрол за възможно най-много външни променливи. Използване на нулева хипотеза и проверка за силна p-стойност.
