Каква е сумата от квадрати?
Сумата от квадрати е статистическа техника, използвана при регресионен анализ за определяне на дисперсията на точките от данни. При регресионен анализ целта е да се определи доколко една поредица от данни може да бъде приспособена към функция, която може да помогне да се обясни как са генерирани сериите от данни. Сумата от квадратчета се използва като математически начин за намиране на функцията, която най-добре пасва (варира най-малко) от данните.
Формулата за сумата от квадрати е
За набор X от n елемента: Сума от квадрати = i = 0∑n (Xi −X) 2де: Xi = i-тият елемент в множествотоX = Средната стойност на всички елементи в множеството (Xi −X) = Отклонението на всеки елемент от средната стойност
Сумата от квадратчета също е известна като вариация.
Какво ви казва сумата от квадрати?
Сумата от квадрати е мярка за отклонение от средната стойност. В статистиката средната стойност е средната стойност на набор от числа и е най-често използваната мярка за централна тенденция. Аритметичната средна стойност се изчислява просто чрез сумиране на стойностите в набора от данни и разделяне на броя на стойностите.
Да речем, че затварящите цени на Microsoft (MSFT) през последните пет дни са 74, 01, 74, 77, 73, 94, 73, 61 и 73, 40 в щатски долари. Сумата от общите цени е 369, 73 долара и средната или средна цена на учебника би била 369, 73 долара / 5 = 73, 95 долара.
Но познаването на средната стойност на набор от измервания не винаги е достатъчно. Понякога е полезно да знаете колко вариации има в набор от измервания. Доколко отделните стойности са отделни от средните, може да дадат някаква представа за това доколко наблюденията или стойностите са подходящи за създадения регресионен модел.
Например, ако анализатор иска да знае дали цената на акциите на MSFT се движи в тандем с цената на Apple (AAPL), той може да изброи множеството наблюдения за процеса на двете акции за определен период, да речем 1, 2 или 10 години и създайте линеен модел с всяко от записаните наблюдения или измервания. Ако връзката между двете променливи (т.е. цената на AAPL и цената на MSFT) не е права линия, тогава има различни варианти в набора от данни, които трябва да бъдат разгледани.
Според статистиката, ако линията в създадения линеен модел не преминава през всички измервания на стойността, тогава част от променливостта, която е наблюдавана в цените на акциите, е необяснима. Сумата от квадрати се използва за изчисляване дали съществува линейна връзка между две променливи и всяка необяснима променливост се нарича остатъчна сума от квадрати.
Сумата от квадрати е сумата от квадрата на вариация, където вариацията се определя като спред между всяка отделна стойност и средната стойност. За да определите сумата от квадрати, разстоянието между всяка точка от данни и линията с най-добро прилягане се квадратира и след това се сумира. Линията с най-добро прилягане ще намали до минимум тази стойност.
Как да изчислим сумата на квадратите
Сега можете да видите защо измерването се нарича сумата на отклоненията в квадрат или сумата от квадрати за кратки. Използвайки нашия пример MSFT по-горе, сумата от квадрати може да се изчисли като:
- SS = (74.01 - 73.95) 2 + (74.77 - 73.95) 2 + (73.94 - 73.95) 2 + (73.61 - 73.95) 2 + (73.40 - 73.95) 2 SS = (0.06) 2 + (0.82) 2 + (- 0.01) 2 + (-0.34) 2 + (-0.55) 2 SS = 1.0942
Само добавянето на сумата на отклоненията без квадратура ще доведе до число, равно или близко до нула, тъй като отрицателните отклонения почти перфектно ще компенсират положителните отклонения. За да получите по-реалистично число, сумата на отклоненията трябва да бъде квадрат. Сумата от квадратчета винаги ще бъде положително число, защото квадратът на всяко число, независимо дали е положително или отрицателно, винаги е положително.
Пример за начина на използване на сумата от квадрати
Въз основа на резултатите от изчислението на MSFT, високата сума от квадрати показва, че повечето от стойностите са по-далеч от средната стойност и следователно има голяма променливост в данните. Ниска сума от квадратчета се отнася до ниска променливост в набора от наблюдения.
В горния пример 1.0942 показва, че променливостта в цената на акциите на MSFT през последните пет дни е много ниска и инвеститорите, които искат да инвестират в акции, характеризиращи се с ценова стабилност и ниска волатилност, могат да изберат MSFT.
Ключови заведения
- Сумата от квадрати измерва отклонението на точките от данни от средната стойност. По-високият резултат от сумата от квадрати показва голяма степен на променливост в набора от данни, докато по-ниският резултат показва, че данните се различават значително от средната стойност,
Ограничения при използването на сумата от квадрати
Вземането на инвестиционно решение какъв запас да закупите изисква много повече наблюдения от изброените тук. Може да се наложи анализаторът да работи с години, за да знае с по-голяма сигурност колко висока или ниска е променливостта на актива. С добавяне на повече точки от данни към набора, сборът от квадрати става по-голям, тъй като стойностите ще бъдат по-разпределени.
Най-широко използваните измерения на вариацията са стандартното отклонение и отклонението. За да се изчисли всяка от двете метрики обаче, първо трябва да се изчисли сумата от квадрати. Вариантът е средната стойност на сумата от квадрати (т.е. сумата от квадрати, разделена на броя на наблюденията). Стандартното отклонение е квадратният корен на дисперсията.
Има два метода на регресионен анализ, които използват сумата от квадрати: методът на най-малките линейни и методът на нелинейните най-малки квадрати. Методът на най-малките квадрати се отнася до факта, че регресионната функция минимизира сумата от квадратите на дисперсията от реалните точки на данни. По този начин е възможно да се изготви функция, която статистически осигурява най-доброто прилягане на данните. Обърнете внимание, че регресионната функция може да бъде линейна (права линия) или нелинейна (крива линия).