Biometrieübung 10
Lineare Regression

Formeln


Inhalt
Einfache, lineare Regression
Tabelle der Signifikanzschranken der F-Verteilung für P=0,05
Tabelle der Signifikanzschranken der F-Verteilung für P=0,01

Einfache, lineare Regression

einfachste funktionale Beziehung zwischen 2 Merkmalen
= einfache, lineare Regression

yi = + ß xi
und ß sind Populationsparameter

Gleichung = Gleichung für Gerade
= Schnittpunkt der Linie mit Y-Achse
ß = Steigung der Geraden
Die Beziehung wird durch eine Linie beschreiben.

Frage:      Wie findet man die Linie, die die Daten am besten "ausgleicht"?
Lösung:    Durch die Methode der kleinsten Quadrate.

jeder Wert x hat entsprechenden Wert y auf der Geraden
y = beobachteter Wert
= Wert auf der Geraden (geschätzt)

=> beobachteter Datenpunkt (xi, yi)
Punkt auf Regressionslinie = (xi,)
Kriterium der kleinsten Quadrate betrachtet die Abweichung jedes Punktes von der Linie, i.e. yi -

beste Anpassung:  kleinster Wert der Summe der Abweichungen für alle Punkte yi und

 

n = Anzahl Datenpunkte
und ß der Population nur dann zu berechnen, wenn alle Populationswerte vorliegen
=> und ß der Population auf Basis der n Beobachtungen schätzen

Regressionskoeffizient b

wird zuerst berechnet

y-Achsendurchgang

unendliche Anzahl Geraden mit identischer Steigung
spezielle Gerade bestimmt durch Steigung und ein Punktepaar x / y auf der Geraden
per Konvention der Punkt gewählt, an dem die Y-Achse durchschnitten wird

=> dort, wo x = 0
= Y - Achsendurchgang

es kann mathematisch gezeigt werden, daß der Punkt immer auf der Ausgleichsgeraden liegt, falls in Geradengleichung substituiert wird, folgt

damit folgt

Schätzung von Werten für y

falls a und b bekannt, kann für jeden x -Wert der entsprechende y -Wert bestimmt werden
falls Gerade gezeichnet werden soll: 2 Extreme nehmen
Schätzung von y nur für Bereich zulässig, für den Daten vorhanden sind

Voraussetzungen der Regressionsanalyse

  1. Linearität der Koeffizienten
  2. falls Variable xi nicht in linearer Form vorliegt, durch Transformation linearisieren (falls möglich) evtl. nichtlineare Regression anwenden
  3. yi - Werte für jeden Wert von x müssen normalverteilt sein
  4. Varianzen der yi-Werte müssen über den gesamten Merkmalsbereich homogen sein

Signifikanz der Regression

können Regressionsgerade herleiten und b bestimmen
b0
folgt daraus ß0 ?

Hypothese bilden
H0: ß = 0
HA: ß0
falls Schluß, das angemessene Wahrscheinlichkeit, daß kalkuliertes b aus Population mit ß = 0 kommt, wird H0 nicht verworfen

zuerst gesamte Variabilität der abhängigen Variablen kalkulieren

dann Variabilität, die daher stammt, daß Regressionsbeziehung existiert:

= SQ Regression

SQreg = SQges nur, falls alle Punkte auf der Regressionsgeraden liegen
falls Abweichungen von Regressionsgeraden (= wahrscheinlicher Fall)
=> Reststreuung/ Fehlerstreuung

 

Art SQ FG MQ F
Gesamt n-1    
Regression 1* SQ/1  
Residual n-2 SQ/(n-2)

* Anzahl Parameter, die geschätzt werden, -1, hier a und ß = 2 –1 = 1

F wird mit verglichen
falls F >
=> H0: ß = 0 verwerfen
=> d.h. Regressionsbeziehung gerechtfertigt

MQres wird oft auch als Standardfehler der Regression oder Standardfehler der Schätzung mit s2y,x bezeichnet => Varianz von y nachdem die Abhängig von y von x in Betracht gezogen wurde

der Anteil der Gesamtstreuung von y, der durch die Beziehung von y und x definiert wird, = Bestimtheitsmaß r2

r2 = SQreg / SQges


Letzte Änderung: 20.09.1999
Kontakt:
Wolfgang Stümer