Analisi di regressione lineare

La regressione lineare è una tecnica statistica utilizzata per saperne di più sulla relazione tra una variabile indipendente (predittore) e una variabile dipendente (criterio). Quando si ha più di una variabile indipendente nella propria analisi, si parla di regressione lineare multipla. In generale, la regressione consente al ricercatore di porre la domanda generale “Qual è il miglior predittore di …?”

Ad esempio, diciamo che stavamo studiando le cause dell’obesità, misurate dall’indice di massa corporea (BMI). In particolare, volevamo vedere se le seguenti variabili fossero predittori significativi del BMI di una persona: numero di pasti veloci consumati a settimana, numero di ore di televisione guardate a settimana, numero di minuti trascorsi a fare esercizio a settimana e BMI dei genitori . La regressione lineare sarebbe una buona metodologia per questa analisi.

L’equazione di regressione

Quando si esegue un’analisi di regressione con una variabile indipendente, l’equazione di regressione è Y = a + b * X dove Y è la variabile dipendente, X è la variabile indipendente, a è la costante (o intercetta) e b è la pendenza della linea di regressione. Ad esempio, supponiamo che GPA sia predetto al meglio dall’equazione di regressione 1 + 0.02 * IQ. Se uno studente avesse un QI di 130, il suo GPA sarebbe 3.6 (1 + 0.02 * 130 = 3.6).

Quando si esegue un’analisi di regressione in cui si dispone di più di una variabile indipendente, l’equazione di regressione è Y = a + b1 * X1 + b2 * X2 +… + bp * Xp. Ad esempio, se volessimo includere più variabili nella nostra analisi GPA, come misure di motivazione e autodisciplina, useremmo questa equazione.

R-Square

R-quadrato, noto anche come coefficiente di determinazione, è una statistica comunemente utilizzata per valutare l’adattamento del modello di un’equazione di regressione. Cioè, quanto sono brave tutte le tue variabili indipendenti a prevedere la tua variabile dipendente? Il valore di R-quadrato varia da 0.0 a 1.0 e può essere moltiplicato per 100 per ottenere una percentuale di varianza spiegata. Ad esempio, tornando alla nostra equazione di regressione GPA con una sola variabile indipendente (QI) … Diciamo che il nostro R-quadrato per l’equazione era 0.4. Potremmo interpretarlo nel senso che il 40% della varianza del GPA è spiegato dal QI. Se poi aggiungiamo le nostre altre due variabili (motivazione e autodisciplina) e il quadrato R aumenta a 0.6, ciò significa che QI, motivazione e autodisciplina insieme spiegano il 60% della varianza nei punteggi GPA.

Le analisi di regressione vengono in genere eseguite utilizzando software statistici, come SPSS o SAS, quindi l’R-square viene calcolato automaticamente.

Interpretazione dei coefficienti di regressione (b)

I coefficienti b delle equazioni precedenti rappresentano la forza e la direzione della relazione tra le variabili indipendenti e dipendenti. Se guardiamo l’equazione GPA e IQ, 1 + 0.02 * 130 = 3.6, 0.02 è il coefficiente di regressione per la variabile IQ. Questo ci dice che la direzione della relazione è positiva in modo che all’aumentare del QI, aumenta anche il GPA. Se l’equazione fosse 1 – 0.02 * 130 = Y, ciò significherebbe che la relazione tra QI e GPA era negativa.

Ipotesi

Esistono diverse ipotesi sui dati che devono essere soddisfatte per condurre un’analisi di regressione lineare:

  • Linearità: Si presume che la relazione tra le variabili indipendenti e dipendenti sia lineare. Sebbene questa ipotesi non possa mai essere completamente confermata, guardare un grafico a dispersione delle tue variabili può aiutare a fare questa determinazione. Se è presente una curvatura nella relazione, è possibile considerare di trasformare le variabili o di consentire esplicitamente componenti non lineari.
  • Normalità: Si presume che i residui delle variabili siano normalmente distribuiti. Cioè, gli errori nella previsione del valore di Y (la variabile dipendente) sono distribuiti in un modo che si avvicina alla curva normale. È possibile esaminare istogrammi o grafici di probabilità normale per esaminare la distribuzione delle variabili e i loro valori residui.
  • Indipendenza: Si presume che gli errori nella previsione del valore di Y siano tutti indipendenti l’uno dall’altro (non correlati).
  • omoschedasticità: Si presume che la varianza attorno alla retta di regressione sia la stessa per tutti i valori delle variabili indipendenti.

Fonte

  • StatSoft: Electronic Statistics Textbook. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.