27 agosto 2008

Usare la regressione lineare semplice

Oggi inizio una nuova sezione: “Regressione e Forecasting con Excel”.
Gli articoli di questa sezione spiegano in modo semplice come utilizzare Excel per tracciare trend sfruttando le tecniche di regressione e come effettuare forecasting.
Cercherò di evitare al minimo possibile le formule statistiche.
Se ritenete opportuno, utilizzate come base il mio articolo e approfondite la parte delle formule su altre fonti.

Iniziamo con la regressione lineare semplice.
Quando la relazione attesa tra le variabili x e y è di tipo lineare, la variabile dipendente (y) è collegata alla variabile indipendente (x) da un fattore costante.
Per esempio, la vendita delle macchine (variabile dipendente) aumenta di un milione di unità se il tasso di interesse (varibile indipendente) decresce dell’1%.
Un altro esempio, i ricavi (variabile dipendente) aumentano di 100.000 Euro per ogni 10.000 Euro per spese in pubblicità (variabile indipendente).
Per determinare la retta di regressione (linea del best-fit, dall’inglese “maggiore aderenza”) si usa il metodo dei minimi quadrati (in inglese OLS: Ordinary Least Squares).
Il metodo dei minimi quadrati è una tecnica di ottimizzazione che permette di trovare una funzione che si avvicini il più possibile ad un'interpolazione dell’insieme di punti del piano.
In particolare la funzione trovata deve essere quella che minimizza la somma dei quadrati delle distanze dai punti dati. Questo metodo va distinto dall’interpolazione dove si richiede che la funzione calcolata passi esattamente per i punti dati.

Tracciare la best-fit line
Il metodo più facile per creare una best-fit line è utilizzare un grafico dove i dati sono visibili su sistema di assi XY.
Questa retta interpolerà lo scatter di punti minimizzando la somma dei quadrati delle distanze dei punti stessi dalla retta.
Proiettiamo lo scatter di punti, come in figura figura 1 (Vendite trimestrali in corrispondenza dei rispettivi trimestri).

Figura 1

Per ottenere ciò, selezionare le serie di dati “Trimestre” e “Actual” ed inserire un grafico a dispersione.

In questo caso le vendite trimestrali sono la variabile dipendente e il periodo di tempo (i trimestri) rappresenta la variabile indipendente
Aggiungiamo una trendline che passi per i punti del grafico.
Passi da seguire:
1)Cliccate su un punto della serie dei dati all’interno del grafico;
2)Tasto destro poi clicca su “Aggiungi linea di tendenza”;
3)All’interno dell’area “Opzione linea di tendenza”, cliccate su “Lineare” ed impostate lo stile di formattazione desiderato (Fig.2);

Figura 2

4) Attivate la casella “Visualizza l’equazione sul grafico”;
5) Attivate “Visualizza il valore R al quadrato sul grafico”;
6) Cliccate su “Chiudi”. Verrà mostrata la figura 3.

Figura 3

Equazione della retta di regressione:
Abbiamo richiesto la visualizzazione dell’equazione della retta di regressione sul grafico.
L’equazione è cruciale per l’analisi della regressione perché fornisce una formula specifica per la relazione tra la variabile dipendente e quella indipendente.
Per la regressione lineare, la funzione di regressione è costituita da una linea retta che ha la seguente equazione:

y=mx+b

y= variabile dipendente. Rappresenta il valore del trendline (vendite trimestrali) per un periodo specifico.
X= variabile indipendente. Nell’esempio è il periodo di tempo (trimestre).
m=l’inclinazione del trendline. Ci dice l’ammontare con cui le vendite aumentano per periodo.
B= l’intercetta dell’asse y, il punto di partenza dei valori del trand.

L’equazione della regressione dell’esempio è:
Y=1407x+25980.
Per determinare il primo punto del trendline, sostituire 1 ad x:
Y=1407*1+25980=261.207

Bontà del fitting (R²)
Quando si clicca “Visualizza il valore R al quadrato sul grafico”, Excel fornisce il valore della bontà dell’adattamento della regressione lineare stimata ai dati osservati (Fitting).
L'R² viene chiamato coefficiente di determinazione. Nelle regressioni lineari esso è semplicemente il quadrato del coefficiente di correlazione (vedi Determinare la correlazione tra dati). In questo contesto R² misura fino a che punto il modello consente di approssimare la realtà dei dati osservati.
L'R² sarà un numero compreso tra 0 e 1. Generalmente più il risultato è prossimo all’1, migliore è l’adattamento della retta ai dati osservati.
Valori sotto lo 0.7 indicano che il trendline non ha una buona aderenza per i dati.