Il coefficiente di correlazione su Excel
In questa lezione ti spiego come calcolare il coefficiente di correlazione sul foglio Excel
Cos'è il coefficiente di correlazione? E' un indicatore che misura la correlazione lineare tra due variabili statistiche. Si calcola tramite questa formula $$ \text{Correl(X,Y)} = \frac{\sum (x-\mu_x) \cdot (y-\mu_y)}{\sqrt{\sum (x-\mu_x)^2 \cdot \sum (y-\mu_y)^2}} $$ Dove μX e μY sono le medie aritmetiche di X e Y. Il coefficiente di correlazione lineare è un valore compreso tra +1 e -1.
- Se è vicino a +1, le due variabili sono correlate positivamente. Hanno lo stesso andamento. Ad esempio, se una cresce anche l'altra cresce o viceversa.
- Se è vicino a -1, le due variabili sono correlate negativamente. Hanno un andamento opposto. Se una cresce, l'altra diminuisce o viceversa.
- Se è vicino a 0 le due variabili non sono correlate tra loro. Sono indipendenti o poco correlate tra loro.
Per calcolare la correlazione lineare devi usare la funzione
=CORRELAZIONE(X;Y)
I parametri X e Y della funzione sono due aree del foglio Excel dove sono inseriti i valori delle due variabili statistiche.
La funzione restituisce la correlazione lineare delle due variabili X e Y
Nota. Il coefficiente di correlazione lineare ti fornisce anche un'idea sull'intensità della correlazione positiva o negativa delle due variabili. Ad esempio, i coefficienti +0.9 e +0.4 mostrano entrambi una correlazione lineare positiva. Tuttavia, il coefficiente +0.8 indica una correlazione molto più forte rispetto a +0.4. Se il coefficiente è +1 la correlazione lineare positiva è al 100% dei valori.
Ti faccio un esempio pratico.
Digita i dati della prima variabile statistica X nell'intervallo B3:B7 del foglio Excel.
Poi digita i dati della seconda variabile statistica Y nell'intervallo di celle D3:D7.
Nota. Le due variabili devono avere lo stesso numero di elementi. In questo caso hanno entrambi n=5 elementi. Quando le variabili hanno un numero diverso di elementi la funzione =CORRELAZIONE() restituisce un messaggio di errore #N/D.
Digita la funzione =CORRELAZIONE(B3:B7;D3:D7) nella cella B9
La funzione calcola il coefficiente di correlazione delle variabili X e Y.
In questo caso il coefficiente di correlazione è +1 perché le due variabili hanno lo stesso andamento (crescente o decrescente) al 100%.
Verifica. Se osservi l'andamento delle due variabili su un grafico puoi subito notare che sono entrambe crescenti. La correlazione positiva è perfetta.
Attenzione. La correlazione positiva non vuol dire necessariamente che le variabili siano crescenti. La correlazione è positiva anche quando le variabili sono entrambe decrescenti. La correlazione positiva ti dice soltanto che hanno lo stesso andamento (crescente o decrescente).
Ora modifica i dati, digita 2 nella cella D5
Dopo la modifica il coefficiente di correlazione scende a 0.87 nella cella B9
Vuol dire che le due variabili sono ancora correlate positivamente ma non più nel 100% dei casi.
Verifica. Osserva il grafico delle due variabili. Ora soltanto quattro volte su cinque c'è una correlazione positiva tra le due variabili.
Ti faccio un altro esempio.
Modifica i dati della variabile Y nelle celle D3:D7
Nella cella B9 il coefficiente di correlazione è -1 perché ora le due variabili hanno un andamento opposto.
Nota. In questo caso c'è una correlazione negativa perfetta. Quando una variabile cresce, l'altra diminuisce nel 100% dei casi.
Ti faccio un ultimo esempio.
Modifica i dati della variabile Y nell'intervallo D3:D7 in questo modo
Ora il coefficiente di correlazione è zero perché non c'è una correlazione tra le due variabili X e Y
Quando la variabile X cresce, la variabile Y a volte cresce altre volte decresce.
Nota. In questo caso nel grafico le due variabili non hanno lo stesso andamento, né un andamento opposto. Quindi, non sono correlate positivamente e nemmeno correlate negativamente. Sono indipendenti.
In questo modo puoi calcolare il coefficiente di correlazione su Excel.