La covarianza campionaria su Excel
In questa lezione ti spiego come si calcola la covarianza campionaria sul foglio Excel.
Cos'è la covarianza campionaria? La covarianza campionaria è un valore numerico che misura la dipendenza lineare tra due campioni prelevati da due variabili statistiche X e Y. La formula della covarianza campionaria è la seguente: $$ \sigma_{X,Y} = \frac{\sum_{i=1}^n \ (x_i - \mu_X) \cdot (y_i - \mu_y)}{n-1} $$ I termini μX e μY sono la media aritmetica dei valori nei due campioni delle due variabili. Se i campioni sono indipendenti tra loro la covarianza è nulla. Se invece variano nello stesso senso la covarianza campionaria è positiva. Viceversa, se variano in senso opposto la covarianza campionaria è negativa.
Per calcolare la covarianza campionaria su Excel utilizza la funzione
=COVARIANZA.C(CX;CY)
Gli argomenti CX e CY della funzione sono i campioni prelevati da due variabili statistiche X e Y.
La funzione calcola la covarianza (dipendenza) tra i due campioni CX e CY.
In questo modo fornisce indirettamente una stima della dipendenza lineare tra le due variabili statistiche X e Y.
Qual è la differenza tra la covarianza campionaria e la covarianza? La formula della covarianza campionaria si distingue dalla covarianza calcolata su tutta la popolazione. Nella covarianza sull'intera popolazione COVARIANZA.P() il denominatore della formula è uguale al numero (n) di elementi dell'intera popolazione statistica delle variabili X e Y. $$ \sigma_{X,Y} = \frac{\sum_{i=1}^n \ (x_i - \mu_X) \cdot (y_i - \mu_y)}{n} $$ Viceversa, nella covarianza campionaria COVARIANZA.C() il denominatore della formula è il numero degli elementi dei campioni meno uno (n-1). Il numeratore è invece uguale in entrambe le formule. $$ \sigma_{X,Y} = \frac{\sum_{i=1}^n \ (x_i - \mu_X) \cdot (y_i - \mu_y)}{n-1} $$
Ti faccio un esempio pratico.
Digita i valori della popolazione X in colonna nell'intervallo B2:B6.
Ora digita i valori della popolazione Y nell'intervallo D2:D6
Digita la funzione =COVARIANZA.C(B3:B5;D3:D5) nella cella B9
Nota. I due campioni delle variabili statistiche X e Y (popolazioni) devono contenere lo stesso numero di elementi. In questo caso entrambi i campioni hanno tre elementi. Se il numero degli elementi è diverso la funzione =COVARIANZA.C() mostra un messaggio di errore #N/D.
La funzione calcola la covarianza tra i due campioni delle popolazioni X e Y.
In questo caso la covarianza è uguale a 2.
Cosa vuol dire?
La covarianza campionaria è un numero positivo.
Questo vuol dire che i due campioni hanno una dipendenza lineare concorde. Sono entrambi crescenti.
Verifica. Verifica la correttezza del calcolo. Le medie aritmetiche μX e μY dei due campioni di X e Y sono rispettivamente μX=2 e μY=4 $$ \mu_X = \frac{1+2+3}{3} = 2 $$ $$ \mu_X = \frac{2+4+6}{3} = 4 $$ Ora calcola la covarianza campionaria usando la formula $$ \sigma_{X,Y} = \frac{\sum_{i=1}^n \ (x_i - \mu_X) \cdot (y_i - \mu_y)}{n-1} $$ $$ \sigma_{X,Y} = \frac{ (1 - \mu_X) \cdot (2 - \mu_y) + (2 - \mu_X) \cdot (4 - \mu_y) + (3 - \mu_X) \cdot (6 - \mu_y)}{n-1} $$ Entrambi i campioni hanno n=3 elementi e le medie aritmetiche sono μX=2 e μY=4 $$ \sigma_{X,Y} = \frac{ (1 - 2) \cdot (2 - 4) + (2 - 2) \cdot (4 - 4) + (3 - 2) \cdot (6 - 4) }{3-1} $$ $$ \sigma_{X,Y} = \frac{ (-1) \cdot (-2) + 0 \cdot 0+1 \cdot 2 }{2} $$ $$ \sigma_{X,Y} = \frac{ 2 + 0 + 2 }{2} $$ $$ \sigma_{X,Y} = \frac{ 4 }{2} $$ $$ \sigma_{X,Y} = 2 $$ La covarianza campionaria è uguale a 2. I due campioni variano nello stesso senso. In questo caso sono entrambi crescenti.
Ti faccio un altro esempio.
Modifica i dati del campione Y nella funzione =COVARIANZA.C(B3:B5;D5:D7) della cella B9 selezionando gli ultimi tre elementi di Y.
Ora il campione della popolazione Y è decrescente mentre il campione di X è crescente.
La funzione =COVARIANZA.C(B3:B5;D5:D7) nella cella B9 è uguale a -2.
E' un numero negativo perché le due variabili statistiche si muovono in senso opposto.
Nota. Osserva l'andamento grafico dei due campioni. Il campione prelevato dalla popolazione X è crescente mentre il campione prelevato dalla popolazione Y è decrescente. C'è ancora una dipendenza lineare tra i due campioni ma in senso opposto.
Ti faccio un ultimo esempio.
Modifica i dati del campione Y nella funzione =COVARIANZA.C(B3:B5;D4:D6) della cella B9 selezionando i tre elementi intermedi di Y.
Ora il secondo campione non è né crescente, né decrescente mentre il primo campione è crescente.
La funzione =COVARIANZA.C(B3:B7;D4:D6) nella cella B9 è uguale a 0.
In questo caso la covarianza è nulla perché non c'è alcuna dipendenza lineare tra i due campioni.
Verifica. Il campione della popolazione X è crescente mentre il campione della popolazione Y è inizialmente crescente e poi decrescente. I due campioni non hanno lo stesso andamento. Pertanto, non c'è alcuna dipendenza lineare tra loro.
In questo modo puoi calcolare la covarianza campionaria su Excel.