Indice di correlazione di Pearson

In statistica, l'indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare^[1], coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.^[1]

Secondo la disuguaglianza di Cauchy-Schwarz ha un valore compreso tra $+1$ e $-1,$ dove $+1$ corrisponde alla perfetta correlazione lineare positiva, $0$ corrisponde a un'assenza di correlazione lineare e $-1$ corrisponde alla perfetta correlazione lineare negativa. Fu sviluppato da Karl Pearson da un'idea introdotta da Francis Galton nel 1880; la formula matematica fu derivata e pubblicata da Auguste Bravais nel 1844.^[2]^[3]^[4] La denominazione del coefficiente è anche un esempio della legge di Stigler.

Definizione

Date due variabili statistiche $X$ e $Y$ , l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

\rho _{XY}={\frac {\sigma _{XY}}{\sigma _{X}\sigma _{Y}}}.

dove $\sigma _{XY}$ è la covarianza tra $X$ e $Y$ e $\sigma _{X},\sigma _{Y}$ sono le due deviazioni standard.

Il coefficiente assume sempre valori compresi tra $-1$ e $1:$ ^[5]

-1\leq \rho _{XY}\leq 1.

Correlazione e indipendenza

Nella pratica si distinguono vari "tipi" di correlazione.

Se $\rho _{XY}>0$ , le variabili $X$ e $Y$ si dicono direttamente correlate, oppure correlate positivamente;
se $\rho _{XY}=0$ , le variabili $X$ e $Y$ si dicono incorrelate;
se $\rho _{XY}<0$ , le variabili $X$ e $Y$ si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

se $0<\left|\rho _{XY}\right|<0,3$ si ha correlazione debole;
se $0,3<\left|\rho _{XY}\right|<0,7$ si ha correlazione moderata;
se $\left|\rho _{XY}\right|>0,7$ si ha correlazione forte.

Se le due variabili sono indipendenti allora l'indice di correlazione vale 0. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X:	-3	-2	-1	0	1	2	3
Y:	9	4	1	0	1	4	9

abbiamo che $X$ e $Y$ non sono indipendenti in quanto legate dalla relazione $Y=X^{2}$ , ma $\rho _{XY}=0$ .

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale $+1$ in presenza di correlazione lineare positiva perfetta (cioè $Y=a+bX$ , con $b>0$ ), mentre vale $-1$ in presenza di correlazione lineare negativa perfetta (cioè $Y=a+bX$ , con $b<0$ ).

Valori prossimi a $+1$ (o $-1$ ) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica: $Y=X^{2}$

X:	1	2	3	4
Y:	1	4	9	16

produce un coefficiente $\rho _{XY}=0,9844$ .

Generalizzazione a più di due variabili

Gli indici di correlazione di $n$ variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione $n\times n$ avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè $(\rho _{ji}=\rho _{ij})$ , e i coefficienti sulla diagonale valgono $1,$ in quanto

\rho _{ii}={\frac {\sigma _{ii}}{\sigma _{i}^{2}}}.

Proprietà matematiche

Un valore dell'indice di correlazione uguale a $+1$ o $-1$ corrisponde a punti che si trovano esattamente su una linea retta. Il coefficiente di correlazione di Pearson è simmetrico: $\rho _{XY}=\rho _{YX}.$

Una proprietà matematica caratteristica del coefficiente di correlazione di Pearson è che non varia rispetto ai cambiamenti singoli della posizione e della scala delle due variabili. Cioè, possiamo trasformare $X$ in $a+bX$ e trasformare $Y$ in $c+dY,$ dove $a,b,c$ e $d$ sono costanti reali con $b,d>0,$ senza modificare il coefficiente di correlazione.

Esempio in R

Utilizzando il linguaggio di programmazione R si vuole calcolare l'indice di correlazione di Pearson tra la variabile Fertility rate, total (births per woman) e la variabile GDP per capita (current US$) nel 2020 , fornite dalla Banca Mondiale qui : https://databank.worldbank.org/reports.aspx?source=world-development-indicators . Per fare questo si utilizza la funzione cor nel seguente modo :

library(dplyr)

World_Bank_Data <- read.csv("World_Bank_Data.csv")

df1 <- World_Bank_Data %>%
  filter(Series.Name=="Fertility rate, total (births per woman)") %>%
  select(Country.Name,X2020..YR2020.)

colnames(df1)[2] <- "Numero di figli per donna"

df2 <- World_Bank_Data %>%
  filter(Series.Name=="GDP per capita (current US$)"   ) %>%
  select(Country.Name,X2020..YR2020.)

colnames(df2)[2] <- "Pil procapite"

df1 <- merge(df1,df2 , by="Country.Name")

df1$`Numero di figli per donna` <- as.numeric(df1$`Numero di figli per donna`)
df1$`Pil procapite` <- as.numeric(df1$`Pil procapite`)

df1 <- df1[-which(is.na(df1$`Pil procapite`)),]
df1 <- df1[-which(is.na(df1$`Numero di figli per donna`)),]

cor(df1$`Numero di figli per donna`,df1$`Pil procapite`,)