Regressione lineare

La regressione è un metodo statistico usato per prevedere un valore continuo basandosi su variabili note. Un esempio classico è la stima del prezzo di una casa utilizzando caratteristiche come dimensioni, località, ecc.

La regressione lineare

La regressione lineare è una delle tecniche di regressione più comuni.

In questa tecnica, si assume che ci sia una relazione lineare tra la variabile indipendente X (ad esempio, la dimensione di una casa) e la variabile dipendente Y (ad esempio, il prezzo della casa).

La relazione è espressa attraverso la formula:

$$ Y =a⋅X+b $$

Dove:

  • f(Y) rappresenta il valore predetto di Y (il prezzo della casa).
  • "a" è il coefficiente della variabile indipendente, che indica quanto Y cambia per ogni unità di cambiamento in X.
  • "b" è l'intercetta, che rappresenta il valore di Y quando X è zero.

Durante la fase di training di un modello di regressione lineare, si apprendono i valori ottimali dei coefficienti "a" e "b", dove "a" è la pendenza della retta e "b" l'intercetta.

L'obiettivo è trovare la linea, rappresentata dalla formula Y=aX+b, che meglio si adatta ai dati di training.

la formula f(Y)

Questo si realizza minimizzando una funzione di costo, che è una misura dell'errore tra i valori previsti dal modello e i valori reali nei dati di training.

Una misura chiave nella regressione lineare è il coefficiente di determinazione, noto anche come R2. Questo valore, che varia tra 0 e 1, indica quanto bene il modello si adatta ai dati. Un R2 vicino a 1 significa che il modello spiega bene la variabilità dei dati, mentre un valore vicino a 0 indica il contrario.

In generale, la regressione lineare con una sola variabile può essere limitata nella sua capacità di modellare complesse relazioni non lineari, poiché assume una relazione lineare diretta tra la variabile indipendente e quella dipendente.

Nel machine learning questo rischio è noto come underfitting.

Inoltre, può produrre previsioni inaccurate se i dati presentano una forte variabilità o sono influenzati da outlier, che possono distorcere la linea di regressione, perché la linea di regressione particolarmente sensibile ai valori anomali.

Gli outlier sono osservazioni nei dati che si discostano significativamente dalle altre.

La regressione lineare multipla

La regressione lineare multipla è una variante coinvolge più variabili indipendenti. Il modello è espresso come:

$$ f(Y)=a_1⋅X_1+a_2⋅X_2+...+a_n⋅X_n+b $$

La regressione lineare multipla trova applicazioni in numerosi campi, dalla finanza alla medicina, dall'ingegneria alla ricerca sociale.

Per esempio, può essere usata per prevedere le vendite future basandosi su dati storici o per studiare la relazione tra stile di vita e salute.

La regressione lineare è potente e versatile ma ha delle limitazioni. Funziona bene solo se la relazione tra le variabili è effettivamente lineare.

La regressione polinomiale

La regressione polinomiale è un modello di regressione in cui la variabile indipendente x è elevata alla potenza . In questo modo, il modello può adattarsi a curve più complesse nei dati.

$$ f(Y)=a_1⋅X_1+a_2⋅X^2_2+...+a_n⋅X^n_n+b $$

È utile in scenari dove la relazione tra variabili indipendenti e dipendenti è curvilinea.

la regressione polinomiale

La regressione polinomiale permette di catturare pattern più complessi, ma può portare a overfitting se il grado del polinomio è troppo elevato.

Anche la regressione polinomiale è considerata un modello lineare in quanto i pesi (coefficienti a1,...,an) sono ancora lineari.

Questa classificazione nei modelli "lineari" può sembrare controintuitiva, ma è basata sul modo in cui il modello si relaziona ai coefficienti, non alle variabili indipendenti. Nella regressione polinomiale, anche se le variabili indipendenti sono elevate a potenze superiori, creando termini come x2,x3,…xn, la relazione tra i coefficienti del modello e la variabile dipendente rimane lineare. Ciò significa che il modello si adatta ancora alla struttura di un modello lineare, dove ogni termine è moltiplicato per un coefficiente e sommato linearmente.




Non hai risolto il tuo problema? Scrivi una domanda




FacebookTwitterLinkedinLinkedin