Machine Learning con rinforzo

Il Reinforcement Machine Learning ( RL o ML con rinforzo ) è un paradigma di apprendimento automatico basato sull'analisi dei feedback, premi e penalità. E' detto "con rinforzo" perché una ricompensa incoraggia i comportamenti corretti dell'agente.

Si fornisce alla macchina un obiettivo da raggiungere. La macchina trova la soluzione del problema per tentativi ed errori.

L'algoritmo analizza le risposte dell'ambiente in funzione di un obiettivo da raggiungere. Una funzione premia le azioni che lo avvicinano al raggiungimento dell'obiettivo e punisce quelle che lo allontanano.

In questo caso l'addestramento della macchina non si basa su un dataset di dati ( training set ). Pertanto, si distingue sia dal ML supervisionato che dal ML non supervisionato.

In generale, l'algoritmo RL modifica il proprio comportamento per ricevere più premi e ridurre al minimo le punizioni. Così facendo crea e perfeziona un modello decisionale o di classificazione.

Fanno parte del reinforcement learning i seguenti algoritmi di optimal action selection

  • Q-Learning
  • Double Q-Lerning
  • Deep Q-Network (DQN)
  • SARSA (State Action Reward State Action)
  • DDPG (Deep Deterministic Policy Gradient)
  • A3C
  • gli algoritmi genetici




Non hai risolto il tuo problema? Scrivi una domanda




FacebookTwitterLinkedinLinkedin