Nel 2016, DeepMind di Alphabet è uscito con AlphaGo, un’intelligenza artificiale che ha costantemente battuto i migliori giocatori umani di Go. Un anno dopo, la filiale ha continuato a perfezionare il proprio lavoro, creando AlphaGo Zero. Laddove il suo predecessore ha imparato a giocare a Go osservando partite amatoriali e professionali, AlphaGo Zero ha dominato l’antico gioco semplicemente giocando contro se stesso. DeepMind ha quindi creato AlphaZero, che poteva giocare a Go, scacchi e shogi con un unico algoritmo. Ciò che legava tutte quelle IA era che conoscevano le regole dei giochi che dovevano padroneggiare durante il loro addestramento. L’ultima intelligenza artificiale di DeepMind, MuZero, non ha avuto bisogno di sapere le regole del go, degli scacchi, dello shogi e di una suite di giochi Atari per padroneggiarle. Invece, li ha imparati tutti da solo ed è altrettanto capace o migliore di qualsiasi algoritmo precedente di DeepMind.   

Creare un algoritmo in grado di adattarsi a una situazione in cui non conosce tutte le regole che governano una simulazione, ma può ancora trovare un modo per pianificare il successo è stata una sfida che i ricercatori di intelligenza artificiale hanno cercato di risolvere per un po ‘. DeepMind ha costantemente tentato di affrontare il problema utilizzando un approccio chiamato ricerca lookahead. Con questo metodo, un algoritmo prenderà in considerazione gli stati futuri per pianificare una linea di condotta. Il modo migliore per capire questo è pensare a come giochereste a un gioco di strategia come gli scacchi o Starcraft II. Prima di fare una mossa, considererai come reagirà il tuo avversario e proverai a pianificare di conseguenza. Più o meno allo stesso modo, un’IA che utilizza il metodo lookahead proverà a pianificare diverse mosse in anticipo. Anche con un gioco relativamente semplice come gli scacchi, è impossibile considerare ogni possibile stato futuro, quindi invece un’IA darà la priorità a quelli che hanno maggiori probabilità di vincere la partita.  

DeepMind

Il problema con questo approccio è che la maggior parte delle situazioni del mondo reale, e anche alcuni giochi, non hanno un semplice insieme di regole che governano il loro funzionamento. Quindi alcuni ricercatori hanno cercato di aggirare il problema utilizzando un approccio che tenta di modellare come un particolare gioco o ambiente di scenario influenzerà un risultato e quindi utilizzare quella conoscenza per fare un piano. Lo svantaggio di questo sistema è che alcuni domini sono così complessi che modellare ogni aspetto è quasi impossibile. Questo ha dimostrato di essere il caso della maggior parte dei giochi Atari, per esempio.      

Leggi anche  Facebook utilizza la sua IA per trovare soluzioni di accumulo di energia verde

In un certo senso, MuZero combina il meglio di entrambi i mondi. Piuttosto che modellare tutto, cerca solo di considerare quei fattori che sono importanti per prendere una decisione. Come sottolinea DeepMind, questo è qualcosa che fai come essere umano. Quando la maggior parte delle persone guarda fuori dalla finestra e vede le nuvole scure che si formano all’orizzonte, generalmente non si lascia prendere a pensare a cose come la condensa e i fronti di pressione. Pensano invece a come dovrebbero vestirsi per rimanere asciutti se escono. MuZero fa qualcosa di simile. 

DeepMind

Tiene conto di tre fattori quando deve prendere una decisione. Considererà il risultato della sua precedente decisione, la posizione attuale in cui si trova e la migliore linea di azione da intraprendere in seguito. Questo approccio apparentemente semplice rende MuZero l’algoritmo più efficace realizzato da DeepMind fino ad oggi. Durante i suoi test, ha scoperto che MuZero era buono quanto AlphaZero negli scacchi, nel Go e nello shogi, e migliore di tutti i suoi algoritmi precedenti, incluso Agent57, ai giochi Atari. Ha anche scoperto che più tempo concedeva a MuZero per considerare un’azione, meglio si comportava. DeepMind ha anche condotto test in cui poneva un limite al numero di simulazioni che MuZero poteva completare prima di impegnarsi in un trasloco Sig.ra Pac-Man. In quei test, ha scoperto che MuZero era ancora in grado di ottenere buoni risultati.   

Ottenere punteggi alti nei giochi Atari va bene, ma per quanto riguarda le applicazioni pratiche delle ultime ricerche di DeepMind? In una parola, potrebbero essere rivoluzionari. Anche se non ci siamo ancora arrivati, MuZero è il ricercatore più vicino a sviluppare un algoritmo generico. La filiale afferma che le capacità di apprendimento di MuZero potrebbero un giorno aiutarla ad affrontare problemi complessi in campi come la robotica, dove non ci sono regole semplici.