I confini dell’Intelligenza Artificiale: Osservazioni umane sulla formazione dei modelli di AI

L’addestramento dei modelli di Intelligenza Artificiale richiede un’infrastruttura massiccia e risorse computazionali considerevoli. Questo saggio esamina il processo di addestramento dei modelli AI attraverso una comparazione con l’apprendimento umano, il ruolo del cloud e le prospettive future.

L’evoluzione recente nell’Intelligenza Artificiale (AI) ha portato allo sviluppo di modelli di apprendimento sempre più complessi e impegnativi. Ad esempio, modelli come GPT, dotati di miliardi di parametri, richiedono elaborazioni che necessitano di una memoria enorme e sessioni di addestramento intense a livello energetico. Di conseguenza, queste attività richiedono un’infrastruttura di grande portata. Nella formazione dei modelli di AI, emergono due componenti fondamentali: i dati e la capacità di calcolo.

I modelli di AI attuali vengono addestrati su enormi set di dati, da cui imparano a svolgere compiti specifici. Il loro apprendimento procede in maniera realtivamente rapida e massiccia, a differenza dell’apprendimento umano che spesso si svolge in modo incrementale e diversificato, estendendosi per un lungo periodo di tempo. Pensa allo sviluppo del cervello di un bambino: il processo di apprendimento include osservazioni e scoperte attraverso un’ampia gamma di campi per numerosi anni. L’apprendimento umano è un processo più lento e incrementale rispetto all’addestramento massivo dei modelli di AI di oggi.

Due concetti chiave che risultano rilevanti in questo contesto sono la multimodalità e l’affinamento del modello.

Considerando la complessità del cervello umano, non è semplice definire come differenti informazioni interagiscano al suo interno. Ad esempio, non conosciamo la precisa correlazione tra leggere libri e migliorare in matematica, ma sappiamo che esiste un legame. Le competenze o le intuizioni acquisite da un’area possono tornare utili quando svolgiamo compiti in un altro campo. Ecco quindi che si sottolinea l’importanza del concetto di multimodalità, che potenzia la capacità di ragionamento di un modello.

Con lo sviluppo di LoRA, si è ottenuto un importante progresso in questo settore. Questo metodo consiste nell’addestramento focalizzato solamente sulle parti del modello che necessitano di miglioramento. Così, solo una piccola parte del modello viene affinata (<1%), ciò richiede molto meno memoria a confronto. Gli ulteriori parametri aggiunti, noti come LoRAs, agiscono come adattatori associati al compito. I modelli risultanti con adattatori possono essere considerati come esperti, efficaci nei loro rispettivi compiti. Vengono quindi definiti come LoRA Experts.

Tutto ciò introduce un nuovo concetto: formazione centralizzata per il modello base (come GPT) e formazione decentralizzata per i modelli esperti (adattatori LoRA). L’addestramento iniziale su larga scala avrebbe luogo in modo centralizzato per generare un modello base. Questo modello base sarà poi utilizzato in modo decentralizzato, con affinamenti relativamente piccoli, noti come adattatori LoRA, di specifico interesse per domaini particolari che richiedono adattamenti specifici ad aspectti produttivi del modello.

L’addestramento dei modelli di AI è una sfida notevole, tuttavia, con l’analisi dei punti di intersezione tra l’apprendimento umano e l’addestramento dei modelli, siamo sulla via giusta per ottenere progressi significativi. La futura ricerca dovrà concentrarsi sulla continuazione di questo percorso, exploreando ulteriormente la multimodalità, l’affinamento dei modelli e l’applicazione di Microsoft Azure e altre piattaforme cloud.