Nell’era dell’intelligenza artificiale (IA), i numeri sono spesso il linguaggio più eloquente per comprendere la portata delle sfide che ci attendono. Secondo dati approssimativi, l’aggiornamento dell’ultima versione di ChatGPT richiede circa 13 trilioni di token, equivalenti a singole parole o frammenti di frase. Questo volume di dati è già incredibilmente elevato, ma il futuro promette richieste ancora maggiori: si parla di 100 trilioni di token per i modelli successivi. Numeri che, secondo un rapporto della SRF, sollevano una domanda cruciale: ci sono abbastanza testi al mondo per sostenere questa fame di dati? Patrick Giedemann, ricercatore presso l’Università di Scienze Applicate di Zurigo, sottolinea una previsione inquietante: entro il 2026, i dati di qualità potrebbero esaurirsi. «Fino ad oggi, non è stata fatta una grande selezione sui testi utilizzati per l’addestramento», spiega Giedemann. Questo significa che una parte significativa dei dati potrebbe non solo essere di bassa qualità, ma anche protetta da copyright, il che ha già scatenato una serie di battaglie legali contro le aziende impegnate nell’IA. La questione della qualità e della legalità dei dati utilizzati per l’addestramento dei modelli di IA è diventata un tema caldo. Diverse aziende hanno dovuto affrontare cause legali per l’uso non autorizzato di testi protetti da copyright. Per mitigare questi problemi, molte realtà del settore hanno iniziato a stipulare accordi con case editrici e media per ottenere materiali di medio e alto livello in modo legale. Tuttavia, anche queste risorse potrebbero esaurirsi presto. «Prima o poi, anche questo materiale finirà», avverte Giedemann, «e senza dati di qualità, i futuri modelli avranno difficoltà a superare i loro predecessori. Anzi, il rischio è che l’intelligenza artificiale diventi più ‘stupida’». Una possibile soluzione per far fronte alla carenza di dati di qualità potrebbe essere l’uso di modelli di IA più piccoli, meno affamati di dati. Tuttavia, questa strada comporta delle limitazioni: modelli più piccoli non sono in grado di rispondere a tutte le domande con la stessa efficacia dei loro omologhi più grandi. «Non è stata ancora trovata una soluzione soddisfacente», ammette Giedemann, «sarà quindi interessante vedere se il prossimo ChatGPT sarà più potente dei predecessori». Il settore dell’intelligenza artificiale è quindi davanti a una scelta difficile: continuare a sviluppare modelli sempre più grandi e potenti, rischiando di esaurire rapidamente le risorse di dati di qualità, oppure trovare un modo per ottimizzare l’uso dei dati esistenti e sviluppare tecnologie che richiedano meno risorse. Questo dilemma riflette una tensione più ampia nel campo della tecnologia, dove l’innovazione spesso corre più velocemente della capacità di gestire le sue conseguenze. Il futuro dell’IA dipenderà in gran parte dalla capacità del settore di innovare non solo nei modelli e nelle applicazioni, ma anche nei metodi di raccolta e utilizzo dei dati. La collaborazione con enti di ricerca, editori e media sarà cruciale per garantire un flusso continuo di dati di alta qualità. Allo stesso tempo, sarà fondamentale sviluppare nuovi approcci all’addestramento dell’IA che possano fare di più con meno. La corsa verso intelligenze artificiali sempre più avanzate è inarrestabile, ma non priva di ostacoli. La sostenibilità dei dati è una delle sfide più urgenti che il settore deve affrontare. Mentre le aziende lavorano per trovare soluzioni, il rischio è che, senza un’adeguata gestione delle risorse, l’intelligenza artificiale del futuro possa non essere all’altezza delle aspettative. Solo con un approccio equilibrato e innovativo sarà possibile continuare a migliorare le capacità dell’IA senza compromettere la qualità e la legalità dei dati utilizzati.
La Fame Insaziabile di Dati: Il Futuro dell’Addestramento dell’Intelligenza Artificiale
Date: