OpenAI trascrive 1 milione di ore di video YouTube per addestrare GPT-4
Il dibattito sull’utilizzo dei dati per l’addestramento dell’Intelligenza Artificiale
La sfida della raccolta dati di alta qualità
All’inizio di questa settimana, il Wall Street Journal ha evidenziato le sfide che le aziende di intelligenza artificiale stanno affrontando nel raccogliere dati di addestramento di alta qualità.
Questo problema è stato ulteriormente dettagliato dal New York Times nelle ultime ore, evidenziando le pratiche discutibili messe in atto dalle aziende in questo contesto.
La questione legale dell’uso dei dati
Un esempio emblematico è rappresentato da OpenAI, che ha attirato l’attenzione per aver utilizzato oltre un milione di ore di video di YouTube per addestrare il suo avanzato modello di linguaggio GPT-4.
Anche se consapevole della questione legale, l’azienda ha giustificato tale azione come necessaria per garantire la competitività e la comprensione del mondo da parte dei propri modelli.
La problematica legale si estende anche a Google, coinvolto nell’addestramento dei propri modelli su contenuti YouTube.
Tuttavia, l’azienda ha sottolineato di seguire scrupolosamente gli accordi con i creatori di contenuti.
Approcci e possibili soluzioni
Di fronte al rischio che i dati di addestramento si esauriscano entro il 2028, le aziende stanno esplorando diverse strategie.
Uno dei possibili approcci è l’utilizzo di dati “sintetici” generati internamente, sebbene questa pratica debba ancora dimostrare la sua efficacia.
Un’altra via è rappresentata dal “curriculum learning”, che prevede un’organizzazione mirata dei dati per favorire una migliore comprensione da parte dei modelli.
Tuttavia, il dilemma rimane: da un lato la necessità di dati di alta qualità, dall’altro le restrizioni legali e etiche legate alla loro raccolta.
In un panorama in evoluzione come quello dell’Intelligenza Artificiale, risolvere questa equazione diventa una sfida fondamentale per il settore.