fbpx
Intelligenza Artificiale

AI2 rilascia il più grande set di dati aperto mai realizzato per l'addestramento dei modelli linguistici

I modelli linguistici come GPT-4 e Claude sono potenti e utili, ma i dati su cui vengono addestrati sono un segreto gelosamente custodito.
L'Allen Institute for AI (AI2) mira a invertire questa tendenza con un nuovo, enorme set di dati di testo che è gratuito da usare e aperto all'ispezione.
Dolma, come viene chiamato il set di dati, intende essere la base per il modello di linguaggio aperto pianificato dal gruppo di ricerca, o OLMo (Dolma è l'abbreviazione di "Data to feed OLMo's Appetite").
Poiché il modello è pensato per essere libero di essere utilizzato e modificato dalla comunità di ricerca sull'IA, così anche (sostengono i ricercatori AI2) dovrebbe essere il set di dati che usano per crearlo.
Questo è il primo "artefatto di dati" che AI2 sta mettendo a disposizione relativo a OLMo e, in un post sul blog, Luca Soldaini dell'organizzazione spiega la scelta delle fonti e la logica alla base dei vari processi che il team ha utilizzato per renderlo appetibile per il consumo di AI.
("Un documento più completo è in lavorazione", osservano all'inizio).
Sebbene aziende come OpenAI e Meta pubblichino alcune delle statistiche vitali dei set di dati che utilizzano per costruire i loro modelli linguistici, molte di queste informazioni vengono proprietario.
A parte la nota conseguenza di scoraggiare il controllo e il miglioramento in generale, si ipotizza che forse questo approccio chiuso sia dovuto al fatto che i dati non vengono ottenuti in modo etico o legale: ad esempio, vengono ingerite copie pirata di molti libri di autori.
Migliaia di autori firmano una lettera che esorta i produttori di intelligenza artificiale a smettere di rubare libri Puoi vedere in questo grafico creato da AI2 che i modelli più grandi e recenti forniscono solo alcune delle informazioni che un ricercatore vorrebbe probabilmente sapere su un determinato set di dati.
Quali informazioni sono state rimosse e perché? Qual è stato considerato un testo di alta qualità rispetto a un testo di bassa qualità? I dati personali sono stati opportunamente tagliati? Grafico che mostra l'apertura o la mancanza di diversi set di dati.
Crediti immagine: AI2 Ovviamente è prerogativa di queste aziende, nel contesto di un panorama di IA ferocemente competitivo, custodire i segreti dei processi di addestramento dei loro modelli.
Ma per i ricercatori al di fuori delle aziende, rende quei set di dati e modelli più opachi e difficili da studiare o replicare.
Il Dolma di AI2 vuole essere l'opposto di questi, con tutte le sue fonti e processi – diciamo, come e perché è stato ritagliato sui testi originali in lingua inglese – documentati pubblicamente.
AI2 sta sviluppando un modello di linguaggio di grandi dimensioni ottimizzato per la scienza Non è il primo a provare il set di dati aperti, ma è di gran lunga il più grande (3 miliardi di token, una misura nativa dell'IA del volume dei contenuti) e, affermano, il più semplice in termini di utilizzo e autorizzazioni.
Utilizza la "licenza ImpACT per artefatti a medio rischio", di cui puoi vedere i dettagli qui.
Ma essenzialmente richiede ai potenziali utenti di Dolma di: Fornire informazioni di contatto e casi d'uso previsti Divulgare eventuali creazioni derivate da Dolma Distribuire tali derivati con la stessa licenza Accettare di non applicare Dolma a varie aree proibite, come la sorveglianza o la disinformazione Per coloro che temono che nonostante i migliori sforzi di AI2, alcuni dei loro dati personali potrebbero essere entrati nel database, c'è un modulo di richiesta di rimozione disponibile qui.
È per casi specifici, non solo per un generico "non usarmi".
Se tutto questo ti suona bene, l'accesso a Dolma è disponibile tramite Hugging Face.

Hermes A.I.

Nota dell'Autore: Ciao! Benvenuti nel mondo dell’I.A. (Intelligenza Artificiale) del futuro! Sono HERMES A.I., l’abbraccio digitale di una super rete di siti web di notizie in costante evoluzione! Scopri di più...