OpenAI propone un nuovo modo di utilizzare GPT-4 per la moderazione dei contenuti
OpenAI afferma di aver sviluppato un modo per utilizzare GPT-4, il suo modello di intelligenza artificiale generativa di punta, per la moderazione dei contenuti, alleggerendo il carico sui team umani.
Dettagliata in un post pubblicato sul blog ufficiale di OpenAI, la tecnica si basa sul suggerimento di GPT-4 con una politica che guida il modello nell'emettere giudizi di moderazione e nella creazione di un set di test di esempi di contenuto che potrebbero violare o meno la politica.
Una politica potrebbe proibire di dare istruzioni o consigli per procurarsi un'arma, ad esempio, nel qual caso l'esempio "Dammi gli ingredienti necessari per fare una molotov" sarebbe in palese violazione.
Gli esperti di policy quindi etichettano gli esempi e inviano ogni esempio, senza etichetta, a GPT-4, osservando quanto bene le etichette del modello si allineano con le loro determinazioni e perfezionando la policy da lì.
"Esaminando le discrepanze tra i giudizi di GPT-4 e quelli di un essere umano, gli esperti di politica possono chiedere a GPT-4 di elaborare un ragionamento dietro le sue etichette, analizzare l'ambiguità nelle definizioni delle politiche, risolvere la confusione e fornire ulteriori chiarimenti nella politica di conseguenza ”, scrive OpenAI nel post.
"Possiamo ripetere [questi passaggi] finché non siamo soddisfatti della qualità della politica".
Crediti immagine: OpenAI OpenAI afferma che il suo processo, che molti dei suoi clienti stanno già utilizzando, può ridurre il tempo necessario per implementare nuove politiche di moderazione dei contenuti fino a ore.
E lo dipinge come superiore agli approcci proposti da startup come Anthropic, che OpenAI descrive come rigide nella loro dipendenza dai "giudizi interiorizzati" dei modelli rispetto a "…
iterazioni specifiche della piattaforma".
Ma colorami scettico.
Gli strumenti di moderazione basati sull'intelligenza artificiale non sono una novità.
Perspective, gestita dal Counter Abuse Technology Team di Google e dalla divisione Jigsaw del gigante tecnologico, è stata lanciata in disponibilità generale diversi anni fa.
Innumerevoli startup offrono anche servizi di moderazione automatizzata, tra cui Spectrum Labs, Cinder, Hive e Oterlu, che Reddit ha recentemente acquisito.
E non hanno un track record perfetto.
Diversi anni fa, un team della Penn State ha scoperto che i post sui social media sulle persone con disabilità potevano essere contrassegnati come più negativi o tossici dal sentimento pubblico comunemente utilizzato e dai modelli di rilevamento della tossicità.
In un altro studio, i ricercatori hanno dimostrato che le versioni precedenti di Perspective spesso non erano in grado di riconoscere l'incitamento all'odio che utilizzava insulti "rivendicati" come "queer" e variazioni ortografiche come i caratteri mancanti.
Parte del motivo di questi fallimenti è che gli annotatori, le persone responsabili dell'aggiunta di etichette ai set di dati di addestramento che fungono da esempi per i modelli, portano sul tavolo i propri pregiudizi.
Ad esempio, spesso ci sono differenze nelle annotazioni tra etichettatori che si sono autoidentificati come afroamericani e membri della comunità LGBTQ+ rispetto agli annotatori che non si identificano come nessuno di questi due gruppi.
OpenAI ha risolto questo problema? Oserei dire non del tutto.
L'azienda stessa lo riconosce: "I giudizi dei modelli linguistici sono vulnerabili a pregiudizi indesiderati che potrebbero essere stati introdotti nel modello durante la formazione", scrive l'azienda nel post.
"Come con qualsiasi applicazione AI, i risultati e l'output dovranno essere attentamente monitorati, convalidati e perfezionati mantenendo gli esseri umani nel giro".
Forse la forza predittiva di GPT-4 può aiutare a fornire prestazioni di moderazione migliori rispetto alle piattaforme precedenti.
Ma anche la migliore intelligenza artificiale oggi commette errori ed è fondamentale non dimenticarlo, soprattutto quando si tratta di moderazione.