Arthur, una startup di monitoraggio dell'apprendimento automatico, quest'anno ha beneficiato dell'interesse per l'IA generativa e ha sviluppato strumenti per aiutare le aziende a lavorare con gli LLM in modo più efficace.
Oggi sta rilasciando Arthur Bench, uno strumento open source per aiutare gli utenti a trovare il miglior LLM per un particolare set di dati.
Adam Wenchel, CEO e co-fondatore di Arthur, afferma che l'azienda ha riscontrato molto interesse per l'IA generativa e gli LLM, quindi si è impegnata molto nella creazione di prodotti.
Dice che oggi, e ammesso che sia passato meno di un anno dal rilascio di ChatGPT, le aziende non dispongono di un modo organizzato per misurare l'efficacia di uno strumento rispetto a un altro, ed è per questo che hanno creato Arthur Bench.
"Arthur Bench risolve uno dei problemi critici che sentiamo con ogni cliente che è [con tutte le scelte di modello], qual è il migliore per la tua particolare applicazione", ha detto Wenchel a TechCrunch.
Viene fornito con una suite di strumenti che puoi utilizzare per testare metodicamente le prestazioni, ma il valore reale è che ti consente di testare e misurare come si comporteranno i tipi di prompt che i tuoi utenti userebbero per la tua particolare applicazione rispetto a diversi LLM.
Crediti immagine: Arthur "Potresti potenzialmente testare 100 diversi prompt e poi vedere come due diversi LLM – come il modo in cui Anthropic si confronta con OpenAI – sui tipi di prompt che i tuoi utenti probabilmente useranno", ha detto Wenchel.
Inoltre, afferma che puoi farlo su larga scala e prendere una decisione migliore su quale modello è il migliore per il tuo particolare caso d'uso.
Arthur Bench viene rilasciato oggi come strumento open source.
Ci sarà anche una versione SaaS per i clienti che non vogliono affrontare la complessità della gestione della versione open source o che hanno requisiti di test più ampi e sono disposti a pagare per questo.
Ma per ora, Wenchel ha detto che si stanno concentrando sul progetto open source.
Il nuovo strumento arriva sulla scia del rilascio di Arthur Shield a maggio, una sorta di firewall LLM progettato per rilevare allucinazioni nei modelli, proteggendo al contempo da informazioni tossiche e fughe di dati privati.
Samsung e UNIVERSITY Esports: Un’Iniziativa Innovativa per le Università Italiane Samsung si unisce alla comunità…
``` Aumento degli investimenti di Amazon in Anthropic: una mossa strategica nel mondo dell'IA Amazon,…
Ripartenza della Serie A: DAZN e Sky pronti per una nuova stagione intensa La Serie…
This website uses cookies.