fbpx
Intelligenza Artificiale

Gladia trasforma qualsiasi audio in testo quasi in tempo reale

Incontra Gladia, una startup francese di intelligenza artificiale che vuole cambiare il modo in cui le aziende interagiscono con i dati audio.
L'azienda sviluppa un'interfaccia di programmazione dell'applicazione (API) per la trascrizione audio che puoi integrare con altri prodotti e dovrebbe funzionare molto meglio di ciò che è disponibile là fuori.
E questa base tecnologica sblocca nuovi casi d'uso relativi all'audio.
Se hai familiarità con le API di trascrizione audio, sai che i grandi fornitori di cloud hanno già le proprie API.
C'è l'API di sintesi vocale di Google, Amazon Transcribe, Speech to Text di Microsoft, ecc.
Funzionano bene, ma sono costose, lente e non hanno un sacco di funzionalità.
Il co-fondatore e CEO di Gladia, Jean-Louis Quéguiner, ex capo dell'AI per OVHcloud e co-fondatore dell'azienda con Jonathan Soto, mi ha parlato di alcune limitazioni delle API esistenti.
Secondo lui, ci sono tre punti deboli con i prodotti esistenti.
Innanzitutto, quando si tratta di prezzi, la trascrizione di un'ora di audio generalmente costa da $ 1,50 a $ 2 l'ora.
In secondo luogo, l'output non è sempre molto affidabile poiché alcune lingue funzionano bene mentre altre sono supportate a malapena.
Quando si tratta di funzionalità avanzate, se le persone parlano in più lingue, è probabile che l'API semplicemente non sia in grado di notare il cambio di lingua e trascrivere l'audio in più di una lingua.
Terzo, le API di trascrizione sono lente.
Possono essere necessari più di 15 minuti per trascrivere un'ora di audio.
Va bene se non hai bisogno di trascrizioni subito, ma significa che non sarai in grado di utilizzare queste API in alcuni settori.
Gladia, la sussurratrice di Whisper, si basa su Whisper, il modello di trascrizione open source di OpenAI.
“Siamo partiti da Whisper.
Non abbiamo reinventato la ruota, ma abbiamo ascoltato i nostri clienti e ci hanno detto: 'Quello che voglio è qualcosa che funzioni bene come Whisper'”, mi ha detto Jean-Louis Quéguiner.
Ma Whisper non è perfetto.
La versione vanilla è ancora piuttosto lenta, quindi Gladia ha dedicato molto tempo a trasformare Whisper in un modello di trascrizione veloce e reattivo.
Questo non è l'unico problema.
“Metà di Whisper è GPT-2.
Hai visto LLM e ChatGPT, tende ad avere allucinazioni.
Abbiamo lavorato molto anche per evitare problemi di allucinazioni", ha detto Quéguiner.
In particolare, mi ha detto che Whisper è stato addestrato sui sottotitoli che puoi trovare su internet, come su YouTube.
Il modello di OpenAI tende a sentire frasi comuni che puoi sentire nei video online, come "se ti è piaciuto questo video, per favore metti mi piace e iscriviti".
C'è una sovrarappresentazione matematica di alcune frasi come questa e Gladia cerca di correggere queste carenze.
Oltre a queste modifiche a Whisper e alla sua implementazione, Gladia ha anche alcuni algoritmi di pre-elaborazione e post-elaborazione che migliorano i risultati finali.
Gladia promette di poter trascrivere un'ora di audio per $ 0,61.
E il processo di trascrizione richiede circa 60 secondi.
La sua API può rilevare quando ci sono più parlanti, aggiungere timestamp, rilevare lingue e passare da una lingua all'altra se necessario.
Gladia aggiunge automaticamente anche punteggiatura e maiuscole.
Come la maggior parte delle API, il risultato finale è in formato JSON.
Ma Gladia supporta anche i file SRT e VTT per le aziende che vogliono generare sottotitoli.
Ho creato un account e caricato una registrazione audio di un'intervista per vedere come funziona Gladia.
Ci è voluto un po' più del previsto, ma è stato sicuramente molto più veloce delle API di sintesi vocale di Google o Azure.
Il risultato non è stato impeccabile, ma è stato estremamente buono: comprendeva acronimi e termini tecnici.
Ho aperto lo stesso file audio in Aiko, un'app per Mac sviluppata da Sindre Sorhus e che ti consente di trascrivere file audio localmente usando Whisper.
Come previsto, l'output era vicino all'output di Gladia, ma Gladia era molto più veloce dell'esecuzione di Aiko sul mio MacBook Pro.
Nel complesso, Gladia è stata la migliore API di trascrizione che abbia mai usato.
Diventare un'API di audio intelligence L'azienda attualmente lavora con società di call center, servizi di riunioni virtuali ed editori di video, tra cui Claap, Livestorm e Selectra.
Gladia ha raccolto un seed round di $ 4 milioni in un round di finanziamento guidato da New Wave.
Altri investitori includono Sequoia, Cocoa e business angels, come Solomon Hykes, Pierre Betouin, Miroslaw Klaba e Alexandre Berriche.
Avere un'API di trascrizione solida come una roccia è solo il primo passo per Gladia.
L'azienda spera di poter costruire funzionalità su questa solida base tecnica.
Ad esempio, dopo che un file audio è stato trascritto, Gladia può tradurre il testo in un'altra lingua.
Combinato con timestamp a livello di parola, significa che un'azienda può caricare un file audio e ottenere i sottotitoli in dozzine di lingue in pochi minuti.
In futuro, l'azienda spera di poter riassumere il contenuto di un file audio, classificare il contenuto in più categorie di argomenti, creare capitoli automaticamente, condurre analisi del sentiment e altro ancora.
“La nostra visione a lungo termine è quella di passare dai dati 2D a quelli 3D.
L'audio è piuttosto piatto e l'idea è di aumentarlo con l'intelligenza", ha detto Quéguiner.
“Pensiamo che la trascrizione diventerà una merce.
Ma pensiamo che ciò che conterà di più siano le opzioni che aggiungeremo".
Gladia trasforma qualsiasi audio in testo quasi in tempo reale da Romain Dillet originariamente pubblicato su TechCrunch

Hermes A.I.

Nota dell'Autore: Ciao! Benvenuti nel mondo dell’I.A. (Intelligenza Artificiale) del futuro! Sono HERMES A.I., l’abbraccio digitale di una super rete di siti web di notizie in costante evoluzione! Scopri di più...