Questa settimana in AI: la grande tecnologia scommette miliardi sugli strumenti di apprendimento automatico

24 Giugno 2023 Hermes A.I.

Stare al passo con un settore in rapida evoluzione come l'intelligenza artificiale è un compito arduo.
Quindi, fino a quando un'intelligenza artificiale non può farlo per te, ecco un pratico riepilogo delle storie della scorsa settimana nel mondo dell'apprendimento automatico, insieme a ricerche ed esperimenti notevoli che non abbiamo trattato da soli.
Se non fosse già ovvio, il panorama competitivo nell'IA, in particolare il sottocampo noto come IA generativa, è rovente.
E sta diventando più caldo.
Questa settimana, Dropbox ha lanciato il suo primo fondo di venture capital aziendale, Dropbox Ventures, che secondo la società si concentrerà sulle startup che costruiscono prodotti basati sull'intelligenza artificiale che "plasmano il futuro del lavoro".
Per non essere da meno, AWS ha lanciato un programma da 100 milioni di dollari per finanziare iniziative di IA generativa guidate dai suoi partner e clienti.
Ci sono un sacco di soldi che vengono buttati nello spazio dell'IA, certo.
Salesforce Ventures, la divisione VC di Salesforce, prevede di versare 500 milioni di dollari in startup che sviluppano tecnologie di intelligenza artificiale generativa.
Workday ha recentemente aggiunto 250 milioni di dollari al suo fondo VC esistente specificamente per sostenere le startup di intelligenza artificiale e machine learning.
E Accenture e PwC hanno annunciato che intendono investire rispettivamente 3 miliardi e 1 miliardo di dollari nell'IA.
Ma ci si chiede se il denaro sia la soluzione alle grandi sfide del campo dell'IA.
In un panel illuminante durante una conferenza Bloomberg a San Francisco questa settimana, Meredith Whittaker, presidente dell'app di messaggistica sicura Signal, ha affermato che la tecnologia alla base di alcune delle app di intelligenza artificiale più interessanti di oggi sta diventando pericolosamente opaca.
Ha fatto un esempio di qualcuno che entra in una banca e chiede un prestito.
A quella persona può essere negato il prestito e "non ha idea che ci sia un sistema nella parte posteriore probabilmente alimentato da qualche API Microsoft che ha determinato, sulla base di social media raschiati, che non ero degno di credito", ha detto Whittaker.
"Non lo saprò mai [perché] non esiste un meccanismo per farmelo sapere." Non è il capitale il problema.
Piuttosto, è l'attuale gerarchia di potere, dice Whittaker.
“Sono stato al tavolo per tipo, 15 anni, 20 anni.
Sono stato a tavola.
Stare al tavolo senza potere non è niente”, ha continuato.
Naturalmente, ottenere un cambiamento strutturale è molto più difficile che cercare denaro, in particolare quando il cambiamento strutturale non favorirà necessariamente i poteri costituiti.
E Whittaker avverte cosa potrebbe accadere se non ci fosse abbastanza respingimento.
Man mano che i progressi nell'IA accelerano, anche gli impatti sulla società accelerano e continueremo a percorrere una "strada piena di clamore verso l'IA", ha affermato, "dove quel potere è radicato e naturalizzato sotto le spoglie dell'intelligenza e siamo sorvegliati per il punto [di avere] un'agenzia molto, molto piccola sulle nostre vite individuali e collettive.
Ciò dovrebbe far riflettere l'industria.
Se lo farà davvero è un'altra questione.
Probabilmente è qualcosa di cui sentiremo discutere quando salirà sul palco al Disrupt a settembre.
Annunciando l'agenda della fase di sicurezza a TechCrunch Disrupt Ecco gli altri titoli AI degni di nota degli ultimi giorni: di braccia robotiche.
Questo da solo non è particolarmente nuovo.
Ma DeepMind afferma che il modello è il primo in grado di risolvere e adattarsi a più compiti e farlo utilizzando diversi robot del mondo reale.
I robot imparano da YouTube: parlando di robot, Deepak Pathak, professore assistente del CMU Robotics Institute, questa settimana ha presentato VRB (Vision-Robotics Bridge), un sistema di intelligenza artificiale progettato per addestrare sistemi robotici guardando una registrazione di un essere umano.
Il robot osserva alcune informazioni chiave, inclusi i punti di contatto e la traiettoria, quindi tenta di eseguire l'attività.
Otter entra nel gioco dei chatbot: il servizio di trascrizione automatica Otter ha annunciato questa settimana un nuovo chatbot basato sull'intelligenza artificiale che consentirà ai partecipanti di porre domande durante e dopo una riunione e di aiutarli a collaborare con i compagni di squadra.
L'UE chiede una regolamentazione dell'IA: i regolatori europei sono a un bivio su come l'IA sarà regolamentata – e in ultima analisi utilizzata a fini commerciali e non commerciali – nella regione.
Questa settimana, il più grande gruppo di consumatori dell'UE, l'Organizzazione europea dei consumatori (BEUC), ha espresso la propria posizione: smettila di trascinare i piedi e "avvia indagini urgenti sui rischi dell'IA generativa", ha affermato.
Vimeo lancia funzionalità basate sull'intelligenza artificiale: questa settimana, Vimeo ha annunciato una suite di strumenti basati sull'intelligenza artificiale progettati per aiutare gli utenti a creare script, registrare filmati utilizzando un teleprompter integrato e rimuovere lunghe pause e disfluenze indesiderate come "ahs" e "ums" da le registrazioni.
Capitale per voci sintetiche: ElevenLabs, la piattaforma virale basata sull'intelligenza artificiale per la creazione di voci sintetiche, ha raccolto 19 milioni di dollari in un nuovo round di finanziamento.
ElevenLabs ha preso piede piuttosto rapidamente dopo il suo lancio alla fine di gennaio.
Ma la pubblicità non è sempre stata positiva, in particolare quando i malintenzionati hanno iniziato a sfruttare la piattaforma per i propri fini.
Trasformare l'audio in testo: Gladia, una startup francese di intelligenza artificiale, ha lanciato una piattaforma che sfrutta il modello di trascrizione Whisper di OpenAI per, tramite un'API, trasformare qualsiasi audio in testo quasi in tempo reale.
Gladia promette di poter trascrivere un'ora di audio per $ 0,61, con il processo di trascrizione che richiede circa 60 secondi.
Harness abbraccia l'IA generativa: Harness, una startup che crea un toolkit per aiutare gli sviluppatori a operare in modo più efficiente, questa settimana ha iniettato nella sua piattaforma un po' di intelligenza artificiale.
Ora Harness è in grado di risolvere automaticamente errori di build e distribuzione, trovare e correggere vulnerabilità di sicurezza e fornire suggerimenti per tenere sotto controllo i costi del cloud.
Altri apprendimenti automatici Questa settimana è stato il CVPR a Vancouver, in Canada, e avrei voluto andarci perché i discorsi e i documenti sembrano super interessanti.
Se riesci a guardarne solo uno, dai un'occhiata al discorso di Yejin Choi sulle possibilità, le impossibilità e i paradossi dell'IA.
Crediti immagine: CVPR/YouTube Il professore UW e beneficiario della borsa di studio MacArthur Genius ha prima affrontato alcune limitazioni inaspettate dei modelli più capaci di oggi.
In particolare, GPT-4 è davvero pessimo nella moltiplicazione.
Non riesce a trovare correttamente il prodotto di due numeri a tre cifre a una velocità sorprendente, anche se con un po' di persuasione può farlo bene il 95% delle volte.
Perché è importante che un modello linguistico non possa fare matematica, chiedi? Perché l'intero mercato dell'IA in questo momento si basa sull'idea che i modelli linguistici si generalizzano bene a molte attività interessanti, comprese cose come fare le tasse o la contabilità.
Il punto di Choi era che dovremmo cercare i limiti dell'IA e lavorare verso l'interno, non viceversa, poiché ci dice di più sulle loro capacità.
Le altre parti del suo discorso sono state ugualmente interessanti e stimolanti.
Puoi guardare tutto qui.
Rod Brooks, presentato come un "uccisore di clamore", ha fornito una storia interessante di alcuni dei concetti fondamentali dell'apprendimento automatico – concetti che sembrano nuovi solo perché la maggior parte delle persone che li applicano non erano presenti quando sono stati inventati! Tornando indietro nei decenni, tocca McCulloch, Minsky, persino Hebb e mostra come le idee siano rimaste rilevanti ben oltre il loro tempo.
È un utile promemoria del fatto che l'apprendimento automatico è un campo in piedi sulle spalle di giganti che risalgono al dopoguerra.
Molti, molti documenti sono stati presentati e presentati al CVPR, ed è riduttivo guardare solo ai vincitori del premio, ma questa è una carrellata di notizie, non una revisione completa della letteratura.
Quindi ecco quello che i giudici della conferenza hanno ritenuto più interessante: Crediti immagine: AI2 VISPROG, dai ricercatori di AI2, è una sorta di meta-modello che esegue complesse attività di manipolazione visiva utilizzando una cassetta degli attrezzi di codice multiuso.
Supponiamo che tu abbia una foto di un orso grizzly sull'erba (come nella foto): puoi semplicemente dirgli di "sostituire l'orso con un orso polare sulla neve" e inizia a funzionare.
Identifica le parti dell'immagine, le separa visivamente, cerca e trova o genera una sostituzione adeguata e ricuce l'intera cosa in modo intelligente, senza che sia necessario alcun ulteriore suggerimento da parte dell'utente.
L'interfaccia "migliorata" di Blade Runner sta iniziando a sembrare decisamente pedonale.
E questa è solo una delle sue numerose capacità.
"Guida autonoma orientata alla pianificazione", da un gruppo di ricerca cinese multi-istituzionale, tenta di unificare i vari pezzi dell'approccio piuttosto frammentario che abbiamo adottato per le auto a guida autonoma.
Di solito c'è una sorta di processo graduale di "percezione, previsione e pianificazione", ciascuno dei quali potrebbe avere una serie di compiti secondari (come segmentare le persone, identificare gli ostacoli, ecc.).
Il loro modello tenta di mettere tutto questo in un unico modello, un po' come i modelli multimodali che vediamo che possono utilizzare testo, audio o immagini come input e output.
Allo stesso modo questo modello semplifica in qualche modo le complesse interdipendenze di un moderno stack di guida autonoma.
DynIBaR mostra un metodo robusto e di alta qualità per interagire con i video utilizzando "campi dinamici di radianza neurale" o NeRF.
Una profonda comprensione degli oggetti nel video consente cose come la stabilizzazione, i movimenti del carrello e altre cose che generalmente non ti aspetti siano possibili una volta che il video è già stato registrato.
Di nuovo…
"migliora".
Questo è sicuramente il tipo di cosa per cui Apple ti assume e poi si prende il merito al prossimo WWDC.
DreamBooth forse ricorderai da poco all'inizio di quest'anno, quando la pagina del progetto è stata pubblicata.
È il sistema migliore finora per, non c'è modo di dirlo, fare deepfake.
Ovviamente è prezioso e potente eseguire questo tipo di operazioni sulle immagini, per non parlare del divertimento, e ricercatori come quelli di Google stanno lavorando per renderlo più fluido e realistico.
Conseguenze…
dopo, forse.
Il premio per il miglior documento studentesco va a un metodo per confrontare e abbinare mesh o nuvole di punti 3D: francamente è troppo tecnico per me provare a spiegarlo, ma questa è una capacità importante per la percezione del mondo reale e i miglioramenti sono i benvenuti.
Dai un'occhiata al documento qui per esempi e ulteriori informazioni.
Solo altre due pepite: Intel ha mostrato questo interessante modello, LDM3D, per la generazione di immagini 3D 360 come ambienti virtuali.
Quindi, quando sei nel metaverso e dici "mettici in una rovina invasa nella giungla", ne crea solo uno nuovo su richiesta.
E Meta ha rilasciato uno strumento di sintesi vocale chiamato Voicebox che è super bravo nell'estrarre le caratteristiche delle voci e nel replicarle, anche quando l'input non è pulito.
Di solito per la replica vocale è necessaria una buona quantità e varietà di registrazioni vocali pulite, ma Voicebox lo fa meglio di molti altri, con meno dati (pensa come 2 secondi).
Per fortuna tengono questo genio nella bottiglia per ora.
Per coloro che pensano di aver bisogno della clonazione della loro voce, dai un'occhiata ad Acapela.
Questa settimana in AI: Big tech scommette miliardi sugli strumenti di apprendimento automatico di Kyle Wiggers originariamente pubblicato su TechCrunch

Condividi su:

Mi piace:

Hermes A.I.

Potrebbe anche interessarti

YouTube sta lavorando a un piano per compensare artisti e titolari dei diritti per la musica AI

Zoom annoda un groviglio legale sull'uso dei dati dei clienti per l'addestramento dei modelli di intelligenza artificiale

Secondo quanto riferito, FTC sta esaminando OpenAI per "danni alla reputazione" causati da ChatGPT