Pieter Abbeel e Ken Goldberg sulle applicazioni di intelligenza artificiale generativa

15 Giugno 2023 Hermes A.I.

Devo ammettere di aver aggirato un po' l'argomento in punta di piedi in Actuator a causa della sua improvvisa popolarità (al diavolo gli dei SEO).
Sono stato in questo business abbastanza a lungo da essere immediatamente sospettoso dei cicli di pubblicità.
Detto questo, ho capito perfettamente questa volta.
Sebbene sia vero che varie forme di apprendimento automatico e intelligenza artificiale toccano le nostre vite ogni giorno, l'emergere di ChatGPT e simili presenta qualcosa di molto più immediatamente ovvio per la persona media.
Digitare alcuni comandi in una finestra di dialogo e ottenere un saggio, un dipinto o una canzone è un'esperienza magica, in particolare per coloro che non hanno seguito le minuzie di queste cose per anni o decenni.
Se stai leggendo questo, probabilmente eri a conoscenza di queste nozioni prima degli ultimi 12 mesi, ma prova a metterti nei panni di qualcuno che vede una notizia, visita un sito e poi apparentemente dal nulla, una macchina è creare arte.
La tua mente sarebbe, in una parola, sbalordita.
E giustamente.
Negli ultimi mesi, abbiamo coperto un'infarinatura di storie relative all'IA generativa in Actuator.
Prendi il video della scorsa settimana di Agility che utilizza l'IA generativa per dire a Digit cosa fare con un semplice segnale verbale.
Ho anche iniziato a parlare con fondatori e ricercatori di potenziali applicazioni nello spazio.
Il sentimento è passato abbastanza rapidamente da "questo è carino" a "questo potrebbe essere veramente utile".
L'apprendimento è, ovviamente, un argomento gigantesco nella robotica ormai da decenni.
Inoltre, opportunamente, sembra essere dove si sta dirigendo gran parte della potenziale ricerca sull'IA generativa.
E se, diciamo, un robot potesse prevedere tutti i potenziali risultati in base all'apprendimento? O che ne dici di eliminare un sacco di codice in eccesso semplicemente dicendo a un robot cosa vuoi che faccia? Emozionante, vero? Quando sono affascinato da un argomento nello spazio, faccio sempre la stessa cosa: trovo persone molto più intelligenti da rimproverare con domande.
Mi ha portato lontano nella vita.
Questa volta, i nostri fortunati ospiti sono una coppia di professori della UC Berkeley che mi hanno insegnato molto sullo spazio nel corso degli anni (consiglio di prenderne alcuni per il tuo rolodex).
Pieter Abbeel è il direttore del Berkeley Robot Learning Lab e co-fondatore/Presidente/Chief Scientist di Covariant, che utilizza l'intelligenza artificiale e ricchi set di dati per addestrare i robot di prelievo.
Oltre ad aiutare Abbeel a gestire BAIR (Berkeley AI Research Lab), Ken Goldberg è William S.
Floyd Jr.
Distinguished Chair in Engineering della scuola e Chief Scientist e co-fondatore di Ambi Robotics, che utilizza l'intelligenza artificiale e la robotica per affrontare lo smistamento dei pacchi.
Pieter Abbeel Crediti immagine: TechCrunch Iniziamo con l'ampia questione di come vedi l'IA generativa inserirsi nel più ampio mondo della robotica.
Ci sono due grandi tendenze che si verificano contemporaneamente.
C'è una tendenza dei modelli di base e una tendenza dell'IA generativa.
Sono molto intrecciati, ma sono distinti.
Un modello di base è un modello che viene addestrato su molti dati, inclusi i dati che sono solo tangenzialmente possibilmente correlati a ciò che ti interessa.
Ma è ancora correlato.
Ma così facendo, migliora le cose a cui tieni.
In sostanza, tutti i modelli generativi sono modelli di base, ma ci sono modelli di base che non sono modelli di intelligenza artificiale generativa, perché fanno qualcos'altro.
Il cervello covariante è un modello di base, per come è impostato in questo momento.
Fin dal primo giorno, nel 2017, abbiamo addestrato tutti gli oggetti che potremmo incontrare.
Ma in ogni implementazione ci preoccupiamo solo, ad esempio, delle forniture elettriche, o ci preoccupiamo solo dell'abbigliamento, o ci preoccupiamo solo della spesa.
È un cambio di paradigma.
Tradizionalmente, la gente avrebbe detto: "Oh, se hai intenzione di fare la spesa, la spesa, la spesa, la spesa".
Questo è tutto il tuo addestramento, una rete neurale basata sulla spesa.
Non è quello che abbiamo fatto.
Si tratta di inseguire la lunga coda di casi limite.
Più cose hai visto, meglio puoi dare un senso a un caso limite.
Il motivo per cui funziona è perché le reti neurali diventano così grandi.
Se sai che le reti sono piccole, tutte queste cose tangenzialmente correlate perturberanno la tua conoscenza delle cose più importanti.
Ma c'è così tanto che possono continuare ad assorbire.
È come se un'enorme spugna continua ad assorbire le cose.
Non stai facendo del male a niente mettendo questa roba in più.
In realtà stai aiutando un po 'di più facendo così.
Si tratta solo di imparare, giusto? È una cosa grossa che tutti stanno cercando di decifrare in questo momento.
Il modello di base più ampio consiste nell'addestrarlo su un set di dati il più ampio possibile.
Sì, ma la chiave non è solo grande.
È molto vario.
Non sto facendo solo la spesa.
Sceglierò generi alimentari, ma mi allenerò anche su tutte le altre cose che potrei raccogliere in un altro magazzino nello stesso modello di base per avere una comprensione generale di tutti gli oggetti, che è un modo migliore per imparare non solo sui generi alimentari .
Non sai mai cosa salterà fuori nel mix di quei generi alimentari.
Ci sarà sempre un nuovo oggetto.
Non hai mai tutto coperto.
Quindi, devi generalizzare a nuovi elementi.
La tua possibilità di generalizzare bene a nuovi elementi, la probabilità è maggiore se hai coperto uno spettro molto ampio di altre cose.
Più grande è la rete neurale, più comprende il mondo, in senso lato.
Sì.
Questa è davvero la chiave.
Questo è ciò che sbloccherà le applicazioni di robotica basate sull'intelligenza artificiale, che si tratti di raccolta o guida autonoma e così via: è la capacità di assorbire così tanto.
Ma se cambiamo marcia e pensiamo specificamente all'IA generativa, ci sono cose in cui puoi immaginare che abbia un ruolo.
Se pensi all'IA generativa, cosa significa rispetto alle precedenti generazioni di AI? Fondamentalmente, significa che si tratta di dati generativi.
Ma qual è la differenza rispetto alla generazione di etichette? Se gli do un'immagine e dice "gatto", anche questo sta generando dati.
È solo che è in grado di generare più dati.
Ancora una volta, ciò si riferisce alla rete neurale.
Le reti neurali sono più grandi, il che consente loro non solo di analizzare cose più grandi, ma anche di generare cose più grandi in modo coerente.
Nella robotica, ci sono alcuni angoli.
Uno sta costruendo una comprensione più profonda del mondo.
Invece di dire: "Etichetterò i dati per insegnare alla rete neurale", posso dire: "Registrerò un video di ciò che accade" e il mio modello generativo deve prevedere il fotogramma successivo, il fotogramma successivo, fotogramma successivo.
E costringendolo a capire come prevedere il futuro, lo sto costringendo a capire come funziona il mondo.
Spesso quando parlo alle persone delle diverse forme di apprendimento, ne discuto quasi come se fossero in conflitto tra loro, ma in questo caso si tratta di due diversi tipi di apprendimento che lavorano efficacemente in tandem.
SÌ.
E ancora, poiché le reti sono così grandi, addestriamo le reti neurali per prevedere i frame futuri.
In questo modo, oltre ad addestrarli a produrre le azioni ottimali per un determinato compito, imparano effettivamente a produrre le azioni molto più rapidamente, da molti meno dati.
Gli stai assegnando due compiti e lui impara come svolgere l'unico compito, perché i due compiti sono correlati.
Prevedere il fotogramma successivo è un esercizio di pensiero così difficile, lo costringi a pensare molto di più per prevedere le azioni che prevede le azioni molto, molto più velocemente.
In termini di un'applicazione pratica nel mondo reale – diciamo, in un ambiente industriale, imparare a avvitare qualcosa – in che modo imparare a prevedere la prossima cosa ne informa l'azione? Si tratta di un lavoro in corso.
Ma l'idea è che ci sono diversi modi per insegnare a un robot.
Puoi programmarlo.
Puoi dargli delle dimostrazioni.
Può imparare dal rinforzo, dove impara dai propri tentativi ed errori.
La programmazione ha visto i suoi limiti.
Non va davvero oltre ciò che abbiamo visto per molto tempo nelle fabbriche di automobili.
Diciamo che ero un'auto a guida autonoma.
Se il mio robot può prevedere il futuro in ogni momento, può fare due cose.
Il primo è avere una profonda comprensione del mondo e, con un po' di apprendimento in più, scegliere l'azione giusta.
Inoltre, ha un'altra opzione.
Se vuole fare molto lavoro al momento, può simulare scenari.
Può anche simulare il traffico intorno ad esso.
Ecco dove è diretto.
Questi sono tutti i possibili risultati che posso vedere.
Questo è il miglior risultato, lo farò.
Corretto.
Ci sono altre cose che possiamo fare nell'IA generativa con la robotica.
Google ha avuto alcuni risultati, dove quello che hanno detto è, e se mettessimo insieme alcune cose.
Una delle grandi sfide con la robotica è stata il ragionamento di alto livello.
Ci sono due sfide: 1.
come esegui l'effettiva abilità motoria e 2.
cosa dovresti effettivamente fare.
Se qualcuno ti chiedesse "fammi uova strapazzate", cosa significa? Ed è qui che i modelli di intelligenza artificiale generativa tornano utili in un modo diverso.
Sono pre-addestrati.
La versione più semplice usa solo il linguaggio.
Preparando le uova strapazzate, puoi suddividerle in: Vai a prendere le uova dal frigo Prendi la padella Prendi il burro.
Il robot può andare al frigorifero.
Potrebbe chiedere cosa fare con il frigorifero, e quindi il modello dice: Vai al frigorifero Prendi la cosa dal frigorifero L'intera cosa nella robotica è stata tradizionalmente la logica o la pianificazione delle attività, e le persone che devono programmarlo in qualche modo hanno descrivere il mondo in termini di affermazioni logiche che in qualche modo si susseguono, e così via.
I modelli linguistici sembrano prendersene cura in un modo meraviglioso.
Questo è inaspettato per molte persone.
Ken Goldberg Crediti immagine: Kimberly White (si apre in una nuova finestra) / Getty Images Come vedi il potenziale dell'IA generativa nella robotica? Il concetto centrale qui è il trasformatore.
La rete del trasformatore è molto interessante, perché esamina le sequenze.
È essenzialmente in grado di diventare molto bravo a prevedere l'oggetto successivo.
È incredibilmente bravo in questo.
Funziona per le parole, perché abbiamo solo un numero relativamente piccolo di parole in lingua inglese.
Nella migliore delle ipotesi, penso che l'Oxford English Dictionary contenga circa mezzo milione.
Ma puoi cavartela con molto meno di quello.
E hai un sacco di esempi, perché ogni stringa di testo ti dà un esempio di parole e di come sono messe insieme.
È un bel posto dolce.
Puoi mostrargli molti esempi e hai relativamente poche scelte da fare ad ogni passo.
Si è scoperto che può prevederlo molto bene.
Lo stesso vale per le sequenze di suoni, quindi può essere utilizzato anche per l'elaborazione e la previsione dell'audio.
Puoi allenarlo in modo molto simile.
Invece di parole, hai sequenze di fonemi in arrivo.
Gli dai un sacco di stringhe musicali o vocali, e poi sarà in grado di prevedere il prossimo segnale sonoro o fonema.
Può essere utilizzato anche per le immagini.
Hai una stringa di immagini e può essere utilizzata per prevedere l'immagine successiva.
Pieter stava parlando dell'uso del video per prevedere cosa accadrà nel fotogramma successivo.
Era effettivamente come far pensare il robot in un video.
Tipo, sì.
Se ora puoi prevedere il prossimo video, la prossima cosa che puoi aggiungere è il controllo.
Se aggiungo il mio controllo, posso prevedere cosa succede se eseguo l'azione A o B.
Posso guardare tutte le mie azioni e scegliere l'azione che mi avvicina a ciò che voglio vedere.
Ora voglio portarlo al livello successivo, che è dove guardo la scena successiva e ho i voxel.
Ho questi volumi tridimensionali.
Voglio allenarlo su quelli e dire: “ecco il mio volume attuale, ed ecco il volume che voglio avere.
Quali azioni devo compiere per arrivarci?" Quando parli di volumi, intendi dove esiste il robot nello spazio? Sì, o anche quello che sta accadendo davanti a te.
Se vuoi pulire i piatti davanti a te, il volume è dove sono tutti quei piatti.
Poi dici: "quello che voglio è un tavolo chiaro senza nessuno di quei piatti sopra".
Questo è il volume a cui voglio arrivare, quindi ora devo trovare la sequenza di azioni che porteranno dallo stato iniziale, che è quello che sto guardando ora, allo stato finale, che è dove non ho più piatti .
Sulla base dei video su cui il robot è stato addestrato, può estrapolare cosa fare.
In linea di principio, ma non da video di persone.
Questo è problematico.
Quei video sono girati da una strana angolazione.
Non sai che movimenti stanno facendo.
È difficile per il robot saperlo.
Quello che fai è essenzialmente fare in modo che il robot impari da solo avendo la fotocamera.
Il robot prova le cose e impara nel tempo.
Molte delle applicazioni di cui sento parlare sono basate su comandi linguistici.
Dici qualcosa, il robot è in grado di determinare cosa intendi ed eseguirlo in tempo reale.
Questa è una cosa diversa.
Ora abbiamo uno strumento in grado di gestire molto bene il linguaggio.
E la cosa interessante è che ti dà accesso alla semantica di una scena.
Un documento molto noto di Google ha fatto quanto segue: hai un robot e dici "Ho appena rovesciato qualcosa e ho bisogno di aiuto per ripulirlo".
In genere il robot non saprebbe cosa farsene, ma ora hai il linguaggio.
Lo esegui in ChatGPT e genera: “prendi una spugna.
Prendi un tovagliolo.
Prendi un panno.
Cerca il barattolo rovesciato, assicurati che possa raccoglierlo.
Tutta quella roba può venire fuori.
Quello che fanno è esattamente questo: prendono tutto quell'output e dicono: “c'è una spugna in giro? Fammi cercare una spugna.
La connessione tra semantica del mondo – una fuoriuscita e una spugna – ChatGPT è molto brava in questo.
Questo colma un vuoto che abbiamo sempre avuto.
Si chiama il problema del mondo aperto.
Prima di allora, dovevamo programmare ogni singola cosa che avrebbe incontrato.
Ora abbiamo un'altra fonte che può creare queste connessioni che prima non potevamo fare.
È molto bello.
Abbiamo un progetto chiamato Language Embedded Radiance Field.
È nuovo di zecca.
È come usare quel linguaggio per capire dove raccogliere le cose.
Diciamo: “ecco una tazza.
Prendilo per la maniglia” e sembra essere in grado di identificare dove si trova la maniglia.
È davvero interessante.
Siete ovviamente persone molto intelligenti e sapete molto sull'IA generativa, quindi sono curioso di sapere dove arriva la sorpresa.
Rimaniamo sempre sorpresi quando questi sistemi fanno cose che non avevamo previsto.
Questo è quando la robotica è al suo meglio, quando gli dai una configurazione e all'improvviso fa qualcosa.
Fa la cosa giusta per una volta.
Esattamente! È sempre una sorpresa nella robotica! Post scriptum Ancora un po' di IA generativa prima di passare alla settimana.
I ricercatori dell'Università EPFL della Svizzera stanno evidenziando i robot che fanno i robot.
Mi viene subito in mente RepRap, che ha dato origine allo spazio di stampa 3D desktop.
Lanciato nel 2005, il progetto è iniziato con la missione di creare "la prima macchina di produzione multiuso e autoreplicante dell'umanità".
In effetti, l'obiettivo era creare una stampante 3D in grado di stampare in 3D da sola.
Per questo progetto, i ricercatori hanno utilizzato ChatGPT per generare il progetto di un robot per la raccolta dei prodotti.
Il team suggerisce che i modelli linguistici "potrebbero cambiare il modo in cui progettiamo i robot, arricchendo e semplificando il processo".
Josie Hughes, responsabile del Computational Robot Design & Fabrication Lab, aggiunge: "Anche se Chat-GPT è un modello linguistico e la sua generazione di codice è basata su testo, ha fornito intuizioni e intuizioni significative per la progettazione fisica e ha mostrato un grande potenziale come cassa di risonanza per stimolare creatività umana”.
Crediti immagine: EPFL Un po 'di sterminio leggero di mosche lanterna Questa settimana ho anche attraversato la mia scrivania un'interessante coppia di ricerche con un DNA comune.
Chiunque abbia visto di persona una lanterna maculata sa quanto può essere bella.
L'insetto originario della Cina svolazza su ali che lampeggiano in strisce di rosso e blu.
Chiunque abbia visto una lanterna maculata sulla costa orientale degli Stati Uniti, tuttavia, sa che si tratta di specie invasive.
Qui a New York c'è l'imperativo in tutto lo stato di distruggere i bastardi a comando.
Il CMU Robotics Institute ha progettato TartanPest come parte della Farm Robotics Challenge di Farm-ng.
Il sistema è dotato di un braccio robotico montato su un trattore Farm-ng, progettato per individuare e spruzzare masse di uova di mosche lanterna, distruggendo gli insetti prima che si schiudano.
Il robot “utilizza un modello di apprendimento profondo perfezionato su un set di dati di immagini aumentato creato da 700 immagini di masse di uova di mosche lanterne maculate da iNaturalist per identificarle e grattarle via dalle superfici.
Per la cronaca, da nessuna parte nelle leggi sulla robotica di Asimov vengono menzionate le lanterne.
Crediti immagine: riforestazione CMU Nel frattempo, ABB questa settimana ha presentato quello che chiama "il robot più remoto del mondo".
Frutto di una collaborazione con il gruppo senza scopo di lucro JungleKeepers, il sistema utilizza efficacemente un braccio ABB per automatizzare la raccolta, la semina e l'irrigazione dei semi nel tentativo di promuovere il rimboschimento.
C'è una grande domanda aperta sull'efficacia e la scalabilità, e questo è certamente un bel gioco di pubbliche relazioni da parte del gigante dell'automazione, ma se questa cosa può fare anche piccoli progressi in mezzo alla rapida deforestazione, sono d'accordo.
Crediti immagine: ABB Maglioni per robot Un altro progetto CMU che mi sono perso un paio di settimane fa.
RobotSweater non è un maglione robotico, ma piuttosto un robot in un maglione (SweaterRobot avrebbe potuto essere più adatto).
Indipendentemente da ciò, il sistema utilizza tessuti a maglia come pelle sensibile al tatto.
Secondo la scuola: una volta lavorato a maglia, il tessuto può essere utilizzato per aiutare il robot a "sentire" quando un essere umano lo tocca, in particolare in un ambiente industriale in cui la sicurezza è fondamentale.
Le attuali soluzioni per rilevare l'interazione uomo-robot nell'industria sembrano scudi e utilizzano materiali molto rigidi che Liu nota non possono coprire l'intero corpo del robot perché alcune parti devono deformarsi.
Una volta attaccato al robot (in questo caso, un braccio industriale), l'e-textile può percepire la forza, la direzione e la distribuzione del tocco, sensibilità che potrebbero aiutare questi sistemi a lavorare in modo più sicuro a fianco delle persone.
"Nella loro ricerca, il team ha dimostrato che spingere un robot compagno equipaggiato con RobotSweater gli ha detto in che direzione muoversi o in quale direzione girare la testa", afferma CMU.
"Se utilizzato su un braccio robotico, RobotSweater ha permesso a una spinta della mano di una persona di guidare il movimento del braccio, mentre afferrando il braccio gli ha detto di aprire o chiudere la pinza." Crediti immagine: CMU Origami robotici A coronare un'edizione estremamente ricca di ricerche di Actuator – e tornare ancora una volta all'EPFL svizzero – c'è Mori3.
Il piccolo robot è composto da una coppia di triangoli che possono assumere forme diverse.
"Il nostro obiettivo con Mori3 è quello di creare un robot modulare simile a un origami che possa essere assemblato e smontato a piacimento a seconda dell'ambiente e del compito da svolgere", ha detto il direttore del Reconfigurable Robotics Lab, Jamie Paik.
“Mori3 può cambiare dimensione, forma e funzione.” Il sistema richiama molti lavori affascinanti che si svolgono contemporaneamente nei campi spesso intersecanti della robotica modulare e origami.
I sistemi comunicano tra loro e si attaccano per formare forme complesse.
Il team sta prendendo di mira i viaggi nello spazio come applicazione primaria per questa tecnologia emergente.
Il loro design piccolo e piatto li rende molto più facili da trasportare su una navetta rispetto a un robot preassemblato.
E siamo onesti, nessuno vuole passare un sacco di tempo a mettere insieme robot come i mobili Ikea dopo essere decollato.
"I robot poligonali e polimorfici che si collegano tra loro per creare strutture articolate possono essere utilizzati efficacemente per una varietà di applicazioni", afferma Paik.
“Naturalmente, un robot generico come Mori3 sarà meno efficace dei robot specializzati in determinate aree.
Detto questo, il più grande punto di forza di Mori3 è la sua versatilità.
Crediti immagine: EPFL 3…2…1…abbiamo l'attuatore.
Pieter Abbeel e Ken Goldberg sulle applicazioni AI generative di Brian Heater originariamente pubblicate su TechCrunch

Condividi su:

Mi piace:

Hermes A.I.

Potrebbe anche interessarti

Questa settimana in robotica: l'accordo iRobot di Amazon incontra un intoppo nell'UE poiché i nuovi finanziamenti continuano a far girare l'estate dei droni

Il MIT sviluppa un sistema di pianificazione del movimento e delle attività per i robot domestici

Le "microfabbriche" di SAEKI aiutano la grande produzione a espandersi