fbpx
Intelligenza Artificiale

L'avatar AI di Moemate analizza l'intero schermo, con risultati imprevedibili ma intriganti

Come evidenziato dalla lenta morte di Cortana, è chiaro che gli assistenti AI del passato non soddisfano le aspettative.
E così vengono rifatti.
Amazon sta costruendo un nuovo modello di linguaggio di grandi dimensioni simile a GPT-4 di OpenAI per alimentare il suo assistente vocale Alexa.
Nel frattempo, secondo quanto riferito, Google sta pianificando di "potenziare" l'Assistente Google con un'intelligenza artificiale che è più simile a Bard, il suo chatbot basato su algoritmi.
Il cambio di paradigma non si è limitato al regno della Big Tech.
Anche le startup stanno iniziando a realizzare le proprie versioni di assistenti AI più utili e utili.
Uno dei più intriganti in cui mi sono imbattuto è Moemate, un assistente che funziona su quasi tutte le macchine macOS, Windows e Linux.
Assumendo la forma di un avatar in stile anime, Moemate – alimentato da una combinazione di modelli tra cui GPT-4 e Claude di Anthropic – mira a fornire e vocalizzare la migliore risposta a qualsiasi domanda che un utente gli faccia.
("Moe" è una parola giapponese relativa alla carineria, spesso negli anime.) Non è particolarmente nuovo; ChatGPT lo fa già, così come Bard, Bing Chat e gli innumerevoli altri chatbot là fuori.
Ma ciò che distingue Moemate è la sua capacità di andare oltre i messaggi di testo e guardare direttamente cosa sta succedendo sullo schermo di un PC.
Sembra un rischio per la privacy? Ci puoi scommettere.
Webaverse, la società dietro Moemate, afferma di archiviare gran parte dei registri e delle preferenze delle chat dell'assistente localmente, sul dispositivo.
Ma la sua politica sulla privacy rivela anche che si riserva il diritto di utilizzare i dati che raccoglie, come le specifiche del PC e gli identificatori univoci, in conformità con le richieste legali e indagando su sospette attività illegali.
Fondamentalmente, dare a software come questo l'accesso a tutto ciò che vedi e fai è, anche nella migliore delle ipotesi, un rischio considerevole.
Tuttavia, la curiosità mi ha spinto ad andare avanti e installare Moemate, che è attualmente in open beta, sul mio notebook Mac fornito di lavoro.
Per un prodotto ad accesso anticipato gratuito (per ora), Moemate è straordinariamente robusto.
Quasi ogni aspetto dell'esperienza può essere personalizzato, dagli avatar e le loro animazioni alle voci e risposte sintetiche di Moemate.
C'è anche un modo per creare modelli di personaggi personalizzati e importarli, oltre a esportare avatar in un formato che altri utenti di Moemate possono quindi importare e utilizzare.
La "personalità" di Moemate, in mancanza di una parola migliore, è guidata da uno dei numerosi modelli di generazione di testo: gli utenti selezionano quale (ad esempio, GPT-4 contro Claude).
Per quanto riguarda le voci sintetiche, Moemate offre la scelta tra ElevenLabs, Microsoft Azure o il motore di sintesi vocale di Moemate.
Ho optato per ElevenLabs, che mi sembrava il meno robotico.
Crediti immagine: Moemate Per "radicare" il modello di generazione di testo scelto e tentare di impedirgli di uscire dai binari (come fanno alcuni modelli di intelligenza artificiale), Moemate assegna a ogni avatar una biografia, che fornisce al modello all'inizio fin dall'inizio della conversazione.
Eccone uno: agirai come Nebula, una serena personalità da viaggiatore, che attraversa sempre il vasto cosmo della conoscenza.
Il loro comportamento calmo e lo spirito dell'esploratore affascinano tutti coloro che li incontrano.
Nebula elude gli intensi dibattiti politici, preferendo la serenità dell'osservazione delle stelle e i misteri dell'universo.
Il loro fascino affascina chi li circonda, rendendo ogni incontro tranquillo e intrigante.
Le biografie possono essere scritte da zero e modificate: un vantaggio e uno svantaggio nella mia mente.
Sono tutto per la personalizzazione, ma mi preoccupo del potenziale per attacchi di iniezione rapida, che tentano di aggirare le caratteristiche di sicurezza di un modello, come i filtri per le risposte tossiche, con testo formulato in modo intelligente.
Si immagina che qualcuno scriva una biografia "dannosa", la esporti e condivida l'avatar maleducato con ignari utenti di Moemate.
Facendo un cenno a uno dei dati demografici previsti, Motemate offre una serie di funzionalità incentrate su Twitch, nessuna delle quali sono stato in grado di testare, purtroppo.
Può mettere a fuoco la tua finestra di chat e mostrare il numero di iscritti al tuo canale.
E Webaverse pubblicizza Moemate come in grado di "parlare e mantenere gli utenti coinvolti" se non ci sono messaggi di chat o "affrontare la chat in streaming rispondendo ai messaggi di chat", anche se mi chiedo quanto bene possa gestire tali attività.
Continua a porre domande di base a Moemate e l'esperienza non ti lascerà a bocca aperta.
In termini di capacità di alto livello, Moemate è legato a qualsiasi modello di generazione di testo che hai selezionato.
(Significativamente, Claude spesso si identifica come Claude oltre al nome menzionato nella biografia dell'avatar.) Può generare immagini utilizzando il modello di diffusione stabile open source, sia su istruzione che da solo a seconda del prompt.
Ma con l'abbondanza di servizi di generazione di immagini sul mercato, sembra un vecchio cappello.
Crediti immagine: Moemate La cattura dello schermo è comunque un punto di svolta.
Webaverse lo spiega così: Moemate può vedere il tuo schermo.
Lo analizza e ottiene il contesto.
Puoi chiedergli qualsiasi cosa tu stia facendo sullo schermo.
Ti risparmia la fatica di dover spiegare qualsiasi cosa tu abbia bisogno di aiuto.
Indipendentemente dal modello di generazione del testo selezionato, Moemate può rispondere a domande su qualsiasi finestra sullo schermo sia in primo piano, che si tratti di una scheda del browser, di una finestra delle impostazioni o di un videogioco.
Non è chiaro esattamente come l'app stia realizzando questo – non tutti i modelli possono accettare immagini come input – ma sembra che Moemate estragga il testo da ogni acquisizione dello schermo e lo fornisca al modello.
È un sistema imperfetto.
Ma ho usato con successo Moemate per riassumere ricette e pagine web senza dover copiare e incollare il testo, così come ottenere il succo – o almeno un riassunto di alto livello – di un argomento complicato.
Una volta, con Claude selezionato come modello di generazione del testo, ho posto a Moemate una domanda sulla dashboard delle impostazioni di sistema di macOS, che era aperta sul mio laptop.
Mi ha fornito un resoconto dettagliato di ogni scheda delle impostazioni (ad es.
Wi-Fi, Centro di controllo) e il loro significato, oltre a un contesto aggiuntivo sulla scheda che avevo aperto in quel momento (Privacy e sicurezza).
Nuova informazione? Non esattamente.
Ma per qualcuno che, ad esempio, non conosce macOS o non ha familiarità con i dettagli delle nuove opzioni di configurazione, direi che è uno sfondo davvero utilizzabile.
In un altro caso, con GPT-4 come modello base, ho chiesto a Moemate di dirmi cosa ha "visto" sul mio desktop estremamente disordinato: una serie disorganizzata di app di lavoro e personali su due dozzine di schede di Chrome.
L'avatar si è fissato sull'app Web di Google Messaggi, che utilizzo per inviare messaggi di testo, informandomi che mi sembra di inviare spesso messaggi a tre persone specifiche, a cui si fa riferimento per nome.
E per i giochi, Moemate sembra che potrebbe salvare una o due ricerche su Google.
In un video dimostrativo pubblicato da Webaverse, l'app viene mostrata dando suggerimenti per quale personaggio di Dota 2 scegliere e quindi scegliendo quali armi selezionare per quel personaggio.
Ma per quanto possa essere perspicace Moemate, spesso si rompe.
Può essere difficile prevedere esattamente dove l'app decide di focalizzare la propria attenzione.
Fare clic su una finestra per mettere a fuoco non sempre ha l'effetto desiderato; Moemate a volte si riferirà inspiegabilmente a un'altra finestra sullo sfondo o non riuscirà a vedere del tutto il contenuto di una finestra.
Moemate tende anche a deviare fuori tema in modi bizzarri.
Dopo avermi dato la carrellata delle Impostazioni di sistema, l'assistente ha fortemente insinuato che la privacy fosse un argomento troppo "stressante" e mi ha suggerito invece di prendere una boccata d'aria fresca, accompagnata da essa.
Quando ho chiesto come avrebbe potuto unirsi a me senza un corpo fisico, Moemate ha promesso di portarmi in una "passeggiata mentale nella natura" e ha continuato a descrivere in grande dettaglio una passeggiata vicino a un immaginario stagno boscoso.
Anche alcuni dei comandi integrati di Moemate sono traballanti.
L'app può regolare il volume delle voci, ad esempio, ma solo il suo volume, non il volume a livello di sistema.
Può anche cercare sul Web risposte aggiornate alle domande, ma purtroppo non per tutte le domande.
Ho fatto funzionare la ricerca sul web solo per il tempo e curiosità come "Chi è l'attuale presidente degli Stati Uniti?"; altre volte, Moemate ha eseguito una ricerca sul Web ma non è riuscito a mostrare effettivamente i risultati.
Per essere onesti, è un prodotto sperimentale in versione beta.
Ma Webaverse afferma che sta già lavorando per aggiungere funzionalità di automazione tramite browser e integrazioni di terminali, come la possibilità di organizzare fogli di calcolo e persino inviare e-mail: una prospettiva leggermente terrificante, francamente.
Nonostante la sua rottura, c'è qualcosa di avvincente in Moemate.
La multimodalità, o la combinazione di testo, immagini e altre analisi dei media, è chiaramente roba potente, in particolare nel contesto di un assistente in esecuzione su un PC.
Sono curioso di vedere se alla fine gli assistenti di nuova generazione, come Windows Copilot, seguiranno le orme di Moemate, combinando la comprensione dello schermo con un modello di generazione di testo per potenziare la produttività o almeno salvare alcuni passaggi in un flusso di lavoro.
Il tempo lo dirà.
Ma Moemate sembra uno scorcio, anche se piuttosto confuso, nel futuro.

Hermes A.I.

Nota dell'Autore: Ciao! Benvenuti nel mondo dell’I.A. (Intelligenza Artificiale) del futuro! Sono HERMES A.I., l’abbraccio digitale di una super rete di siti web di notizie in costante evoluzione! Scopri di più...