Casa » ChatGPT ora comprende anche immagini e comandi vocali

Software

26.09.2023 17:48

Condividi con gli altri:

ChatGPT ora comprende anche immagini e comandi vocali

La società OpenAI migliora costantemente il chatbot ChatGPT. La nuova versione consente agli utenti di attivare ChatGPT con voce e immagini, e con questo sorgono nuove domande e preoccupazioni. Allora cosa porta con sé la nuova versione di #141 e quando?

La maggior parte delle modifiche che OpenAI sta apportando a ChatGPT riguardano ciò che può fare il bot basato sull'intelligenza artificiale: a quali domande può rispondere, a quali informazioni può accedere e così via. Questa volta, però, cambia anche il modo in cui puoi utilizzare ChatGPT da solo. L'azienda sta introducendo una nuova versione del servizio che consente di interagire con un bot AI artificialmente intelligente non solo scrivendo frasi in un campo di testo, ma anche anche parlando con lui o semplicemente caricando una foto. Le nuove funzionalità saranno disponibili per chi pagherà l'abbonamento Plus nelle prossime settimane, mentre gli altri riceveranno la nuova funzionalità “subito dopo”.

La parte del comando vocale non è niÄ sorprendentemente nuovo: tocchi un pulsante e pronunci la tua domanda, ChatGPT la converte in testo e la passa a un modello linguistico di grandi dimensioni, recupera la risposta e la riconverte in parlato e ti risponde a voce. Dovrebbe assomigliare a una conversazione con Alexa o l'Assistente Google, tranne per il fatto che, così spera OpenAI, le risposte saranno migliori grazie alla tecnologia di base migliorata. La maggior parte degli assistenti virtuali sembra essere in fase di rinnovamento e incorporazione di grandi modelli linguistici e per ora OpenAI è un passo avanti.

L'eccellente modello Whisper di OpenAI fa gran parte della conversione da voce a testo e l'azienda sta anche introducendo un nuovo modello da testo a voce che si dice sia in grado di creare "audio simile a quello umano dal solo testo e pochi secondi. "Discorso esemplare". Potrai scegliere una voce per ChatGPT tra cinque opzioni, ma OpenAI sembra pensare che il modello abbia molto più potenziale. Ad esempio, OpenAI collabora con Spotify per tradurre i podcast in altre lingue, preservando il suono della voce della persona che ospita il podcast. Esistono molti usi interessanti per le voci sintetiche e OpenAI potrebbe svolgere un ruolo importante in questo settore.

Indipendentemente da ciò, il fatto che sia possibile creare una voce sintetica decente con solo pochi secondi di audio apre le porte a tutti i tipi di casi d’uso potenzialmente problematici. "Queste funzionalità presentano nuove minacce, come la possibilità che attori malintenzionati si spacciano per personaggi pubblici e simili", si legge nel blog dell'azienda che annuncia le nuove funzionalità. Proprio per questo motivo, il modello non è disponibile per un uso più ampio e sarà molto più controllato e limitato a casi d’uso e partnership specifici.

La funzione di ricerca delle immagini è in qualche modo simile a Google Lens. Scatti una foto e ChatGPT proverà a capire cosa stai chiedendo e risponderà di conseguenza. Puoi anche utilizzare lo strumento di disegno nell'app per rendere la domanda il più chiara possibile oppure parlare o digitare domande relative all'immagine. È qui che la natura di ChatGPT risulta particolarmente utile: invece di eseguire una ricerca, ottenere la risposta sbagliata e quindi eseguire una nuova ricerca, puoi sollecitare il bot e migliorare la risposta durante il processo. Questo è molto simile a ciò che Google sta facendo con la ricerca multimodale.

Ovviamente anche l’inclusione delle immagini in ChatGPT ha i suoi svantaggi. Uno di questi è quando usi ChatGPT “di persona”: OpenAI afferma di aver deliberatamente limitato “la capacità di ChatGPT di analizzare e fare dichiarazioni dirette sulle persone”. Sia per precisione che per privacy. Ciò significa che una delle visioni più fantascientifiche dell'intelligenza artificiale – la capacità di guardare qualcuno e dire chi è – non si realizzerà presto. Il che è probabilmente una buona cosa.

Quasi un anno dopo il periodo di massimo splendore di ChatGPT, sembra che OpenAI stia ancora cercando di capire come dare di più al suo modello funzioni e capacità senza creare nuovi problemi e aspetti negativi di utilizzo. Con le nuove versioni, l'azienda ha cercato di percorrere quella linea sottile limitando consapevolmente ciò che possono fare i suoi nuovi modelli. Ma il fatto è che questo approccio non sempre funzionerà. Quando ce ne saranno sempre di piùÄ persone che utilizzano il controllo vocale e la ricerca di immagini e man mano che ChatGPT si avvicina a diventare un assistente virtuale veramente utile e multimodale, diventerà sempre più difficile mantenere tutte queste protezioni.

Ti interessa saperne di più su questo argomento?

ChatGPT intelligenza artificiale

ChatGPT ora comprende anche immagini e comandi vocali

Ti interessa saperne di più su questo argomento?

Notizie correlate

Cosa stanno leggendo gli altri?

Esposto

I più letti