Mati Staniszewski, co-fondatore e amministratore delegato di ElevenLabs, afferma che la voce sta diventando la prossima grande interfaccia per l’intelligenza artificiale, il modo in cui le persone interagiranno sempre più con le macchine man mano che i modelli vanno oltre il testo e gli schermi.
Parlando a Web Summit a DohaStaniszewski ha detto a TechCrunch che modelli vocali come quelli sviluppati da ElevenLabs sono recentemente andati oltre la semplice imitazione del linguaggio umano – comprese le emozioni e l’intonazione – per lavorare in tandem con le capacità di ragionamento di grandi modelli linguistici. Il risultato, ha affermato, è un cambiamento nel modo in cui le persone interagiscono con la tecnologia.
Negli anni a venire, ha detto, “speriamo che tutti i nostri telefoni tornino nelle nostre tasche e possiamo immergerci nel mondo reale che ci circonda, con la voce come meccanismo che controlla la tecnologia”.
Questa visione ha alimentato la raccolta di 500 milioni di dollari di ElevenLabs questa settimana con una valutazione di 11 miliardi di dollari, ed è sempre più condivisa nel settore dell’intelligenza artificiale. OpenAI e Google hanno entrambi fatto della voce un focus centrale dei loro modelli di prossima generazione, mentre Apple sembra stia tranquillamente costruendo tecnologie sempre attive e adiacenti alla voce attraverso acquisizioni come Q.ai. Man mano che l’intelligenza artificiale si diffonde nei dispositivi indossabili, nelle automobili e in altri nuovi {hardware}, il controllo si basa sempre meno sul tocco degli schermi e sempre più sul parlare, rendendo la voce un campo di battaglia chiave per la prossima fase di sviluppo dell’intelligenza artificiale.
Seth Pierrepont, socio generale di Iconiq Capital, ha fatto eco a questa visione sul palco del Net Summit, sostenendo che mentre gli schermi continueranno a essere importanti per i giochi e l’intrattenimento, i metodi di enter tradizionali come le tastiere stanno iniziando a sembrare “obsoleti”.
E man mano che i sistemi di intelligenza artificiale diventano più agenti, ha affermato Pierrepont, anche l’interazione stessa cambierà, con i modelli che acquisiranno barriere, integrazioni e contesto necessari per rispondere con suggerimenti meno espliciti da parte degli utenti.
Staniszewski ha indicato questo cambiamento degli agenti come uno dei più grandi cambiamenti in corso. Invece di enunciare ogni istruzione, ha affermato che i futuri sistemi vocali faranno sempre più affidamento sulla memoria persistente e sul contesto accumulato nel tempo, rendendo le interazioni più naturali e richiedendo meno sforzo da parte degli utenti.
Evento Techcrunch
Boston, MA
|
23 giugno 2026
Questa evoluzione, ha aggiunto, influenzerà il modo in cui verranno implementati i modelli vocali. Sebbene i modelli audio di alta qualità siano vissuti in gran parte nel cloud, Staniszewski ha affermato che ElevenLabs sta lavorando verso un approccio ibrido che unisce cloud ed elaborazione sul dispositivo: una mossa mirata a supportare nuovo {hardware}, comprese cuffie e altri dispositivi indossabili, in cui la voce diventa un compagno costante piuttosto che una funzionalità con cui decidi quando interagire.
ElevenLabs sta già collaborando con Meta per portare la sua tecnologia vocale in prodotti tra cui Instagram e Horizon Worlds, la piattaforma di realtà virtuale dell’azienda. Staniszewski ha affermato che sarebbe anche disponibile a lavorare con Meta sui suoi occhiali intelligenti Ray-Ban man mano che le interfacce a comando vocale si espandono in nuovi fattori di forma.
Ma man mano che la voce diventa più persistente e incorporata nell’{hardware} di tutti i giorni, ciò apre la porta a serie preoccupazioni sulla privateness, sulla sorveglianza e sulla quantità di dati personali che i sistemi basati sulla voce memorizzeranno man mano che si avvicinano alla vita quotidiana degli utenti – qualcosa di cui aziende come Google sono già state accusate di abusare.













