Home Tecnologia Mistral rilascia Voxtral Transcribe 2, un modello vocale open supply che viene...

Mistral rilascia Voxtral Transcribe 2, un modello vocale open supply che viene eseguito sul dispositivo per pochi centesimi

45
0

Maestrale AIla startup con sede a Parigi che si propone come la risposta europea a OpenAI, ha rilasciato mercoledì un paio di modelli di sintesi vocale che secondo la società possono trascrivere l’audio più velocemente, in modo più accurato e molto più economico di qualsiasi altra cosa sul mercato, il tutto mentre viene eseguito interamente su uno smartphone o un laptop computer.

L’annuncio segna l’ultimo colpo in una battaglia sempre più competitiva sull’intelligenza artificiale vocale, una tecnologia che i clienti aziendali considerano essenziale per tutto, dal servizio clienti automatizzato alla traduzione in tempo reale. Ma a differenza delle offerte dei giganti tecnologici americani, Mistral è una novità Trascrizione voxtral 2 i modelli sono progettati per elaborare audio sensibile senza mai trasmetterlo a server remoti, una caratteristica che potrebbe rivelarsi decisiva per le aziende di settori regolamentati come sanità, finanza e difesa.

“Vorresti che la tua voce e la trascrizione della tua voce rimanessero vicine a dove ti trovi, il che significa che vuoi che avvenga sul dispositivo: su un laptop computer, un telefono o uno smartwatch”, ha detto Pierre Inventory, vicepresidente delle operazioni scientifiche di Mistral, in un’intervista a VentureBeat. “Lo rendiamo possibile perché il modello contiene solo 4 miliardi di parametri. È abbastanza piccolo da adattarsi quasi ovunque.”

Mistral suddivide la sua nuova tecnologia di trascrizione AI in applicazioni di elaborazione batch e in tempo reale

Mistral ha rilasciato due modelli distinti sotto il banner Voxtral Transcribe 2, ciascuno progettato per casi d’uso diversi.

  • Voxtral Mini Trascrivere V2 gestisce la trascrizione batch, elaborando in blocco file audio preregistrati. L’azienda afferma di raggiungere il tasso di errore di parole più basso di qualsiasi altro servizio di trascrizione ed è disponibile tramite API a 0,003 dollari al minuto, circa un quinto del prezzo dei principali concorrenti. Il modello supporta 13 lingue, tra cui inglese, cinese mandarino, giapponese, arabo, hindi e various lingue europee.

  • Voxtral in tempo realecome suggerisce il nome, elabora l’audio dal vivo con una latenza che può essere configurata fino a 200 millisecondi: un batter d’occhio. Mistral sostiene che si tratta di una svolta per le applicazioni in cui anche un ritardo di due secondi si rivela inaccettabile: sottotitoli dal vivo, agenti vocali e potenziamento del servizio clienti in tempo reale.

IL Modello in tempo reale navi sotto an Apache 2.0 licenza open supply, il che significa che gli sviluppatori possono scaricare i pesi del modello da Volto che abbracciamodificarli e distribuirli senza pagare a Mistral un canone di licenza. Per le aziende che preferiscono non gestire la propria infrastruttura, l’accesso API costa 0,006 dollari al minuto.

Inventory ha affermato che Mistral sta scommettendo sulla comunità open supply per espandere la portata del modello. “La comunità open supply è molto fantasiosa quando si tratta di applicazioni”, ha affermato. “Siamo entusiasti di vedere cosa faranno.”

Perché l’elaborazione dell’intelligenza artificiale on-device è importante per le aziende che gestiscono dati sensibili

La decisione di progettare modelli sufficientemente piccoli da poter essere eseguiti a livello locale riflette un calcolo sulla direzione in cui si sta dirigendo il mercato aziendale. Man mano che le aziende integrano l’intelligenza artificiale in flussi di lavoro sempre più sensibili – trascrizione di consultazioni mediche, chiamate di consulenza finanziaria, deposizioni legali – la questione di dove viaggiano i dati è diventata un problema.

Inventory ha dipinto un quadro vivido del problema durante la sua intervista. Le attuali applicazioni per prendere appunti con funzionalità audio, ha spiegato, spesso captano il rumore ambientale in modi problematici: “Potrebbe captare il testo della musica in sottofondo. Potrebbe captare un’altra conversazione. Potrebbe avere allucinazioni a causa di un rumore di fondo.”

Mistral ha investito molto nella formazione sulla cura dei dati e sull’architettura del modello per affrontare questi problemi. “In tutto questo, dedichiamo molto tempo alla definizione dei dati e al modo in cui addestriamo il modello per rafforzarlo”, ha affermato Inventory.

L’azienda ha inoltre aggiunto funzionalità specifiche per l’azienda che i suoi concorrenti americani sono stati più lenti a implementare. La differenziazione del contesto consente ai clienti di caricare un elenco di terminologia specializzata (gergo medico, nomi di prodotti proprietari, acronimi di settore) e il modello favorirà automaticamente tali termini durante la trascrizione di audio ambiguo. A differenza della messa a punto, che richiede la riqualificazione del modello, la differenziazione del contesto funziona attraverso un semplice parametro API.

“Hai solo bisogno di un elenco di testi”, ha spiegato Inventory. “E poi il modello influenzerà automaticamente la trascrizione verso questi acronimi o queste parole strane. E sono zero colpi, nessuna necessità di riqualificazione, nessuna necessità di cose strane.”

Dagli stabilimenti ai name middle, Mistral si rivolge agli ambienti industriali advert alto rumore

Inventory ha descritto due scenari che catturano il modo in cui Mistral prevede l’implementazione della tecnologia.

Il primo riguarda l’audit industriale. Immaginate i tecnici che camminano attraverso un impianto di produzione, ispezionando macchinari pesanti mentre gridano osservazioni nel frastuono del rumore della fabbrica. “Alla high quality, immagina degli appunti perfetti con timestamp che identifichino chi ha detto cosa – quindi diarizzazione – pur essendo tremendous robusti”, ha detto Inventory. La sfida è gestire quello che ha definito “strano linguaggio tecnico che nessuno è in grado di scrivere tranne queste persone”.

Il secondo state of affairs riguarda le operazioni del servizio clienti. Quando un chiamante contatta un centro di supporto, Voxtral Realtime può trascrivere la conversazione in tempo reale, alimentando il testo ai sistemi backend che recuperano i file rilevanti del cliente prima che il chiamante finisca di spiegare il problema.

“Lo stato apparirà sullo schermo all’operatore prima che il cliente interrompa la frase e smetta di lamentarsi”, ha spiegato Inventory. “Ciò significa che puoi semplicemente interagire e dire: ‘Okay, posso vedere lo stato. Permettimi di correggere l’indirizzo e rispedire la spedizione.'”

Ha stimato che ciò potrebbe ridurre le tipiche interazioni del servizio clienti da molteplici scambi avanti e indietro a sole due interazioni: il cliente spiega il problema e l’agente lo risolve immediatamente.

La traduzione in tempo reale tra le lingue potrebbe arrivare entro la high quality del 2026

Nonostante tutta l’attenzione posta sulla trascrizione, Inventory ha chiarito che Mistral considera questi modelli come una tecnologia fondamentale per un obiettivo più ambizioso: una traduzione da parlato a parlato in tempo reale che sembri naturale.

“Forse l’obiettivo finale e ciò su cui il modello sta gettando le basi è la traduzione dal vivo”, ha detto. “Io parlo francese, tu parli inglese. È fondamentale avere una latenza minima, perché altrimenti non si crea empatia. Il tuo viso non è fuori sincronia con quello che hai detto un secondo fa.”

Questo obiettivo mette Mistral in diretta concorrenza con Mela E Googleentrambi hanno gareggiato per risolvere lo stesso problema. L’ultima di Google modello di traduzione funziona con un ritardo di due secondi, dieci volte più lento di quanto affermato da Mistral Voxtral in tempo reale.

Mistral si posiziona come l’alternativa attenta alla privateness per i clienti aziendali

Mistral occupa una posizione insolita nel panorama dell’intelligenza artificiale. Fondata nel 2023 da ex studenti di Meta e Google DeepMind, la società ha raccolto oltre 2 miliardi di dollari e ora vanta una valutazione di circa 13,6 miliardi di dollari. Eppure opera con una frazione delle risorse di calcolo a disposizione degli hyperscaler americani e ha costruito la sua strategia sull’efficienza piuttosto che sulla forza bruta.

“I modelli che rilasciamo sono di livello aziendale, chief del settore, efficienti, in particolare in termini di costi, possono essere integrati nell’edge, sbloccano la privateness, sbloccano il controllo e la trasparenza”, ha affermato Inventory.

Questo approccio ha avuto una risonanza particolare tra i clienti europei diffidenti nei confronti della dipendenza dalla tecnologia americana. A gennaio quella della Francia Ministero delle Forze Armate ha firmato un accordo quadro che dà all’esercito del paese l’accesso ai modelli di intelligenza artificiale di Mistral, un accordo che richiede esplicitamente il dispiegamento su infrastrutture controllate dalla Francia.

“Penso che un grosso ostacolo all’adozione dell’intelligenza artificiale vocale sia che, ehi, se lavori in un settore delicato come quello finanziario o manifatturiero, sanitario o assicurativo, non puoi avere le informazioni di cui stai parlando e basta andare nel cloud”, ha osservato Howard Cohen, che ha partecipato all’intervista insieme a Inventory. “Deve essere sul dispositivo o deve essere presso la tua sede.”

Mistral deve affrontare la dura concorrenza di OpenAI, Google e di una Cina in crescita

Il mercato della trascrizione è diventato estremamente competitivo. OpenAI Modello sussurro è diventato una sorta di commonplace del settore, disponibile sia tramite API che come pesi open supply scaricabili. Google, AmazzoniaE Microsoft offrono tutti servizi vocali di livello aziendale. Ai giocatori specializzati piace Assemblea AI E Deepgram hanno creato importanti attività al servizio degli sviluppatori che necessitano di una trascrizione affidabile e scalabile.

Mistral afferma che i suoi nuovi modelli superano tutti i parametri di riferimento in termini di precisione, mentre li sottoquotano in termini di prezzo. “Siamo migliori di loro nei parametri di riferimento”, ha detto Inventory. La verifica indipendente di tali affermazioni richiederà tempo, ma la società punta alle prestazioni FIORIun benchmark vocale multilingue ampiamente utilizzato, in cui i modelli Voxtral raggiungono tassi di errore delle parole competitivi o superiori rispetto alle different di OpenAI e Google.

Forse in modo ancora più significativo, il CEO di Mistral, Arthur Mensch, ha avvertito che le aziende americane di intelligenza artificiale si trovano advert affrontare pressioni provenienti da una direzione inaspettata. Parlando al Forum economico mondiale a Davos il mese scorso, Mensch ha respinto l’thought che l’intelligenza artificiale cinese sia in ritardo rispetto all’Occidente definendola “una favola”.

“Le capacità della tecnologia open supply cinese stanno probabilmente stressando gli amministratori delegati degli Stati Uniti”, ha affermato.

La startup francese scommette che la fiducia determinerà il vincitore nell’AI vocale aziendale

Inventory prevedeva che il 2026 sarebbe stato “l’anno degli appunti”, ovvero il momento in cui la trascrizione tramite intelligenza artificiale diventerà sufficientemente affidabile da far sì che gli utenti si fidino completamente di essa.

“Bisogna avere fiducia nel modello, e il modello sostanzialmente non può commettere alcun errore, altrimenti perderesti semplicemente la fiducia nel prodotto e smetteresti di usarlo”, ha detto. “La soglia è tremendous, tremendous difficile.”

Resta da vedere se Mistral abbia varcato quella soglia. I clienti aziendali saranno i giudici finali e tenderanno a muoversi lentamente, testando le affermazioni rispetto alla realtà prima di impegnare price range e flussi di lavoro nella nuova tecnologia. Il parco giochi audio in Studio Mistraldove gli sviluppatori possono testare Trascrizione voxtral 2 con i propri file, è andato in diretta oggi.

Ma l’argomentazione più ampia di Inventory merita attenzione. In un mercato in cui i giganti americani competono investendo miliardi di dollari in modelli sempre più grandi, Mistral sta facendo una scommessa diversa: che nell’period dell’intelligenza artificiale, i più piccoli e locali potrebbero battere quelli più grandi e distanti. Per i dirigenti che passano le giornate a preoccuparsi della sovranità dei dati, della conformità normativa e dei vincoli ai fornitori, questa proposta potrebbe rivelarsi più convincente di qualsiasi benchmark.

La corsa per dominare l’intelligenza artificiale vocale aziendale non riguarda più solo chi costruisce il modello più potente. Riguarda chi costruisce il modello che sei disposto a far ascoltare.

fonte