Home Tecnologia Questi nuovi modelli di trascrizione AI sono progettati per garantire velocità e...

Questi nuovi modelli di trascrizione AI sono progettati per garantire velocità e privateness

30
0

A volte vuoi trascrivere qualcosa, ma non vuoi che rimanga su Web affinché qualche hacker possa vederlo. Forse è una conversazione con il tuo medico o avvocato. Forse sei un giornalista ed è un’intervista delicata. La privateness e il controllo sono importanti.

Questo desiderio di privateness è uno dei motivi per cui lo sviluppatore francese Mistral AI ha costruito i suoi ultimi modelli di trascrizione in modo che fossero abbastanza piccoli da poterlo contenere eseguire sui dispositivi. Possono essere eseguiti sul tuo telefono, sul tuo laptop computer o nel cloud.

Voxtral Mini Trascrizione 2uno dei nuovi modelli annunciati mercoledì, è “tremendous, tremendous piccolo”, mi ha detto Pierre Inventory, vicepresidente delle operazioni scientifiche di Mistral. Un altro nuovo modello, Voxtral Realtime, può fare la stessa cosa ma dal vivo, come i sottotitoli.

Atlante dell'intelligenza artificiale

La privateness non è l’unico motivo per cui l’azienda ha voluto costruire in piccolo modelli open supply. Eseguendo direttamente sul dispositivo che stai utilizzando, questi modelli possono funzionare più velocemente. Non dovrai più aspettare che i file trovino la strada attraverso Web fino a un knowledge heart e ritorno.

“Quello che vuoi è che la trascrizione avvenga molto, molto vicino a te”, ha detto Inventory. “E il più vicino che possiamo trovare è qualsiasi dispositivo edge, quindi un laptop computer, un telefono, un dispositivo indossabile come uno smartwatch, per esempio.”

La bassa latenza (leggi: alta velocità) è particolarmente importante per la trascrizione in tempo reale. Il modello Voxtral Realtime può generare con una latenza inferiore a 200 millisecondi, ha affermato Inventory. Può trascrivere le parole di un oratore con la stessa rapidità con cui puoi leggerle. Non è più necessario attendere due o tre secondi affinché i sottotitoli vengano aggiornati.

Guarda questo: La carenza di chip influisce sugli iPhone, OpenAI ha bloccato gli investimenti, accuse di censura su TikTok | Tecnologia oggi

Il modello Voxtral Realtime è disponibile tramite l’API di Mistral e sul Volto che abbracciainsieme a una dimostrazione dove puoi provarlo.

In alcuni brevi check, ho scoperto che veniva generato abbastanza rapidamente (anche se non così velocemente come ci si aspetterebbe se fosse sul dispositivo) e sono riuscito a catturare ciò che ho detto accuratamente in inglese con un po’ di spagnolo mescolato. Al momento è in grado di gestire 13 lingue, secondo Mistral.

Voxtral Mini Transcribe 2 è disponibile anche tramite l’API dell’azienda, oppure puoi giocarci Studio AI di Mistral. Ho usato il modello per trascrivere la mia intervista con Inventory.

L’ho trovato veloce e abbastanza affidabile, anche se ha avuto problemi con nomi propri come Mistral AI (che chiamava Mr. Lay Eye) e Voxtral (VoxTroll). Sì, il modello AI ha sbagliato il nome. Ma Inventory ha affermato che gli utenti possono personalizzare il modello per comprendere meglio determinate parole, nomi e gergo se lo utilizzano per attività specifiche.

La sfida nel costruire modelli di intelligenza artificiale piccoli e veloci è che devono anche essere accurati, ha affermato Inventory. L’azienda ha pubblicizzato le prestazioni dei modelli su benchmark che mostravano tassi di errore migliori rispetto ai concorrenti.

“Non è sufficiente dire, OK, farò un piccolo modello”, ha detto Inventory. “Ciò di cui hai bisogno è un modello piccolo che abbia la stessa qualità dei modelli più grandi, giusto?”



fonte