Home Tecnologia Apprendimento per imitazione visiva: Guidede addestra gli agenti IA su “video di...

Apprendimento per imitazione visiva: Guidede addestra gli agenti IA su “video di esperti” umani invece che su documentazione

1
0

Per anni, “l’ultimo miglio” della trasformazione digitale è stato disseminato di PDF dimenticati e manuali di formazione ignorati.

Le organizzazioni spendono milioni in software sofisticati come SAP o Salesforce, solo perché i dipendenti hanno difficoltà con la navigazione di base. Ora, con l’arrivo dell’era dell’IA agente, le aziende si trovano ad affrontare un’arma a doppio taglio: devono insegnare ai dipendenti umani a collaborare con l’intelligenza artificiale, insegnando contemporaneamente agli agenti IA a navigare nelle labirintiche interfacce dell’impresa moderna.

Un’idea che sembra guadagnare slancio tra le aziende che puntano sull’intelligenza artificiale: utilizzare registrazioni di schermate e tutorial/procedure dettagliate di qualcuno che esegue un’attività aziendale (che si tratti di creare un nuovo ticket o elaborare una fattura) e addestrare l’intelligenza artificiale a replicare il flusso in base alla cattura dello schermo. Proprio questa settimana, una startup ha chiamato Standard Intelligence è diventato virale su X mostrando una prima demo della versione aperta di questo per il mondo fisico e digitale.

Ma la verità è che ci sono già attori che affrontano direttamente questo problema per l’impresa stessa: per fare un esempio, Guidauna startup israeliana nata durante gli anni incentrati sui video della pandemia di COVID-19, ha annunciato oggi una sottoscrizione in eccesso di 50 milioni di dollari per la Serie B round di finanziamento guidato da PSG Equity per affrontare proprio questa crisi delle infrastrutture della conoscenza.

Invece di fornire a un agente un manuale PDF statico, Guidede fornisce “Video Ground Truth” ad alta fedeltà, un ricco flusso di dati catturati da veri esperti umani mentre navigano in software complessi.

L’investimento segnala un cambiamento nel modo in cui l’industria tecnologica vede la documentazione, non come un sottoprodotto statico del lavoro, ma come la telemetria critica necessaria per formare la prossima generazione di agenti digitali autonomi.

La tecnologia: dalla cattura video ai modelli del mondo

Fondamentalmente, Guidede è una piattaforma di adozione digitale AI (ADAP). Tuttavia, la sua svolta tecnologica risiede in ciò che accade dietro le quinte durante una registrazione.

Guidede non si limita a registrare i pixel; cattura ogni clic, scorrimento e interazione latente con la pagina HTML—le pause sottili, le profondità di scorrimento specifiche e le correzioni apportate da un essere umano quando un sistema è in ritardo. Questa telemetria trasforma il video non elaborato in un set di formazione Vision-Language-Action (VLA).

Nel frattempo, Magic Redaction della piattaforma oscura automaticamente i dati sensibili come password o numeri di carta di credito durante l’acquisizione, garantendo che i materiali rimangano sicuri e allineati all’HIPAA.

“Ogni volta che fai clic su un pulsante, trascini e rilascia, scorri, scrivi, raccogliamo l’interazione… tutto, lo puliamo: non ci sono informazioni private”, ha spiegato il co-fondatore e CEO di Guidde Yoav Einav in un’intervista esclusiva con VentureBeat.

Sotto il cofano, la piattaforma cattura i metadati sottostanti e le modifiche DOM (Document Object Model) sincronizzate con i fotogrammi video. L’elemento di differenziazione è la telemetria nascosta sotto la superficie.

Questi ricchi metadati creano un “modello mondiale digitale” del software aziendale. E poiché ogni azienda utilizza il proprio mix unico di app e processi, Guidede sta creando un fossato di dati che consenta agli agenti aziendali di ragionare attraverso UI legacy con la stessa consapevolezza spaziale di un essere umano, garantendo che l’automazione funzioni effettivamente in un ambiente di produzione piuttosto che in una semplice demo di laboratorio.

Per un essere umano, è un tutorial. Per un agente AI, è una mappa ad alta fedeltà dell’interfaccia. Ciò consente agli agenti di “vedere” e ragionare attraverso interfacce utente complesse come fanno gli esseri umani, risolvendo “l’ultimo miglio” dell’automazione in cui gli agenti in precedenza fallivano a causa della mancanza di un contesto aziendale specifico e di utilizzo in situ.

In un certo senso, Guidde sta costruendo una “macchina a guida autonoma” come una Waymo per l’utilizzo del computer.

Prodotto: tre pilastri della Guidance

La piattaforma si è evoluta in tre prodotti distinti progettati per adattarsi alla maturità di un’organizzazione:

  1. Guida Crea: il motore che consente agli esperti in materia di trasformare i flussi di lavoro in documentazione in pochi minuti.
  2. Guide Broadcast: un motore di consigli personalizzato, spesso paragonato a Netflix, che fornisce risposte all’interno degli strumenti che le persone utilizzano effettivamente. Sa chi è l’utente e in quale reparto si trova per far emergere contenuti pertinenti esattamente quando necessario.
  3. Guida Scopri: Il pilastro “agentico” appena lanciato. Come Waze mappa le strade osservando i guidatori, Discover mappa i percorsi tramite software monitorando il modo in cui lavorano i dipendenti. Comprende il flusso di lavoro, crea il contenuto e lo aggiorna automaticamente quando l’interfaccia utente cambia.

Addestrare gli esseri umani su come utilizzare l’intelligenza artificiale e l’intelligenza artificiale che utilizza gli esseri umani

L’aspetto meno ovvio della crescita di Guidede è la sua duplice missione. “Siamo l’unica piattaforma che forma sia esseri umani che agenti”, ha affermato Einav.

Man mano che le aziende implementano strumenti di intelligenza artificiale come Microsoft 365 Copilot o gli agenti ServiceNow, incontrano un divario di competenze. Uno dei maggiori clienti di Guidede ha rivelato che pagava oltre 1 milione di dollari all’anno per un sofisticato strumento di intelligenza artificiale, ma “nessuno sa come usarli perché gli piaceva una sessione di formazione di 30 minuti, e poi basta”. Guidede colma questa lacuna fornendo tutorial video “in miniatura” nel flusso di lavoro.

Allo stesso tempo, questi video addestrano gli stessi agenti IA. I modelli di base come Gemini o GPT-4 spesso hanno allucinazioni quando vengono incaricati di flussi di lavoro aziendali specifici perché non sono stati addestrati sui “flussi di lavoro vanilla” interni altamente specifici presenti nei sistemi aziendali privati. Guidede fornisce il “punto di partenza”, i “metadati” e le “coordinate x, y del pulsante” di cui un agente ha bisogno per completare un’azione senza rimanere bloccato.

Il vantaggio multimodale

Per mantenere questo livello di precisione, Guidede utilizza un’infrastruttura multimodale. Il sistema non si basa su un unico modello; utilizza invece una “flotta” di modelli che si valutano a vicenda.

  • Google Gemelli: generalmente utilizzato per attività visive come l’analisi di PDF o PowerPoint.
  • Claude antropico: Utilizzato per scrivere la trama e le sceneggiature narrative.
  • Cicli di feedback: quando un utente modifica un video, i dati vengono reinseriti nel modello per evitare che si verifichino gli stessi errori nelle acquisizioni future.

Questo approccio consente a Guidede di sostituire una serie legacy di sei o sette strumenti sconnessi (Loom per l’acquisizione, Adobe Premiere per l’editing, 11Labs per la sintesi vocale e Synthesia per gli avatar) con un’unica piattaforma nativa per l’intelligenza artificiale. “Fondamentalmente imballiamo tutto per te”, afferma Einav, “e automatizziamo l’intero processo in base alle linee guida del tuo marchio”.

Storia delle origini del primo video

La genesi di Guidde risiede in una frustrazione familiare a qualsiasi leader di prodotto. Prima di fondare l’azienda, Einav e il co-fondatore Dan Sahar hanno trascorso anni a padroneggiare il traffico video presso Qwilt, una società fondata nel 2010 per analizzare il modo in cui le persone guardavano Netflix e Disney+.

Quando è arrivato il COVID-19, hanno visto un’enorme opportunità per applicare la propria esperienza video sul posto di lavoro. Hanno osservato che brevi video esplicativi potrebbero aumentare le conversioni da account da gratuiti a a pagamento del 30%, ma l’attrito nel crearli era insostenibile.

In un’intervista, Einav ha ricordato il “lavoro noioso” del vecchio mondo: “Il mio team in Israele creava il contenuto, qualcuno negli Stati Uniti con un accento americano faceva la narrazione, qualcuno nel team di marketing scriveva la sceneggiatura… e qualcuno nel team di abilitazione si occupava del montaggio.” Questo flusso di lavoro frammentato implicava che la produzione di un singolo video richiedesse dalle due alle tre settimane. “E poi due settimane dopo, il prodotto cambia ed è necessario rifarlo da zero”, ha aggiunto Einav.

Guidede è stata costruita per ridurre questo ciclo in pochi secondi. Automatizzando la “Magic Capture” di un flusso di lavoro, la piattaforma genera istantaneamente uno script narrativo strutturato e una voce fuori campo AI professionale. Ciò rimuove il collo di bottiglia dell’editing, trasformando gli esperti in materia in “potenze di formazione”.

Licenze e impatto sul mercato

La struttura dei prezzi di Guidede riflette la sua transizione da un servizio di pubblica utilità a un elemento centrale dell’infrastruttura aziendale:

  • Gratuito: $ 0 (fino a 25 video, supporto app Web).
  • Pro: $18/creatore/mese (video illimitati, kit del brand).
  • Attività commerciale: $ 39/autore/mese (da testo a voce illimitato, analisi).
  • Impresa: Prezzi personalizzati (traduzione multilingue, SSO, Redazione magica).

L’impatto della piattaforma è già visibile nei numeri: a Riduzione del 41% del tempo di creazione del video E 34% in meno di ticket di supporto in entrata.

Per clienti come Emerson, ciò si traduce in una creazione delle guide più rapida del 40–60%. I team di supporto, in particolare, stanno scoprendo di poter scaricare l’80% del volume dei loro ticket sugli agenti, ma solo se questi agenti hanno i contenuti utili.

“L’agente senza il contenuto è inutile”, avverte Einav, sottolineando che la maggior parte della documentazione aziendale è obsoleta da anni o del tutto priva di documentazione.

Accoglienza anticipata da parte della comunità e dell’industria

Guidede vanta già 4.500 clienti aziendali e cerca di espandere questo numero con il suo nuovo ciclo di finanziamenti. I leader del supporto e delle operazioni si sono espressi apertamente sulla facilità d’uso della piattaforma. Christopher Cummings, VP of Client Experience presso DocNetwork, ha evidenziato la sua capacità di fornire “risposte video rapide e personalizzate alle domande dei clienti”.

Nel frattempo, Wren Cotrone, direttore dell’assistenza clienti, ha osservato che “una volta impostato il marchio nel modo desiderato, puoi davvero ingrandire queste cose”.

Ronen Nir, amministratore delegato del PSG, ha riassunto la tesi dell’investimento: “Guidde sta risolvendo uno dei maggiori ostacoli al successo dell’adozione dell’intelligenza artificiale: l’infrastruttura della conoscenza”.

Perché questo è importante adesso

Il cambiamento di paradigma dai LLM di solo testo all’intelligenza video degli agenti è la tendenza decisiva del 2026. La serie B di Guidede segnala che la “verità fondamentale” per gli agenti aziendali deriverà dall’osservazione video grezza, non dalla documentazione statica.

Catturando il modo in cui il lavoro viene svolto in decine di milioni di flussi di lavoro, Guidde sta costruendo un set di dati che pochi altri possiedono.

Come ha detto Einav: “Si inizia con gli esseri umani nel circuito e col tempo si muove verso la piena autonomia”. Per l’azienda moderna, la mappa non è più un documento statico: è uno strato di video intelligence vivo e pulsante che guida sia la forza lavoro che gli agenti che la supportano.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here