Le imprese lo sono generare più video che mai. Da anni di archivi di trasmissione a migliaia di telecamere di negozi e innumerevoli ore di filmati di produzione, la maggior parte di essi rimane inutilizzata sui server, non guardato e non analizzato. Questo è dati oscuri: una risorsa enorme e non sfruttata che le aziende raccolgono automaticamente ma non utilizzano quasi mai in modo significativo.
Per affrontare il problema, Aza Kai (CEO) e Hiraku Yanagita (COO), due ex Googler che hanno trascorso quasi un decennio a lavorare insieme presso Google Japan, hanno deciso di creare la propria soluzione. Il duo è co-fondatore InfiniMinduna startup con sede a Tokyo che sviluppa un’infrastruttura che converte petabyte di video e audio non visualizzati in dati aziendali strutturati e interrogabili.
“Il mio co-fondatore, che ha trascorso dieci anni alla guida di soluzioni di model e dati presso Google Japan, e io abbiamo previsto questo punto di svolta mentre eravamo ancora in Google”, ha affermato Kai. Entro il 2024, la tecnologia period maturata e la domanda del mercato period diventata abbastanza chiara da spingere i cofondatori a sentirsi obbligati a costruire l’azienda da soli, ha aggiunto.
Kai, che in precedenza ha lavorato presso Google Japan occupandosi di cloud, machine studying, sistemi pubblicitari e modelli di consigli video e in seguito ha guidato crew di knowledge science, ha spiegato che le soluzioni attuali impongono un compromesso. Gli approcci precedenti potevano etichettare gli oggetti in singoli fotogrammi, ma non erano in grado di tracciare le narrazioni, comprendere la causalità o rispondere a domande complesse sui contenuti video. Per i clienti con decenni di archivi di trasmissioni e petabyte di filmati, anche le domande più elementari sui loro contenuti spesso rimanevano senza risposta.
Ciò che è veramente cambiato è stato il progresso nei modelli di linguaggio visivo tra il 2021 e il 2023. È stato allora che l’intelligenza artificiale video ha iniziato advert andare oltre il semplice tagging degli oggetti, ha osservato Kai. Il calo dei costi delle GPU e l’aumento annuale delle prestazioni di circa il 15-20% nell’ultimo decennio hanno aiutato, ma la cosa più importante period la capacità. Fino a poco tempo fa, i modelli semplicemente non riuscivano a svolgere il lavoro, ha detto a TechCrunch.
InfiniMind ha recentemente ottenuto 5,8 milioni di dollari in finanziamenti iniziali, guidati da UTEC e affiancati da CX2, Headline Asia, Chiba Dojo e un ricercatore di intelligenza artificiale presso a16z Scout. La società sta trasferendo la propria sede negli Stati Uniti, mentre continua a gestire un ufficio in Giappone. Il Giappone ha fornito il banco di prova perfetto: {hardware} potente, ingegneri di talento e un ecosistema di startup di supporto, consentendo al crew di mettere a punto la propria tecnologia con clienti esigenti prima di diventare globali.
Il suo primo prodotto, TV Pulse, è stato lanciato in Giappone nell’aprile 2025. La piattaforma basata sull’intelligenza artificiale analizza i contenuti televisivi in tempo reale, aiutando le società di media e vendita al dettaglio a “monitorare l’esposizione del prodotto, la presenza del marchio, il sentiment dei clienti e l’impatto delle pubbliche relazioni”, secondo la startup. Dopo i programmi pilota con le principali emittenti e agenzie, ha già clienti paganti, inclusi grossisti e società di media.
Evento Techcrunch
Boston, MA
|
23 giugno 2026
Ora InfiniMind è pronto per il mercato internazionale. Il suo prodotto di punta, DeepFrame, una piattaforma di video intelligence di lunga durata in grado di elaborare 200 ore di filmati per individuare scene, relatori o eventi specifici, è previsto per il rilascio beta a marzo, seguito da un lancio completo nell’aprile 2026, ha affermato Kai.
Lo spazio di analisi video è altamente frammentato. Aziende come TwelveLabs forniscono API generiche di comprensione video per un’ampia gamma di utenti, inclusi consumatori, prosumer e imprese, ha affermato Kai, mentre InfiniMind si concentra specificamente su casi d’uso aziendali, tra cui monitoraggio, sicurezza e analisi dei contenuti video per approfondimenti.
“La nostra soluzione non richiede codice; i clienti portano i loro dati e il nostro sistema li elabora, fornendo informazioni utili”, ha affermato Kai. “Integriamo anche l’audio, il suono e la comprensione del parlato, non solo le immagini. Il nostro sistema può gestire una lunghezza video illimitata e l’efficienza in termini di costi è un importante elemento di differenziazione. La maggior parte delle soluzioni esistenti dà priorità alla precisione o a casi d’uso specifici, ma non risolve le sfide legate ai costi.”
Il finanziamento iniziale aiuterà il crew a continuare a sviluppare il modello DeepFrame, espandere l’infrastruttura tecnica, assumere più ingegneri e raggiungere ulteriori clienti in Giappone e negli Stati Uniti
“Questo è uno spazio entusiasmante, uno dei percorsi verso l’AGI”, ha detto Kai. “Comprendere l’intelligenza video generale significa comprendere la realtà. Le applicazioni industriali sono importanti, ma il nostro obiettivo finale è ampliare i confini della tecnologia per comprendere meglio la realtà e aiutare gli esseri umani a prendere decisioni migliori.”










