Laboratorio di intelligenza artificiale con sede a San Francisco Arcee ha fatto scalpore lo scorso anno per essere stata una delle poche aziende statunitensi a formare modelli linguistici di grandi dimensioni (LLM) da zero e a rilasciarli al pubblico con licenze open o parzialmente open supply, consentendo a sviluppatori, imprenditori individuali e persino aziende medio-grandi di utilizzare gratuitamente i potenti modelli di intelligenza artificiale e personalizzarli a piacimento.
Ora Arcee torna anche questa settimana con il rilascio del suo modello di linguaggio aperto più grande e performante fino advert oggi: Trinità Grandeuna miscela di esperti (MoE) da 400 miliardi di parametri, ora disponibile in anteprima,
Oltre alla versione di punta, Arcee sta distribuendo un modello di checkpoint “grezzo”, Trinity-Large-TrueBaseche consente ai ricercatori di studiare ciò che un MoE sparso 400B apprende dai soli dati grezzi, prima che venga applicata la messa a punto e il rinforzo delle istruzioni.
Fornendo una tabula rasa alla soglia dei 10 trilioni di token, Arcee consente agli sviluppatori di intelligenza artificiale in settori altamente regolamentati di eseguire audit autentici e condurre i propri allineamenti specializzati senza ereditare i pregiudizi della “scatola nera” o le stranezze di formattazione di un modello di chat generico. Questa trasparenza consente una comprensione più profonda della distinzione tra le capacità di ragionamento intrinseche di un modello e i comportamenti utili messi a punto durante le fasi finali della post-formazione.
Questo lancio arriva mentre potenti different LLM open supply cinesi di aziende del calibro di Alibaba (Qwen), z.AI (Zhipu), DeepSeek, Moonshot e Baidu hanno invaso il mercato, guidando di fatto la categoria con architetture advert alta efficienza.
Trinity Massive arriva anche dopo che Meta si è notevolmente ritirato dal panorama open supply di frontiera. Dopo il debutto nell’aprile 2025 di Llama 4, che è stato accolto con un’accoglienza mista, e in seguito l’ex ricercatore di Meta AI Yann LeCun ha ammesso che la società ha utilizzato più versioni specializzate del modello per gonfiare i punteggi sui benchmark di terze parti.
In questo vuoto domestico, solo OpenAI, con la sua famiglia gpt-oss rilasciata nell’property del 2025, e Arcee stanno attualmente portando avanti il manto di nuovi modelli open supply fabbricati negli Stati Uniti addestrati interamente da zero.
Tanto scarsi quanto arrivano
Trinity Massive è degno di nota per l’estrema scarsità del suo meccanismo di attenzione. In un’architettura MoE, la “sparsità” si riferisce alla capacità del modello di attivare selettivamente solo una piccola frazione dei suoi parametri totali per un determinato compito.
Mentre Trinity Massive ospita 400B parametri totali, solo l’1,56% (13B parametri) è attivo in un dato momento.
Questa scelta architetturale è significativa perché consente al modello di possedere la “conoscenza” di un sistema enorme mantenendo la velocità di inferenza e l’efficienza operativa di un sistema molto più piccolo, ottenendo prestazioni circa 2-3 volte più veloci rispetto ai suoi pari sullo stesso {hardware}.
La sovranità e la filosofia “TrueBase”.
Il contributo più significativo di questa versione alla comunità di ricerca è Trinity-Massive-TrueBase, un checkpoint grezzo da 10 trilioni di token.
A differenza di quasi tutte le altre versioni “aperte”, che arrivano dopo essere state “deformate” dall’ottimizzazione delle istruzioni e dall’apprendimento per rinforzo, TrueBase offre uno sguardo raro e incontaminato all’intelligenza fondamentale.
Nella fretta di rendere i modelli utili, la maggior parte dei laboratori applica la messa a punto supervisionata (SFT) e l’apprendimento per rinforzo dal suggestions umano (RLHF) prima che i pesi vengano rilasciati. Sebbene ciò renda il modello un migliore conversatore, può mascherare le distribuzioni della conoscenza sottostante.
TrueBase fornisce un “modello base OG” che non è ancora stato sottoposto alla ricottura del tasso di apprendimento o alla pre-formazione di fase due e tre in cui vengono generalmente introdotti i dati delle istruzioni.
Per i ricercatori e le imprese di settori altamente regolamentati, partire da TrueBase consente controlli autentici e un allineamento personalizzato. Come ha osservato Lucas Atkins, CTO di Arcee, in una videochiamata con VentureBeat: “È interessante notare che il checkpoint stesso è già uno dei modelli base più performanti al mondo”.
Tecnologia: ingegneria attraverso il vincolo
La creazione del Trinity Massive non è stata il prodotto di risorse infinite, ma piuttosto di ciò che Atkins chiama “ingegneria attraverso i vincoli”.
Il modello, formato per circa 20 milioni di dollari in soli 33 giorni, rappresenta un corso di perfezionamento sull’efficienza del capitale.
Arcee, un crew di sole 30 persone, ha operato con un capitale totale di poco meno di 50 milioni di dollari, rendendo la corsa di formazione da 20 milioni di dollari una scommessa “sostenere l’azienda”.
“Ho sempre creduto che avere vincoli, sia finanziari che personali o altro, sia estremamente importante per la creatività”, ha spiegato Atkins. “Quando si dispone di un funds illimitato, intrinsecamente non è necessario trovare una through d’uscita da problemi complessi”.
Architettura: 4-of-256 Sparsity e SMEBU
Trinity Massive utilizza un’architettura MoE sparsa 4 su 256, il che significa che attiva solo 4 dei suoi 256 esperti per ogni token.
Questo elevato grado di scarsità, uno dei più alti mai addestrati con successo, ha creato notevoli problemi di stabilità durante il pre-addestramento.
Per risolvere questo problema, Arcee ha sviluppato Tender-clamped Momentum Skilled Bias Updates (SMEBU). Questo meccanismo garantisce che gli esperti siano specializzati e instradati equamente all’interno di un corpus net generale, impedendo che alcuni esperti diventino “vincitori” mentre altri rimangono un “peso morto” non addestrato.
La velocità del corso di formazione è stata facilitata dall’accesso anticipato di Arcee alle GPU Nvidia B300 (Blackwell). Questi chip fornivano circa il doppio della velocità della precedente generazione di Hopper e un significativo aumento della memoria.
“Il pre-allenamento è durato 33 giorni”, ha osservato Atkins. “Avremmo potuto farlo su Hopper, e probabilmente ci sarebbero voluti due o tre mesi. E a quel punto, saremo in una generazione di modelli completamente nuova”.
In collaborazione con DatologiaAIArcee ha utilizzato oltre 8 trilioni di token di dati sintetici. Tuttavia, non si trattava della tipica “imitazione” di dati sintetici in cui un modello più piccolo impara a parlare come uno più grande.
L’intento period invece quello di prendere testo net grezzo, come weblog o articoli di Wikipedia, e riscriverlo sinteticamente per condensare le informazioni in un numero minore di token totali. Questo processo ha aiutato il modello a imparare a ragionare sulle informazioni piuttosto che limitarsi a memorizzare le stringhe esatte dei token.
Il progetto architettonico incorpora anche livelli di attenzione alternati di finestre scorrevoli locali e globali in un rapporto 3:1. Questo approccio ibrido consente al modello di essere altamente efficiente in scenari a lungo contesto. Sebbene addestrato per una lunghezza di sequenza di 256k, Trinity Massive supporta nativamente il contesto di 512k e le valutazioni suggeriscono che rimane performante anche all’orizzonte di 1 milione di token.
Confronto tecnico: Trinity Massive vs. gpt-oss-120b
Come alternativa americana, Trinity Massive può essere paragonato a gpt-oss-120b di OpenAI.
Sebbene entrambi i modelli utilizzino architetture sparse per ottenere prestazioni di livello avanzato con licenze permissive, svolgono ruoli operativi diversi.
Mentre gpt-oss-120b detiene attualmente un vantaggio nel ragionamento specifico e nei benchmark matematici, Trinity Massive offre un vantaggio significativo in termini di capacità di contesto e profondità di parametri grezzi per flussi di lavoro agentici complessi in più fasi.
Sovranità: riempire il vuoto
Il rilascio di Trinity Massive è una dichiarazione tanto geopolitica quanto tecnica. Il CEO Mark McQuade ha notato a VentureBeat nella stessa intervista che il vuoto di modelli open supply americani a livello di frontiera ha forzato una svolta nella strategia di Arcee.
“Si è verificato questo tipo di cambiamento in cui gli operatori con sede negli Stati Uniti o in Occidente hanno smesso di rendere pubblici questi modelli”, ha affermato McQuade. “Ci basiamo su questi modelli per poi entrare nelle organizzazioni e portarle oltre… ma i laboratori cinesi hanno appena iniziato… producendo modelli all’avanguardia e open supply”.
Per McQuade, ciò creò una dipendenza con la quale le imprese americane si sentivano sempre più a disagio. “Soprattutto nelle conversazioni che stiamo avendo con le grandi organizzazioni, queste non sono state in grado di utilizzare architetture basate sulla Cina”, ha spiegato. “Vogliamo essere quel campione negli Stati Uniti. [It] in realtà non esiste in questo momento”.
Rilasciando sotto la licenza Apache 2.0, Arcee fornisce il quadro permissivo commonplace di riferimento che consente alle aziende di “possedere” interamente il livello del modello. Ciò è fondamentale per settori come la finanza e la difesa, dove l’utilizzo di un modello ospitato da terze parti o da un supplier cloud restrittivo è un fallimento.
Bilanciare l’intelligenza con l’utilità
Arcee si sta attualmente concentrando sul “modello di pensiero corrente” per trasformare Trinity Massive da un modello di istruzioni generali a un modello di ragionamento completo. Il crew è alle prese con l’equilibrio tra “intelligenza e utilità”, cercando di creare un modello che eccelle nei benchmark senza diventare “allegro” o inefficiente nelle applicazioni di produzione reali.
“Abbiamo costruito Trinity in modo che tu possa possederlo”, afferma il crew, segnalando un ritorno ai valori fondamentali del movimento open supply americano. Mentre il settore si sposta verso flussi di lavoro basati su agenti e massicci requisiti di contesto, Trinity Massive si posiziona non come un “involucro”, ma come uno strato infrastrutturale sovrano che gli sviluppatori possono finalmente controllare.













