Home Tecnologia Anthropic e OpenAI hanno appena messo in luce il punto cieco strutturale...

Anthropic e OpenAI hanno appena messo in luce il punto cieco strutturale di SAST con strumenti gratuiti

20
0

OpenAI ha lanciato Codex Security il 6 marzoentrando nel mercato della sicurezza delle applicazioni che Anthropic aveva rivoluzionato 14 giorni prima con Claude Code Safety. Entrambi gli scanner utilizzano il ragionamento LLM anziché la corrispondenza dei modelli. Entrambi hanno dimostrato che i tradizionali strumenti SAST (Static Utility Safety Testing) sono strutturalmente ciechi rispetto a intere classi di vulnerabilità. Lo stack di sicurezza aziendale si trova nel mezzo.

Anthropic e OpenAI hanno rilasciato in modo indipendente scanner di vulnerabilità basati sul ragionamento ed entrambi hanno trovato classi di bug che il SAST di corrispondenza dei modelli non è mai stato progettato per rilevare. La pressione competitiva tra due laboratori con una valutazione combinata del mercato privato superiore a 1,1 trilioni di dollari significa che la qualità del rilevamento migliorerà più velocemente di quanto qualsiasi singolo fornitore possa fornire da solo.

Né Claude Code Safety né Codex Safety sostituiscono lo stack esistente. Entrambi gli strumenti modificano permanentemente la matematica degli appalti. Al momento, entrambi sono gratuiti per i clienti aziendali. Il confronto testa a testa e le sette azioni riportate di seguito sono ciò di cui hai bisogno prima che il consiglio di amministrazione ti chieda quale scanner stai pilotando e perché.

Come Anthropic e OpenAI sono giunti alla stessa conclusione da architetture various

Anthropic ha pubblicato il suo ricerca zero-day il 5 febbraio insieme al rilascio di Claude Opus 4.6. Anthropic ha affermato che Claude Opus 4.6 ha rilevato più di 500 vulnerabilità di elevata gravità precedentemente sconosciute nelle basi di codice open supply di produzione che erano sopravvissute a decenni di revisione di esperti e milioni di ore di fuzzing.

Nella libreria CGIF, Claude ha scoperto un overflow del buffer dell’heap ragionando sull’algoritmo di compressione LZW, un difetto che il fuzzing guidato dalla copertura non è riuscito a rilevare nemmeno con una copertura del codice al 100%. Anthropic ha distribuito Claude Code Safety come anteprima di ricerca limitata il 20 febbraio, disponibile per i clienti Enterprise e Workforce, con accesso rapido e gratuito per i manutentori open supply. Gabby Curtis, responsabile delle comunicazioni di Anthropic, ha dichiarato a VentureBeat in un’intervista esclusiva che Anthropic ha creato Claude Code Safety per rendere le capacità difensive più ampiamente disponibili.

I numeri di OpenAI provengono da un’architettura diversa e da una superficie di scansione più ampia. Codex Safety si è evoluto da Aardvark, uno strumento interno basato su GPT-5 entrato in beta privata nel 2025. Durante il periodo beta di Codex Safety, l’agente di OpenAI ha scansionato più di 1,2 milioni di commit su repository esterni, facendo emergere quelli che secondo OpenAI erano 792 risultati critici e 10.561 risultati advert alta gravità. OpenAI ha segnalato vulnerabilità in OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP e Chromium, con conseguenti 14 CVE assegnati. Secondo OpenAI, i tassi di falsi positivi di Codex Safety sono diminuiti di oltre il 50% in tutti i repository durante la beta. La gravità sovrastimata è scesa di oltre il 90%.

I ricercatori di Checkmarx Zero lo hanno dimostrato che vulnerabilità moderatamente complicate a volte sfuggono al rilevamento di Claude Code Safety. Gli sviluppatori potrebbero indurre l’agente a ignorare il codice vulnerabile. In una scansione completa della base di codice di livello produttivo, Checkmarx Zero ha scoperto che Claude ha identificato otto vulnerabilità, ma solo due erano veramente optimistic. Se l’offuscamento moderatamente complesso sconfigge lo scanner, il limite di rilevamento è inferiore a quanto suggeriscono i numeri dei titoli. Né Anthropic né OpenAI hanno presentato dichiarazioni di rilevamento a un audit di terze parti indipendente. I chief della sicurezza dovrebbero considerare i numeri riportati come indicativi e non verificati.

Merritt Baer, ​​direttore generale della società Crittografa l’IA ed ex vice CISO di AWS, ha dichiarato a VentureBeat che la corsa competitiva agli scanner comprime la finestra per tutti. Baer ha consigliato ai group di sicurezza di dare priorità alle patch in base alla sfruttabilità nel loro contesto di runtime piuttosto che ai soli punteggi CVSS, di abbreviare la finestra tra rilevamento, valutazione e patch e di mantenere la visibilità della distinta dei materiali del software program in modo da sapere immediatamente dove viene eseguito un componente vulnerabile.

Metodi diversi, quasi nessuna sovrapposizione nelle basi di codice scansionate, ma la stessa conclusione. Il SAST di corrispondenza dei modelli ha un limite massimo e il ragionamento LLM estende il rilevamento oltre story limite. Quando due laboratori concorrenti distribuiscono story capacità allo stesso tempo, i conti del duplice uso diventano scomodi. Qualsiasi istituto finanziario o fintech che gestisce una codebase commerciale dovrebbe presumere che se Claude Code Safety e Codex Safety riescono a trovare questi bug, anche gli avversari con accesso API possono trovarli.

Baer lo ha detto senza mezzi termini: le vulnerabilità open supply emerse dai modelli di ragionamento dovrebbero essere trattate più vicino alle scoperte di classi zero-day, non agli elementi di arretrato. La finestra tra rilevamento e sfruttamento si è appena ridotta e la maggior parte dei programmi di gestione delle vulnerabilità si basa ancora sul solo CVSS.

Cosa dimostrano le risposte del venditore

Snykla piattaforma di sicurezza degli sviluppatori utilizzata dai group di ingegneri per trovare e correggere le vulnerabilità nel codice e nelle dipendenze open supply, ha riconosciuto la svolta tecnica ma ha sostenuto che trovare le vulnerabilità non è mai stata la parte difficile. Correggendoli su larga scala, su centinaia di repository, senza danneggiare nulla. Questo è il collo di bottiglia. Snyk ha sottolineato la ricerca che mostra che il codice generato dall’intelligenza artificiale lo è 2,74 volte più probabilità di introdurre vulnerabilità di sicurezza rispetto al codice scritto dall’uomo, secondo Rapporto sulla sicurezza del codice GenAI 2025 di Veracode. Gli stessi modelli che rilevano centinaia di zero-day introducono anche nuove classi di vulnerabilità quando scrivono il codice.

Il CTO di Cycode Ronen Slavin ha scritto che Claude Code Safety rappresenta un vero progresso tecnico nell’analisi statica, ma questo I modelli di intelligenza artificiale sono probabilistici per natura. Slavin ha sostenuto che i group di sicurezza necessitano di risultati coerenti, riproducibili e di livello audit e che una capacità di scansione incorporata in un IDE è utile ma non costituisce un’infrastruttura. La posizione di Slavin: SAST è una disciplina con un ambito molto più ampio e la scansione gratuita non sostituisce le piattaforme che gestiscono governance, integrità della pipeline e comportamento di runtime su scala aziendale.

“Se gli scanner di ragionamento del codice dei principali laboratori di intelligenza artificiale sono effettivamente gratuiti per i clienti aziendali, allora la scansione del codice statico diventa una merce da un giorno all’altro”, ha detto Baer a VentureBeat. Nel corso dei prossimi 12 mesi, Baer prevede che il funds si sposti verso tre aree.

  1. Livelli di runtime e sfruttabilitàinclusa la protezione runtime e l’analisi del percorso di attacco.

  2. Governance dell’intelligenza artificiale e sicurezza dei modellicompresi guardrail, difese contro l’iniezione tempestiva e supervisione degli agenti.

  3. Automazione della bonifica. “L’effetto finale è che la spesa per AppSec probabilmente non si riduce, ma il centro di gravità si sposta dalle tradizionali licenze SAST verso strumenti che accorciano i cicli di riparazione”, ha affermato Baer.

Sette cose da fare prima della prossima riunione del consiglio

  1. Esegui entrambi gli scanner rispetto a un sottoinsieme di codebase rappresentativo. Confronta i risultati di Claude Code Safety e Codex Safety con l’output SAST esistente. Inizia con un singolo repository rappresentativo, non con l’intera codebase. Entrambi gli strumenti sono in anteprima di ricerca con vincoli di accesso che rendono prematura la scansione dell’intero patrimonio. Il delta è il tuo inventario dei punti ciechi.

  2. Costruire il quadro di governance prima del progetto pilota, non dopo. Baer ha detto a VentureBeat di trattare entrambi gli strumenti come un nuovo processore di dati per i gioielli della corona, che è il codice sorgente. Il modello di governance di Baer embody un accordo formale sul trattamento dei dati con dichiarazioni chiare sull’esclusione della formazione, sulla conservazione dei dati e sull’uso di sub-responsabili del trattamento, una pipeline di invio segmentata in modo che vengano trasmessi solo i repository che si intende scansionare e una politica di classificazione interna che distingue il codice che può uscire dal proprio confine dal codice che non può farlo. Nelle interviste con più di 40 CISO, VentureBeat ha scoperto che i quadri di governance formale per gli strumenti di scansione basati sul ragionamento esistono ancora a malapena. Baer ha segnalato l’IP derivato come il punto cieco che la maggior parte dei group non ha affrontato. I fornitori di modelli possono conservare incorporamenti o tracce di ragionamento e questi artefatti sono considerati proprietà intellettuale? L’altra lacuna è la residenza dei dati per il codice, che storicamente non period regolamentata come i dati dei clienti ma rientra sempre più sotto il controllo delle esportazioni e la revisione della sicurezza nazionale.

  3. Mappa ciò che nessuno dei due strumenti copre. Analisi della composizione del software program. Scansione dei contenitori. Infrastruttura come codice. DAST. Rilevamento e risposta in fase di esecuzione. Claude Code Safety e Codex Safety operano al livello del ragionamento del codice. Il tuo stack esistente gestisce tutto il resto. Il potere di determinazione dei prezzi di quello stack è ciò che è cambiato.

  4. Quantificare l’esposizione al duplice uso. Ogni giorno zero Anthropic e OpenAI emersi vive in un progetto open supply da cui dipendono le applicazioni aziendali. Entrambi i laboratori divulgano informazioni e applicano patch in modo responsabile, ma il lasso di tempo tra la loro scoperta e l’adozione di tali patch è esattamente il luogo in cui operano gli aggressori. La startup di sicurezza AI AISLE ha scoperto tutto in modo indipendente 12 vulnerabilità zero-day nella patch di sicurezza di gennaio 2026 di OpenSSLincluso un overflow del buffer dello stack (CVE-2025-15467) potenzialmente sfruttabile in remoto senza materiale della chiave valido. I Fuzzer hanno corso contro OpenSSL per anni e li hanno persi tutti. Supponiamo che gli avversari stiano eseguendo gli stessi modelli sulle stesse basi di codice.

  5. Prepara il confronto tra schede prima che te lo chiedano. Claude Code Safety ragiona sul codice contestualmente, traccia i flussi di dati e utilizza l’autoverifica in più fasi. Codex Safety crea un modello di minaccia specifico per il progetto prima della scansione e convalida i risultati in ambienti sandbox. Ogni strumento è in anteprima di ricerca e richiede l’approvazione umana prima dell’applicazione di qualsiasi patch. Il consiglio ha bisogno di un’analisi affiancata, non di una presentazione di un singolo fornitore. Quando la conversazione si sposta sul motivo per cui la tua suite esistente non ha trovato ciò che Anthropic ha trovato, Baer ha offerto un’inquadratura che funziona a livello di scheda. Il SAST di abbinamento dei modelli ha risolto una diversa generazione di problemi, ha detto Baer a VentureBeat. È stato progettato per rilevare anti-pattern noti. Questa capacità è ancora importante e riduce comunque i rischi. Ma i modelli di ragionamento possono valutare la logica multi-file, le transizioni di stato e l’intento dello sviluppatore, che è dove risiedono molti bug moderni. Il riepilogo di Baer pronto per il consiglio: “Abbiamo acquistato gli strumenti giusti per le minacce dell’ultimo decennio; la tecnologia è semplicemente avanzata.”

  6. Monitorare il ciclo competitivo. Entrambe le società si stanno dirigendo verso IPO e le vittorie in materia di sicurezza aziendale guidano la narrativa di crescita. Quando uno scanner non individua un punto cieco, nel giro di poche settimane viene inserito nella roadmap delle funzionalità dell’altro laboratorio. Entrambi i laboratori inviano gli aggiornamenti dei modelli con cadenza mensile. Questa cadenza supererà il calendario di rilascio di ogni singolo fornitore. Baer ha affermato che eseguirli entrambi è la mossa giusta: “Modelli diversi ragionano in modo diverso e il delta tra loro può rivelare bug che nessuno dei due strumenti da solo sarebbe in grado di rilevare in modo coerente. Nel breve termine, utilizzarli entrambi non è ridondanza. È difesa attraverso la diversità dei sistemi di ragionamento.”

  7. Imposta una finestra pilota di 30 giorni. Prima del 20 febbraio questo take a look at non esisteva. Esegui Claude Code Safety e Codex Safety sullo stesso codice base e lascia che il delta guidi la conversazione sull’approvvigionamento con dati empirici anziché con il advertising and marketing del fornitore. Trenta giorni ti danno quei dati.

Quattordici giorni separavano Anthropic e OpenAI. Il divario tra le prossime versioni sarà più breve. Gli aggressori stanno guardando lo stesso calendario.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here