Home Tecnologia Questo nuovo strumento Claude Code Overview utilizza agenti AI per verificare la...

Questo nuovo strumento Claude Code Overview utilizza agenti AI per verificare la presenza di bug nelle tue richieste pull: ecco come

10
0

Antropico / Elyse Betters Picaro / ZDNET

Segui ZDNET: Aggiungici come fonte preferita su Google.


I principali punti salienti di ZDNET

  • Anthropic lancia agenti AI per esaminare le richieste pull degli sviluppatori.
  • I take a look at interni hanno triplicato il suggestions significativo sulla revisione del codice.
  • Le revisioni automatizzate possono individuare bug critici che gli esseri umani non rilevano.

Anthropic ha annunciato oggi una nuova funzionalità beta di Code Overview integrata in Claude Code per gli utenti dei piani Groups ed Enterprise. Si tratta di un nuovo strumento software program che utilizza agenti che lavorano in workforce per analizzare i blocchi completati di nuovo codice alla ricerca di bug e altri problemi potenzialmente problematici.

Cos’è una richiesta pull?

Per comprendere questa nuova offerta antropica, è necessario comprendere il concetto di richiesta pull. E Quello mi porta alla storia di un uomo di nome Linus.

Molto tempo fa, il creatore di Linux Linus Torvalds ebbe un problema. Stava gestendo molti contributi al sistema operativo Linux open supply. Tutti i cambiamenti stavano andando fuori controllo. I sistemi di controllo del codice sorgente (un metodo per gestire le modifiche al codice sorgente) esistevano già da un po’ di tempo, ma presentavano un grosso problema. Quei vecchi SCCS non erano pensati per gestire lo sviluppo distribuito da parte di programmatori in tutto il mondo.

Anche: Ho usato Claude Code per codificare un’app Mac in 8 ore, ma è stato più lavoro che magia

Quindi, Linus ha inventato Git. Se sei un programmatore, conosci Git. È il meccanismo di coordinamento sottostante per le modifiche al codice. E se pensavi che Linus fosse un dio della programmazione solo per Linux, la creazione di Git e dei suoi derivati, in particolare GitHub, dovrebbe metterlo lassù in cima al Monte Olimpo. Il tizio ha creato non solo una, ma due tecnologie che cambiano il mondo.

Oggi quasi tutti i progetti di grandi dimensioni utilizzano GitHub o uno dei suoi concorrenti. GitHub (differenziato da Git) è il servizio cloud centralizzato che contiene repository di codice gestiti da Git. Qualche anno fa, GitHub fu acquistato da Microsoft, promuovendo ogni sorta di teorie cospirative catastrofiche. Ma Microsoft ha dimostrato di essere un buon amministratore di questa preziosa risorsa e GitHub continua advert andare avanti, gestendo il codice mondiale.

Tutto ciò ci riporta alle pull request, conosciute come PR nel gergo dei programmatori. Una richiesta pull viene avviata quando un programmatore desidera archiviare del codice nuovo o modificato in un repository di codici. Piuttosto che semplicemente inserirlo nel percorso principale, un PR cube ai supervisori dei pronti contro termine che c’è qualcosa di nuovo, pronto per essere rivisto.

Anche: Ho provato a risparmiare $ 1.200 codificando gratuitamente Vibe e me ne sono subito pentito

Nota veloce: per i programmatori, PR è l’acronimo di pull request. Per gli esperti di advertising and marketing, PR significa pubbliche relazioni. Quando leggi di tecnologia, vedrai entrambi gli acronimi, quindi presta attenzione al contesto per distinguere tra i due.

A volte, il codice viene controllato molto attentamente prima di essere unito alla base di codice principale. Ma altre volte, viene semplicemente timbrato e fuso. Le revisioni del codice, sebbene necessarie, sono anche noiose e richiedono molto tempo.

Naturalmente, il costo per approvare una PR può essere catastrofico. Potresti spedire codice difettoso, che perde dati o danneggia i sistemi dell’utente. Nella migliore delle ipotesi, il codice difettoso è semplicemente fastidioso. Nel peggiore dei casi, può causare danni catastrofici.

È qui che entra in gioco la nuova Claude Code Overview di Anthropic.

Revisione del codice presso Anthropic

Nel mio articolo, 7 tecniche di codifica AI che utilizzo per spedire velocemente prodotti reali e affidabili, la mia tecnica bonus consisteva nell’utilizzare l’intelligenza artificiale per la revisione del codice. In qualità di sviluppatore solitario, non utilizzo un processo di revisione del codice formalizzato come quello introdotto da Anthropic.

Dico semplicemente a una nuova sessione dell’IA di guardare il mio codice e di farmi sapere cosa non va. A volte utilizzo la stessa intelligenza artificiale (advert esempio, Claude Code per guardare il codice di Claude) e altre volte utilizzo un’intelligenza artificiale diversa (come quando utilizzo il Codex di OpenAI per rivedere il codice generato da Claude Code). È lungi dall’essere una revisione completa, ma quasi ogni volta che chiedo una revisione, l’una o l’altra intelligenza artificiale trova qualcosa che deve essere risolto.

La nuova funzionalità Claude Code Overview è modellata sul processo utilizzato da Anthropic. L’azienda ha essenzialmente prodotto la propria metodologia interna. Secondo Anthropic, i clienti “Diteci che gli sviluppatori sono al limite e che molti PR ottengono scremature piuttosto che letture approfondite”.

Anche: Come passare da ChatGPT a Claude: Trasferire i tuoi ricordi e le tue impostazioni è facile

Questa nuova intelligenza artificiale per la revisione del codice è in grado di fornire una copertura più approfondita della revisione automatizzata prima che siano necessarie decisioni umane.

Anthropic afferma che l’output del codice per ingegnere Anthropic è aumentato del 200% nell’ultimo anno, intensificando la pressione sui revisori umani. Si pensa? L’azienda ha utilizzato la propria intelligenza artificiale per scrivere il codice, il che accelera la produzione del codice, quindi le modifiche e i nuovi blocchi di codice arrivano più velocemente che mai.

Anthropic riferisce che il nuovo sistema Code Overview viene eseguito internamente su quasi tutte le richieste pull. Quando un PR viene rivisto, i revisori umani spesso fanno commenti sui problemi che vedono, che il programmatore deve tornare indietro e risolvere.

Prima di eseguire Code Overview, i programmatori Anthropic ricevevano commenti di revisione “sostanziali” circa il 16% delle volte. Con Code Overview, i programmatori ricevono commenti sostanziali nel 54% dei casi. Sebbene ciò sembri significare più lavoro per i programmatori, ciò che in realtà significa è che quasi tre volte il numero di errori di codifica viene rilevato prima che causino danni.

Anche: Ho usato Claude Code per codificare un’app per Apple Watch in sole 12 ore, invece di 2 mesi

Secondo Anthropic, la dimensione delle PR interne influisce sul livello dei risultati della revisione. Le richieste pull di grandi dimensioni con più di 1.000 righe modificate mostrano risultati nell’84% dei casi. Piccole richieste pull inferiori a 50 righe producono risultati il ​​31% delle volte. Gli ingegneri antropici “sono ampiamente d’accordo con ciò che emerge: meno dell’1% dei risultati sono contrassegnati come errati”.

Diamine, quando codifico, anche se aggiungo solo una riga di codice, c’è la possibilità che introduca un bug. I take a look at e le revisioni del codice sono essenziali se non vuoi che migliaia di utenti ti vengano incontro brandendo forconi e torce virtuali. Non chiedermi come lo so.

Esempi di problemi emersi durante i take a look at

Sono sempre affascinato da ciò che sperimentano gli altri mentre svolgono il proprio lavoro. Anthropic ha fornito alcuni esempi di problemi identificati da Code Overview durante i suoi primi take a look at.

In un caso, un singolo cambio di riga sembrava essere una routine. Normalmente sarebbe stato approvato rapidamente. Ma Code Overview lo ha segnalato come critico. Si scopre che questo piccolo cambiamento avrebbe interrotto l’autenticazione per il servizio. Poiché Code Overview lo ha rilevato, è stato risolto prima dello spostamento. Il programmatore originale ha detto che non avrebbero rilevato quell’errore da soli.

Anche: Ho provato un rivale di Claude Code che è locale, open supply e completamente gratuito: come è andata

Un altro esempio si è verificato quando il codice di crittografia del file system veniva riorganizzato in un prodotto open supply. Secondo il rapporto, “Code Overview ha evidenziato un bug preesistente nel codice adiacente: una mancata corrispondenza del tipo che cancellava silenziosamente la cache della chiave di crittografia a ogni sincronizzazione.”

Questo è ciò che chiamiamo killer silenzioso nella programmazione. Ciò avrebbe potuto causare perdita di dati, peggioramento delle prestazioni e rischi per la sicurezza. Anthropic lo ha descritto come “Un problema latente nel codice che il PR ha toccato, il tipo di cosa che un revisore umano che analizza il changeset non andrebbe immediatamente a cercare”.

Se il problema non fosse stato scoperto e risolto, sarebbe stata una brutta giornata per qualcuno (o per un intero gruppo di qualcuno).

Come funziona il sistema di revisione multi-agente

Code Overview viene eseguito abbastanza rapidamente, eseguendo revisioni abbastanza complesse in circa 20 minuti. Quando viene aperta una richiesta pull, Code Overview avvia una serie di agenti che analizzano il codice in parallelo.

Vari agenti rilevano potenziali bug, verificano i risultati per filtrare i falsi positivi e classificano i problemi in base alla gravità. I risultati vengono consolidati in modo che tutti i risultati di tutti gli agenti vengano visualizzati come un unico commento di riepilogo sulla richiesta pull, insieme ai commenti in linea per problemi specifici.

Anche: Come installare e configurare Claude Code, passo dopo passo

In una demo, Anthropic ha mostrato che il commento di riepilogo può includere anche una direttiva di correzione. Pertanto, se Code Overview rileva un bug, può essere inviato a Claude Code per risolverlo. L’azienda afferma che le revisioni aumentano con la complessità: le richieste pull più grandi ricevono analisi più approfondite e più agenti.

Sembra che advert Anthropic piaccia davvero generare più agenti. In passato, ho avuto delle difficoltà abbastanza serie nel contrastarli dopo il lancio. In effetti, la prima tecnica che ho condiviso nel mio articolo sulle 7 tecniche di codifica è stata quella di dire specificamente a Claude Code di evitare di avviare agenti in parallelo.

Ci sono alcune funzionalità interne di gestione delle attività in Claude (il comando /duties, advert esempio), ma preferirei vedere un dashboard di gestione delle attività più completo prima di fare affidamento sui risultati di dozzine di agenti generati.

Modello di costo e controlli amministrativi

Le recensioni vengono fatturate in base all’utilizzo del token. I prezzi variano in base alle dimensioni e alla complessità della richiesta pull analizzata, ma l’azienda afferma che una revisione del codice in genere costa tra i 15 e i 25 dollari. In un certo senso, questo potrebbe diventare molto costoso molto rapidamente.

Uno dei substack più popolari legati all’ingegneria è The Pragmatic Engineer. In un articoloGergely Orosz afferma che gli ingegneri antropici producono tipicamente circa cinque PR al giorno ciascuno. In pratica, gli sviluppatori tipici che non utilizzano il supporto della codifica AI ne producono al massimo uno o due a settimana.

Anche: Vuoi codificare l’atmosfera locale? Questo stack AI potrebbe sostituire Claude Code e Codex, gratuitamente

Per fare un rapido calcolo, supponiamo che un’azienda abbia un centinaio di sviluppatori, ciascuno dei quali produce una PR al giorno, per cinque giorni alla settimana. Nel nostro esempio di fantasia, gli ingegneri del software program hanno i effective settimana liberi. Ciò porterebbe a 500 PR a settimana o 2.000 al mese. Con una media di 20 dollari per PR, story quantità di PR di revisione del codice potrebbe costare a questa azienda campione circa 40.000 dollari al mese, ovvero 480.000 dollari all’anno.

Potrebbe sembrare molto. Ma poi si tiene conto del costo di un bug catastrofico che si diffonde ai clienti e di quanto ciò potrebbe costare in dollari reali e valore della reputazione del marchio da risolvere, e inizia a sembrare conveniente.

È chiaro che Anthropic ha trovato un nuovo centro di profitto. Anche a questo livello di spesa, probabilmente vale la pena che le aziende utilizzino attivamente Code Overview.

L’azienda afferma che esistono modi per controllare la spesa e l’utilizzo, tra cui:

  • Limiti mensili dell’organizzazione: definisce la spesa mensile totale per tutte le recensioni.
  • Controllo a livello di repository: attiva le revisioni solo sui repository scelti.
  • Cruscotto di analisi: monitora i PR esaminati, il tasso di accettazione e i costi totali di revisione.

Controllo automatico

Gli amministratori con piani Group ed Enterprise possono abilitare la revisione del codice tramite le impostazioni del codice Claude e l’installazione dell’app GitHub. Una volta attivate, le revisioni vengono eseguite automaticamente sulle nuove richieste pull senza ulteriore configurazione da parte dello sviluppatore. Questo è uno dei motivi per cui i limiti di utilizzo e il controllo a livello di repository diventano piuttosto importanti per la gestione dei costi.

E tu?

Stai già utilizzando strumenti di intelligenza artificiale per rivedere il tuo codice o eseguire richieste pull? Ti fideresti di un sistema multi-agente automatizzato per segnalare bug e problemi di sicurezza prima che gli umani vedano il codice? Ritieni che abbia senso pagare da $ 15 a $ 25 per richiesta pull per la revisione automatizzata o i costi si sommerebbero troppo rapidamente?

Anche: Claude Code ha guadagnato l’incredibile cifra di 1 miliardo di dollari in 6 mesi e la mia app per iPhone codificata con intelligenza artificiale mostra il perché

Se sei uno sviluppatore, i revisori del codice AI hanno già rilevato problemi che potresti non aver notato? Come ho detto, utilizzo solo i suggerimenti di base per generare revisioni del codice, ma questo mi ha sicuramente aiutato a produrre un codice migliore.

E tu? Fatecelo sapere nei commenti qui sotto.


Puoi seguire gli aggiornamenti quotidiani sui miei progetti sui social media. Assicurati di iscriverti a la mia newsletter di aggiornamento settimanalee seguimi su Twitter/X all’indirizzo @DavidGewirtzsu Fb all’indirizzo Facebook.com/DavidGewirtzsu Instagram all’indirizzo Instagram.com/DavidGewirtzsu Bluesky a @DavidGewirtz.come su YouTube all’indirizzo YouTube.com/DavidGewirtzTV.



fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here