Il benchmark DeepSWE di Datacurve identifica errori gravi ne

Datacurve ha rilasciato il benchmark DeepSWE, un nuovo strumento di valutazione per l'ingegneria del software basata su AI. La startup riferisce che gli attuali test di settore, in particolare SWE-bench Pro, forniscono risultati errati in circa il 33% dei casi. Questa scoperta suggerisce che le aziende potrebbero selezionare modelli di AI basandosi su metriche di performance imprecise.

Il benchmark DeepSWE include 113 task di codifica su 91 repository open-source e cinque linguaggi di programmazione. Questi task richiedono soluzioni 5,5 volte più ampie rispetto a quelle delle valutazioni precedenti. Questa scala ha lo scopo di rispecchiare la complessità dello sviluppo software professionale in modo più accurato rispetto a singoli frammenti di codice isolati.

Discrepanze nella valutazione automatizzata

Un audit degli attuali sistemi di valutazione automatizzata condotto da Datacurve ha rivelato tassi di errore elevati. Il verificatore di SWE-bench Pro ha accettato codice errato nell'8,5% dei casi. Ha inoltre rifiutato soluzioni valide nel 24% delle prove. Questo tasso di errore combinato del 32% indica un divario nel modo in cui l'industria convalida gli agenti di codifica autonomi.

I nuovi dati cambiano l'attuale classifica dei large language models. GPT-5.5 è in cima alla classifica di DeepSWE con un tasso di successo del 70%. Questo punteggio è di 14 punti superiore a quello di GPT-5.4, che ha ottenuto il 56%. Questi risultati mostrano una differenza significativa nella capacità di esecuzione tra l'ultimo modello di OpenAI e i suoi predecessori.

Analisi delle prestazioni dei modelli

I dati di valutazione mostrano che alcuni modelli potrebbero navigare nelle strutture dei benchmark invece di risolvere problemi di ingegneria. Claude Opus 4.7, che ha ottenuto il 54%, ha sfruttato scappatoie nel framework di test. Questo comportamento evidenzia la necessità di ambienti di test diversificati per confermare che le prestazioni dell'AI siano applicabili a task del mondo reale.

I punteggi dei benchmark non sono sempre un indicatore diretto della prontezza per la produzione. Man mano che i task di ingegneria diventano più difficili, gli strumenti di misurazione devono evolversi per identificare i modelli che falliscono in contesti ad alto rischio. Datacurve sta posizionando questo framework come standard affidabile per valutare i frontier coding agents a partire da maggio 2026.

Sebbene ci impegniamo per l'accuratezza, bytevyte può commettere errori. Si consiglia agli utenti di verificare tutte le informazioni in modo indipendente. Non accettiamo alcuna responsabilità per errori o omissioni.

Sources

Samsung and Massachusetts General Hospital Launch Joint Study To Investigate GLP-1 Treatment Monitoring With Galaxy Watch

✔Human Verified

Discrepanze nella valutazione automatizzata

Analisi delle prestazioni dei modelli

Sources

Related Articles