OpenAI: SWE-bench Verified är för lätt för att mäta frontier-kodning

OpenAI meddelar att bolaget slutar använda SWE-bench Verified som benchmark för frontier-kodningsmodeller. Anledningen är att de ledande systemen nu löser så stor andel av testuppgifterna att benchmarket inte längre förmår skilja dem åt.

SWE-bench Verified har sedan lanseringen använts brett i branschen som referenspunkt för att jämföra kodningsförmåga hos olika modeller och verktyg. När toppsystemen mättar taket på ett benchmark förlorar det sitt värde som urvalskriterium - ett skifte som direkt påverkar hur AI-produktutvecklare och ingenjörer bör tolka äldre modeljämförelser baserade på testet.

OpenAI antyder i meddelandet att bolaget arbetar med mer realistiska och komplexa testsviter, inriktade på att mäta nästa generations agentiska kodningsförmåga. Det handlar om scenarion som bättre speglar verkliga programmeringsuppgifter snarare än isolerade bugfixar.

Nyheten fick snabbt genomslag i utvecklarcommunityt och samlade 260 poäng och 146 kommentarer på Hacker News, vilket speglar hur centralt SWE-bench Verified har varit som gemensam referens i diskussioner om kodande AI-system.