OpenAI: SWE-bench Verified mäter inte längre frontier-kodningsförmåga
OpenAI meddelar att bolaget slutar använda SWE-bench Verified som benchmark för frontier-kodningsmodeller. Anledningen är att de ledande systemen nu löser så stor andel av testuppgifterna att benchmarket inte längre förmår skilja dem åt.