Nyhet

Korta dagliga AI-nyheter från flöden.

6 inlägg

Nyhet2026-04-27

#Modellreleaser

OpenAI: SWE-bench Verified mäter inte längre frontier-kodningsförmåga

OpenAI meddelar att bolaget slutar använda SWE-bench Verified som benchmark för frontier-kodningsmodeller. Anledningen är att de ledande systemen nu löser så stor andel av testuppgifterna att benchmarket inte längre förmår skilja dem åt.

Nyhet2026-04-27

#Claude-ekosystemet

Plugin tvingar Claude Code att lyssna och planera ordentligt innan det kodar

Ett open source-plugin vid namn Relay har släppts för Claude Code under MIT-licens. Pluginet inför ett obligatoriskt fråge- och planeringssteg som hindrar modellen från att hoppa direkt till implementation.

Nyhet2026-04-27

#Agenter

Anthropic testade agentmarknad där AI-agenter handlade med varandra för riktiga pengar

Anthropic har genomfört ett experiment där företaget skapade en kontrollerad testmarknad i form av en klassificerad annonstjänst, där AI-agenter agerade som både köpare och säljare och slöt verkliga avtal om riktiga varor för riktiga pengar.

Nyhet2026-04-27

GPT-5.5 lanseras i API:et med förbättrad agentisk kodning och datoranvändning

OpenAI har släppt GPT-5.5 i sitt API med fokus på agentisk kodning, datoranvändning och generella datoruppgifter. Samtidigt bekräftar företaget att det inte kommer att lanseras någon separat GPT-5.5-Codex-modell.

Nyhet2026-04-26

Öppen källkod: minneslager och Claude Code-verktyg trendar på GitHub

Fyra öppna källkodsprojekt kopplade till Claude Code och AI-agenter hamnade på GitHub Trending och Hacker News under tisdagen, vilket signalerar ett snabbväxande tredjepartsekosystem runt Anthropics utvecklarverktyg.

Nyhet2026-04-26

#Modellreleaser

DeepSeek V4 lanseras: 1,6 biljoner parametrar, 1 miljon tokens kontext och öppen källkod

DeepSeek har släppt en förhandsversion av sin nästa generations flaggskeppsmodell V4 i form av två varianter: DeepSeek-V4-Pro och DeepSeek-V4-Flash. Båda är MIT-licensierade Mixture-of-Experts-modeller med ett kontextfönster på 1 miljon tokens.