GPT-5.4: OpenAIs nye alt-i-ett-toppmodell

Nøkkelinnsikt
- GPT-5.4 kombinerer GPT-5.2 sin generelle kunnskap og GPT-5.3 Codex sine kodeegenskaper i en modell, på samme måte som Anthropic gjorde med Opus 4.6
- Tidlige testere melder om sterk kode- og agentytelse, men peker på at design av brukergrensesnitt fortsatt ligger bak Opus 4.6 og Gemini 3.1 Pro
- Prisene har steget sammenlignet med GPT-5.2, med inndatatokens til $2,50 per million og utdata til $15 per million for standardnivået
Denne artikkelen oppsummerer OpenAI just dropped GPT-5.4 and WOW..... Se videoen →
Les denne artikkelen på English
Kort fortalt
OpenAI har sluppet GPT-5.4, en ny toppmodell (det mest avanserte nivået av AI) som samler kodeegenskapene fra GPT-5.3 Codex med GPT-5.2 sine styrker innen kreativ skriving, personlighet og allmennkunnskap. YouTube-skaper Matthew Berman, som hadde tidlig tilgang i en uke, beskriver den som en enkelt modell som kan håndtere koding, datamaskinbruk, dokumentarbeid og agentoppgaver (AI som handler selvstendig ved hjelp av verktøy). Modellen kommer i to varianter: 5.4 Thinking og 5.4 Pro, og har et kontekstvindu på 1 million tokens. Det er samme kapasitet som Anthropic sine Claude-modeller allerede tilbyr.
Hva skjedde
OpenAI lanserte GPT-5.4 den 6. mars 2026, som selskapets første modell som mestrer både koding og generelle oppgaver på toppnivå. Tidligere måtte brukerne velge mellom GPT-5.2 for skriving og samtale, eller GPT-5.3 Codex for kode. GPT-5.4 samler begge i én pakke (2:08).
Berman sammenligner dette direkte med Anthropics Opus 4.6, som allerede kombinerte sterk koding med bred kunnskap i en enkelt modell (0:46). Med 5.4 tetter OpenAI forspranget.
Modellen har også fått en planleggingsfunksjon for Thinking-varianten. I stedet for å lage kode eller tekst med én gang, kan den først skissere planen sin (7:22). Dette ligner en mulighet som allerede er populær i kodeverktøy som Cursor.
Høydepunkter fra referansetester
| Referansetest | GPT-5.4 Thinking | Sammenligning |
|---|---|---|
| OSWorld (datamaskinbruk) | 75 % | Opus 4.6: 72,7 % (4:02) |
| SWE-bench Pro (koding) | 57,7 % | Gemini 3.1 Pro: 54,2 % (4:16) |
| GDPval (kunnskapsarbeid) | 83 % | Opus 4.6: 78 % (5:04) |
Prising: høyere kostnad for toppytelse
Den nye modellen koster mer enn forgjengerne. GPT-5.4 koster $2,50 per million inndatatokens, mot $1,75 for GPT-5.2. Det er en økning på 43 % (11:22). Utdataprisen ligger på $15 per million tokens. Pro-varianten er betydelig dyrere, med $30 per million inndatatokens og $180 per million utdatatokens.
| Modell | Inndata (per 1M tokens) | Utdata (per 1M tokens) |
|---|---|---|
| GPT-5.2 | $1,75 | $14 |
| GPT-5.4 | $2,50 | $15 |
| GPT-5.2 Pro | $21 | $168 |
| GPT-5.4 Pro | $30 | $180 |
Inndatakostnader kan reduseres gjennom hurtigbufring (gjenbruk av tidligere behandlet tekst), men utdataprisen er fast uansett.
Tidlige reaksjoner
Flere tidlige testere delte sine inntrykk. Matt Shumer kalte den "den beste modellen på planeten, uten tvil" og sa at 5.4 Thinking dekket alle behovene hans, noe som gjorde Pro-modeller unødvendige (14:18). Han beskrev kodeegenskapene som "tilnærmet feilfrie," selv om Berman påpeker at dette trolig er en overdrivelse.
Shumer pekte også på svakheter. Kvaliteten på design av brukergrensesnitt ligger ifølge ham bak både Opus 4.6 og Google sin Gemini 3.1 Pro (14:51). Han opplevde også at modellen stoppet før den var ferdig med oppgaver i OpenClaw-agentrammeverket (15:14). OpenAI-sjef Sam Altman skal ha svart at disse problemene ville bli fikset raskt.
Flavio Adamo, en annen tidlig tester, sa at modellen fullførte oppgaver i Codex som tidligere modeller brukte for lang tid på (15:43). Peter Steinberger, nå ansatt i OpenAI, beskrev den som "en bedre generell agent" som skriver bedre dokumentasjon. Han påpekte likevel at kodingsforbedringen er mindre enn hoppet fra GPT-5.0 til 5.1 (16:02).
Hva vi følger videre
- Om gapet i design av brukergrensesnitt mot Opus 4.6 blir tettet i kommende oppdateringer.
- Hvordan GPT-5.4 presterer som hovedmodell i agentrammeverk som OpenClaw over tid.
- Om prispress fra konkurrenter tvinger frem justeringer, ettersom toppmodeller fortsetter å bli dyrere.
Ordliste
| Begrep | Forklaring |
|---|---|
| Toppmodell (frontier model) | Den mest avanserte AI-modellen et selskap tilbyr. Vanligvis også den dyreste. |
| Kontekstvindu | Hvor mye tekst en AI-modell kan behandle i en enkelt samtale. 1 million tokens tilsvarer omtrent 750 000 ord. |
| Token | Den minste enheten tekst en AI-modell jobber med. Omtrent 3-4 tegn, eller rundt tre fjerdedeler av et ord. |
| Agentisk (agentic) | AI som kan handle selvstendig ved å bruke verktøy, surfe på nettet eller styre en datamaskin, i stedet for bare å lage tekst. |
| Referansetest (benchmark) | En standardisert test for å sammenligne ytelsen til AI-modeller. Ulike tester måler ulike ferdigheter. |
| SWE-bench | En referansetest som måler hvor godt AI kan fikse ekte programvarefeil hentet fra GitHub. |
| OSWorld | En referansetest som måler hvor nøyaktig AI kan bruke et komplett operativsystem. |
| GDPval | OpenAIs referansetest som måler hvor godt modeller utfører reelt kunnskapsarbeid som regneark, dokumenter og presentasjoner. |
| Hurtigbufring (caching) | Gjenbruk av tidligere behandlet inndata for å spare tid og kostnader. Som å forberede ingredienser på forhånd så senere måltider går raskere. |
Kilder og ressurser
Vil du vite mer? Se hele videoen på YouTube →