Hopp til innhold
Tilbake til artikler

GPT-5.4 i praksis: Rask og smart, men dyr

6. mars 2026·7 min lesing·1,324 ord
AIOpenAIGPT-5.4NyheterVideo Summary
Richard Oliver Bray tester GPT-5.4 på Better Stack sin YouTube-kanal
Bilde: Skjermbilde fra YouTube.

Nøkkelinnsikt

  • GPT-5.4 har en ny Playwright-ferdighet som lar den åpne en nettleser, oppdage visuelle feil og fikse dem uten menneskelig hjelp. Et 3D-prosjekt ble laget med bare tre ledetekster
  • Verktøysøk kutter tokenforbruket med 47 % når mange verktøy er koblet til, men GPT-5.4 har den tregeste responstiden av alle store modeller
  • Anthropics Opus 4.6 lager fortsatt bedre brukergrensesnitt i direkte sammenligninger, noe som bekreftes av Design Arena-rangeringene
KildeYouTube
Publisert 6. mars 2026
Better Stack
Better Stack
Vertskap:Richard Oliver Bray

Denne artikkelen oppsummerer The New Best Model Is Here (GPT-5.4). Se videoen

Les denne artikkelen på English


Kort fortalt

Richard Oliver Bray, utviklerpedagog hos Better Stack, brukte flere timer på å teste OpenAI sin nylig lanserte GPT-5.4. Konklusjonen hans: modellen er en tydelig oppgradering for koding og agentoppgaver (oppgaver der AI handler selvstendig), med imponerende nettleserautomatisering gjennom en ny Playwright-ferdighet. Men den har den tregeste responstiden av alle store modeller, høye API-priser, og brukergrensesnittene den lager ligger fortsatt bak Anthropic sin Opus 4.6 i direkte tester.

47 %
tokenreduksjon med verktøysøk
1,5x
raskere output i hurtigmodus
$180/M
Pro-pris per million output-tokens

Ambisjonen: én modell som kan alt

Bray beskriver GPT-5.4 som OpenAIs forsøk på å slå sammen kodekraften fra Codex 5.3 med kunnskapen og nettsøk-evnene til GPT-5.2 i én enkelt modell (0:30). Ifølge tredjeparts-målinger fra Artificial Analysis ser strategien ut til å ha fungert: GPT-5.4 rangeres som den beste kodemodellen, den beste agentmodellen, og deler førsteplassen med Googles Gemini som beste intelligensmodell (0:44).

Den viktigste nyheten er innebygd datamaskinstyring (computer use). GPT-5.4 skal angivelig være OpenAIs første generelle modell med innebygde evner til å styre en datamaskin gjennom mus- og tastaturkommandoer basert på skjermbilder (0:57). OpenAI har også lansert en eksperimentell Playwright-ferdighet, et verktøy for nettleserautomatisering bygget på Microsofts åpen kildekode-bibliotek (1:08).

Demoen: 3D Tower Bridge med tre ledetekster

Bray testet dette ved å be GPT-5.4 bygge en interaktiv 3D-opplevelse av Tower Bridge i London. Den første versjonen tok rundt 30 minutter fra én enkelt ledetekst (1:50). Modellen skrev kode, åpnet en nettleser med Playwright-ferdigheten, navigerte i 3D-scenen, oppdaget visuelle problemer som bakgrunner som ikke passet sammen, hoppet tilbake i koden for å fikse dem, og begynte på nytt (1:35).

Etter to nye ledetekster for å fikse detaljer som båter som sto sidelengs og teksturer som overlappet hverandre, tok hele prosjektet omtrent 1,5 timer med helt håndfri utvikling (2:10). Bray kaller det "langt fra perfekt", men et "opplagt steg opp" for eksisterende Codex-brukere.

Verktøysøk: mindre sløsing, samme treffsikkerhet

Den andre viktige funksjonen er verktøysøk (tool search). Når en AI-modell har mange verktøy koblet til gjennom MCP-servere (Model Context Protocol, en standard for å koble AI til eksterne verktøy), lastes normalt alle verktøydefinisjonene inn i samtalen på forhånd. Dette sløser med tokens (grunnenheten AI-modeller behandler, omtrent 3-4 tegn per stykk) og svekker kvaliteten på svarene (2:49).

GPT-5.4 laster i stedet inn en enkel liste over tilgjengelige verktøy og slår opp den fulle beskrivelsen bare når den faktisk trenger det. OpenAI hevder at dette reduserer tokenforbruket med 47 % i en test med 36 MCP-servere, uten at treffsikkerheten synker (3:15).


Ulempene

Hastighet: tregest av alle store modeller

Det du merker først, ifølge Bray, er responstiden. GPT-5.4 har den lengste tid-til-første-token av alle modeller som Artificial Analysis måler, noe som betyr at den bruker lengre tid enn konkurrentene på å begynne å lage svar (4:06). Det samme gjelder for å levere de første 500 tokenene.

Bray sier at han "ikke er sikker på om dette er et modellproblem eller et leverandørproblem" og antyder at det kan bli bedre over tid. Men han peker også på en mer kynisk mulighet: at modellen er bevisst treg for å dytte brukere mot den nye hurtigmodusen (4:21).

Hurtigmodus: samme modell, høyere regning

Hurtigmodus (fast mode) leverer nøyaktig samme modell og intelligens med 1,5 ganger så høy tokenhastighet, men faktureres til det dobbelte av vanlig pris (2:32). Bray omtaler det som "i praksis bare en prioritetskø", ikke en annen modell i det hele tatt. Etter to timer med testing foreslo modellen selv at han burde ha brukt hurtigmodus, noe som ville spart omtrent én time.

API-priser: et merkbart hopp

For utviklere som bruker API-et direkte, har prisene steget. Basismodellen koster 2,50 dollar per million input-tokens og 15 dollar per million output-tokens. Pro-varianten koster 30 dollar per million input og 180 dollar per million output (4:27). Og hvis du vil bruke hele kontekstvinduet (den maksimale tekstmengden modellen kan håndtere i én samtale) på 1 million tokens, faktureres all input utover 272 000 tokens til dobbel pris (4:47).

NivåInput (per 1M tokens)Output (per 1M tokens)
Basis$2,50$15,00
Pro$30,00$180,00
Over 272K input2x basisprisStandardpris

Brukergrensesnitt: Opus 4.6 leder fortsatt

Bray sammenlignet en kafenettside laget av GPT-5.4 og Anthropics Opus 4.6. Han foretrakk Opus-designet, og pekte på at GPT-modeller pleier å lande på et "frostet kort"-grensesnitt med mye bruk av fargegradienter (4:58). Dette er ikke bare smaken til én anmelder: på Design Arena, en plattform der brukere stemmer på AI-lagde design, rangerer GPT-5.4 heller ikke høyt (5:21).


Hvordan tolke disse påstandene

Brays anmeldelse er praktisk og ærlig, men noen ting er verdt å tenke over.

En fem minutters anmeldelse har begrensninger

Hele videoen er under seks minutter, og den praktiske testingen dekker én prosjekttype (3D-nettopplevelse) og én designsammenligning. De virkelige styrkene og svakhetene til en kodemodell viser seg på tvers av mange prosjekttyper, programmeringsspråk og vanskelighetsgrader. Playwright-demoen er imponerende, men det er bare ett datapunkt.

Målingsrangeringer endrer seg raskt

Artificial Analysis viser at GPT-5.4 leder i flere kategorier i dag. Men modellrangeringene har vært ustabile i 2025-2026, der Anthropic, Google og OpenAI jevnlig bytter på å ligge på topp. At en modell er "best" på målinger ved lansering betyr ikke at den beholder posisjonen.

Hastighetsproblemene kan bety mer enn målinger

For utviklere som bruker AI-kodeassistenter gjennom hele arbeidsdagen, er tid-til-første-token ikke en abstrakt måling. En modell som tenker lenger før den svarer bryter den raske frem-og-tilbake-flyten som gjør AI-assistert koding produktiv. Hvis GPT-5.4 sin hastighet ikke forbedres, kan hverdagsopplevelsen bli dårligere enn målingene tilsier.

Prisøkningen peker mot en bredere trend

Kostnadshoppet fra GPT-5.2 til GPT-5.4 følger et mønster blant toppmodeller: hver generasjon blir mer kapabel og dyrere. Utviklere som bygger apper i produksjon på disse API-ene må ta hensyn til ikke bare dagens priser, men retningen de beveger seg i.


Praktiske implikasjoner

For Codex-brukere

Hvis du allerede bruker OpenAIs Codex til kodeoppgaver, er GPT-5.4 et naturlig steg videre. Playwright-ferdigheten er virkelig nyttig for nettutviklingsarbeid der visuell verifisering er viktig. Vurder å starte med hurtigmodus hvis budsjettet tillater det, for tidsbesparelsen er reell.

For team som velger mellom leverandører

Gapet i brukergrensesnittdesign er verdt å teste selv før du binder deg. Hvis prosjektet innebærer frontendarbeid, sammenlign GPT-5.4 og Opus 4.6 på dine faktiske designkrav. Målinger fanger opp koding og resonnering, men den visuelle smaken til AI-modeller varierer på måter som målinger ikke dekker.


Ordliste

BegrepForklaring
Datamaskinstyring (computer use)En AI-evne der modellen styrer mus, tastatur og nettleser ved å analysere skjermbilder, slik at den kan bruke programvare på samme måte som et menneske.
PlaywrightEt nettleserautomatiseringsbibliotek med åpen kildekode, laget av Microsoft. AI-modeller kan bruke det til å åpne nettsider, klikke på knapper og verifisere visuelt innhold.
Verktøysøk (tool search)En funksjon der modellen slår opp verktøydefinisjoner ved behov i stedet for å laste inn alle på forhånd, noe som reduserer tokenforbruk i samtaler med mange tilkoblede verktøy.
MCP-serverModel Context Protocol-server. En standardisert måte å koble eksterne verktøy og datakilder til en AI-modell slik at den kan bruke dem under samtaler.
TokenDen minste enheten en AI-modell behandler. Omtrent 3-4 tegn per stykk. Priser for API-tilgang måles i tokens.
Kontekstvindu (context window)Den maksimale tekstmengden en modell kan håndtere i én samtale. GPT-5.4 sitt vindu er på 1 million tokens, omtrent 750 000 ord.
Tid til første token (time-to-first-token)Hvor lang tid det tar før modellen begynner å produsere svar etter at den mottar input. Lavere er bedre for interaktiv bruk.
Hurtigmodus (fast mode)Et prioritetsnivå som leverer samme modell med 1,5 ganger hastigheten, fakturert til dobbel pris. Ikke en annen eller smartere modell.
Design ArenaEn plattform der brukere sammenligner og stemmer på AI-lagde design, noe som gir et brukerdrevet mål på visuell kvalitet.

Kilder og ressurser