skip to content
@CKDML

Jeg testet Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1: Resultatene vil overraske deg

9 min lesing
Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

Innholdsfortegnelse

Da Claude (Anthropic) lanserte Sonnet 4.5 med den djerve påstanden om at det er "den beste kodingsmodellen i verden", visste jeg at jeg måtte teste den påstanden.

Tross alt hadde ChatGPT-5 nettopp kommet og skapt bølger i AI-samfunnet. Og Opus 4.1 hadde vært den elskede kongen av kodings-AI i måneder. Kunne denne nye Sonnet-modellen virkelig kaste begge fra tronen?

Jeg bestemte meg for å kjøre alle tre modellene gjennom identiske kodingsutfordringer for å finne ut hvilken som faktisk presterer best i virkelige scenarier. Det jeg oppdaget endret perspektivet mitt på hvordan vi bør tenke på "den beste" AI-kodingsassistenten.

Testmetodologien

For å holde det rettferdig, ga jeg hver modell nøyaktig samme prompts og utfordringer. Ingen hjelpende hånd, ingen justeringer mellom forsøk (i hvert fall ikke først). Bare ren ytelse.

Her er hva jeg testet:

Utfordring 1: Spillutvikling

Jeg ba hver modell om å lage et fullt funksjonelt Angry Birds-spill som fungerer i nettleseren. Kravene var enkle: gjør det gøy, legg til animasjoner, sørg for at det faktisk fungerer, og gjør det visuelt tiltalende.

Utfordring 2: Landingssidedesign

Jeg ga hver modell i oppgave å lage en profesjonell landingsside for e-postmarkedsføringsbyråer. Målet var konverteringsfokusert design med riktig tekst, visuell appell og overholdelse av eksisterende merkevareretningslinjer.

Modellene hadde tilgang til referansemateriell og kunne stille oppfølgingsspørsmål. Jeg ville se hvordan de håndterte komplekse, virkelige oppgaver som utviklere og designere møter daglig.

Runde 1: Angry Birds-utfordringen

Claude Sonnet 4.5: Hastighetsdjevelen som krasjet

Sonnet 4.5 fullførte først. Vi snakker om et minutt eller så sammenlignet med 5-10 minutter for de andre. Imponerende, ikke sant?

Ikke så raskt.

Da jeg åpnet spillet, så det visuelt tiltalende ut ved første øyekast. Bra grafikk, fin layout. Men øyeblikket jeg prøvde å spille, falt alt fra hverandre.

Slyngemekanismen var fullstendig ødelagt. Jeg kunne ikke trekke tilbake ordentlig. Fuglen fløy knapt. Og da jeg uunngåelig tapte, krasjet spillet helt. Det var ingen måte å starte på nytt uten å oppdatere hele siden.

Det var i hovedsak uspillbart.

Dom: Vakkert men ødelagt.

Claude Opus 4.1: Den uventede mesteren

Opus 4.1 tok lengre tid å generere koden, men forskjellen i utdatakvalitet var som natt og dag.

Først ga den meg en faktisk oppstartsskjerm med instruksjoner om hvordan man spiller. Fin detalj.

Da jeg klikket "Spill spill", fungerte mekanismene perfekt. Slyngen reagerte jevnt. Fysikken føltes riktig. Kollisjonsdeteksjonen var nøyaktig. Viktigst av alt, det var faktisk gøy å spille.

Jeg fant meg selv i å gå gjennom flere nivåer, virkelig nyte opplevelsen. For et første forsøk på å lage et spill fra en enkel prompt, var dette bemerkelsesverdig bra.

Dom: Opus knuste denne utfordringen.

ChatGPT-5: Det forvirrende rotet

ChatGPT-5 tok lengst tid å generere koden. Da det endelig var ferdig, åpnet jeg det den kalte "Slingbirds".

Jeg klarte ærlig talt ikke å finne ut hva jeg skulle gjøre. Grensesnittet var forvirrende. Det så ut til å være noen bowling-lignende mekanikker? Fuglene var ikke engang synlige. Jeg klikket rundt og prøvde å forstå, men spillet var i hovedsak ikke-funksjonelt.

Dom: Ikke engang med i løpet.

Runde 2: Andre sjanser

Jeg er ikke en som dømmer basert på et enkelt forsøk. Kanskje Sonnet 4.5 bare hadde en dårlig dag. Jeg ga alle modellene en ny sjanse med litt raffinerte prompts.

Sonnet 4.5: Fortsatt sliter

Det andre forsøket fra Sonnet 4.5 var marginalt bedre. Spillet lastet, og jeg kunne se noen forbedringer i grensesnittet. Men fysikken var fortsatt fundamentalt ødelagt. Fuglens bevegelse føltes feil, og spillopplevelsen var frustrerende i stedet for gøy.

ChatGPT-5: Enda verre

På en eller annen måte var ChatGPT-5s andre forsøk enda mer forvirrende enn det første. Utdataen var dårlig nok til at jeg bestemte meg for ikke å kaste bort mer tid på det.

Opus 4.1: Konsistent fortreffelighet

Jeg gadd ikke engang å teste Opus 4.1 igjen for spillet. Det fungerte allerede perfekt.

Ultra-tenkingseksperimentet

Claudes modeller har en funksjon kalt "utvidet tenkning" eller "ultra think"-modus. Jeg bestemte meg for å gi Sonnet 4.5 en siste sjanse med denne funksjonen aktivert, og tenkte at kanskje den bare trengte mer behandlingstid for virkelig å mestre utfordringen.

Resultatet? Nesten like dårlig som det første forsøket.

Dette fikk meg til å tenke: kanskje Sonnet 4.5 krever ekstremt spesifikke, velutformede prompts for å prestere godt. I mellomtiden ser Opus 4.1 ut til å håndtere vagere instruksjoner og fortsatt levere kvalitetsresultater.

Utfordring 2: Landingssidedesign

Her ble det interessant.

Jeg ba alle tre modellene om å lage en konverteringsfokusert landingsside for e-postmarkedsføringsbyråer. De hadde tilgang til firmaets eksisterende nettsted, merkevareretningslinjer og dokumentasjon. Målet var å lage noe som så profesjonelt ut, matchet designsystemet vårt, og faktisk ville konvertere besøkende til leads.

Resultatene var overraskende

Uten å avsløre hvilken modell som laget hvilken side først (jeg ville evaluere dem blindt), her er hva jeg fant:

Side 1: Ren men generisk
Denne landingssiden så profesjonell ut men føltes litt standard. Teksten var anstendig, men ingenting spesielt. Den traff alle grunnleggende punkter men manglet personlighet. Det visuelle designet var trygt.

Side 2: Inkonsekvent men ambisiøs
Denne siden prøvde å gjøre mye. Noen seksjoner var utmerkede, andre føltes utenfor merkevaren. Fargevalgene var tvilsomme på steder, noe som gjorde noen tekster vanskelige å lese. Det krevde flere iterasjonsrunder for å fikse lesbarhetsproblemer.

Side 3: Konsekvent og konverteringsfokusert
Denne siden skilte seg umiddelbart ut for sin designkonsistens. Den opprettholdt merkevarestandardene våre hele veien, brukte hvitt rom effektivt, og tekstskrivingen var skarp. FAQ-seksjonen stilte nøyaktig de rette spørsmålene som potensielle kunder ville ha. Den overordnede strukturen ga mening fra et konverteringsperspektiv.

Den store avsløringen

  • Side 1 var ChatGPT-5. Solid, men ingenting spektakulært.
  • Side 2 var Opus 4.1. Ambisiøs men trengte arbeid.
  • Side 3 var Sonnet 4.5. Den spikret absolutt denne utfordringen.

Testrunde 2: En ny start

For å sikre at landingssideresultatene ikke ble påvirket av modellene som så på hverandres arbeid, startet jeg en helt ny chat og ba Sonnet 4.5 om å lage en landingsside for Facebook-annonsebyråer i stedet.

Resultatene var imponerende igjen. Sonnet 4.5 viste sterk konsistens i design, gjorde færre feil totalt sett, og forsto konverteringsoptimaliseringskravene godt.

Ja, den rotet med noen fargevalg i begynnelsen som gjorde teksten uleselig. Og ja, det tok 3-4 tilbakemeldingsrunder for å få alt riktig. Men den endelige utdataen var virkelig god.

Strukturen, det visuelle hierarkiet, valget om å bruke færre ord men gjøre hvert ord tellende - alt fungerte sammen sammenhengende.

Hva jeg lærte: Det er ingen "beste" AI-modell

Her er min ærlige mening etter å ha brukt timer på å teste disse modellene:

Claude Opus 4.1 utmerker seg i:

  • Kreativ problemløsning
  • Spillutvikling og kompleks logikk
  • Håndtering av vage eller ufullstendige prompts
  • Å få ting riktig på første forsøk

Claude Sonnet 4.5 utmerker seg i:

  • Strukturerte designoppgaver
  • Konsistens og oppmerksomhet på detaljer
  • Landingssider og webdesign
  • Følge etablerte mønstre

ChatGPT-5 utmerker seg i:

  • Vel... jeg prøver fortsatt å finne det ut basert på disse testene

Påstanden om at Sonnet 4.5 er "den beste kodingsmodellen i verden" er både sann og misvisende. Det avhenger helt av hva du bygger.

For webdesign, landingssider og oppgaver som krever streng overholdelse av designsystemer, er Sonnet 4.5 utmerket. For kreativ problemløsning, spillutvikling og oppgaver som trenger intuisjon med ufullstendige instruksjoner, er Opus 4.1 fortsatt mesteren.

Prompt-kvalitetsfaktoren

Ett mønster jeg la merke til: Sonnet 4.5 ser ut til å kreve mer spesifikke, detaljerte prompts for å prestere på sitt beste. Når jeg ga den presise instruksjoner og klare referanser, leverte den enestående resultater.

Opus 4.1 derimot presterte godt selv med mine noe vage innledende prompts. Den fylte inn hullene intelligent og gjorde gode antagelser om hva jeg ville.

Dette er ikke nødvendigvis en svakhet ved Sonnet 4.5. Det kan bare bety at den er optimalisert annerledes. Hvis du er villig til å investere tid i å lage detaljerte prompts, kan Sonnet 4.5 levere bemerkelsesverdig konsistent utdata.

Hva med de andre oppdateringene?

Claude lanserte også noen andre interessante oppdateringer sammen med Sonnet 4.5 som jeg ikke dekket i detalj:

Claude Agent SDK - Dette ser lovende ut for å bygge autonome agentsystemer. Jeg er nysgjerrig på hvordan det sammenlignes med det du kan bygge med verktøy som N8N.

Imagine With Claude - Dette ser ut til å være Claudes svar på plattformer som Lovable, Bolt og V0. Det er i hovedsak en AI-drevet appbygger. Jeg planlegger å teste dette i en fremtidig sammenligning.

ChatGPT-5-fenomenet

Husker du da ChatGPT-5 først ble lansert og alle klaget over at det ikke var så bra som forventet? Så to uker senere presterte det faktisk virkelig bra?

Jeg tror vi kanskje ser noe lignende med Sonnet 4.5. Modellen kan trenge tid til å sette seg, eller kanskje vi alle trenger tid til å lære hvordan vi prompter den effektivt.

Jeg vil definitivt bruke mer tid med Sonnet 4.5 for å se om resultatene mine forbedres etter hvert som jeg lærer styrkene og svakhetene.

Endelig dom

Hvis du tvang meg til å velge én modell for alle kodingsoppgavene mine, ville jeg fortsatt gått med Opus 4.1. Den er mest allsidig og håndterer det bredeste utvalget av oppgaver godt.

Men for spesifikke bruksområder som landingssidedesign, er Sonnet 4.5 nå mitt førstevalg. Konsistensen og oppmerksomheten på designdetaljer gjør det verdt å bruke for disse spesifikke oppgavene.

Når det gjelder ChatGPT-5, må jeg teste det mer i forskjellige scenarier. Disse spesielle utfordringene spilte ikke til dets styrker, hva enn de måtte være.

Hva er din erfaring?

Jeg er nysgjerrig på å høre fra andre som har testet disse modellene. Ser du lignende resultater? Har du funnet bruksområder der Sonnet 4.5 virkelig skinner?

Legg igjen tankene dine i kommentarene på videoen, og gi meg beskjed om hva du vil se testet neste gang.

Se hele testprosessen her: https://youtu.be/TAGUl0Xj7xg

Videoen viser hvert forsøk, hver feil og alle iterasjonene i sanntid. Hvis du tar beslutninger om hvilken AI-kodingsassistent du skal bruke for prosjektene dine, er det verdt å se hele greia.


Klar til å heve AI-arbeidsflyten din? Abonner for flere inngående AI-verktøysammenligninger og testing i den virkelige verden.