skip to content
@CKDML

Ég prófaði Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1: Niðurstöðurnar munu koma þér á óvart

9 mín lestur
Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

Efnisyfirlit

Þegar Claude (Anthropic) gaf út Sonnet 4.5 með djarfa fullyrðingunni að það væri "besta kóðunarlíkanið í heiminum," vissi ég að ég þyrfti að prófa þá fullyrðingu.

Þegar öllu er á botninn hvolft hafði ChatGPT-5 nýlega komið út og valdið bylgjum í gervigreindarsamfélaginu. Og Opus 4.1 hafði verið elskaði konungur kóðunar gervigreindar í mánuði. Gæti þetta nýja Sonnet líkan í raun og veru steypt þeim báðum af stóli?

Ég ákváð að keyra öll þrjú líkönin í gegnum eins kóðunaráskoranir til að komast að því hvert raunverulega skilar bestum árangri í raunverulegum sviðsmyndum. Það sem ég uppgötvaði breytti sjónarhorni mínu á hvernig við ættum að hugsa um "besta" gervigreind kóðunaraðstoðarmanninn.

Prófunaraðferðafræði

Til að halda þessu sanngjörnu gaf ég hverjum um sig nákvæmlega sömu leiðbeiningar og áskoranir. Engin hjálp, engar breytingar milli tilrauna (að minnsta kosti ekki í byrjun). Bara hrein afköst.

Hér er það sem ég prófaði:

Áskorun 1: Leikjaþróun

Ég bað hvert líkan að búa til alveg virkan Angry Birds leik sem virkar í vafra. Kröfurnar voru einfaldar: gerðu hann skemmtilegan, bættu við hreyfimyndum, tryggðu að hann virki í raun, og gerðu hann sjónrænt aðlaðandi.

Áskorun 2: Lendingarsíðuhönnun

Ég falaði hverju líkani að búa til faglega lendingarsíðu fyrir tölvup óstsmarkaðsstofur. Markmiðið var viðskiptamiðuð hönnun með viðeigandi textasmíð, sjónrænt aðdráttarafl og fylgni við núverandi vörumerkjaleiðbeiningar.

Líkönin höfðu aðgang að tilvísunarefni og gátu spurt framhaldssp urningar. Ég vildi sjá hvernig þau sinntu flóknum, raunverulegum verkefnum sem forritarar og hönnuðir standa frammi fyrir daglega.

Umferð 1: Angry Birds áskorunin

Claude Sonnet 4.5: Hraðadjöfullinn sem hrundi

Sonnet 4.5 kláraði fyrst. Við erum að tala um mínútu eða svo samanborið við 5-10 mínútur fyrir hina. Áhrifamikið, ekki satt?

Ekki svo hratt.

Þegar ég opnaði leikinn leit hann sjónrænt aðlaðandi út við fyrstu sýn. Góð grafík, fallegt útlit. En í því augnabliki sem ég reyndi að spila hrundi allt saman.

Slöngumóðan var algjörlega biluð. Ég gat ekki dregið til baka rétt. Fuglinn flaug varla. Og þegar ég tapaði óhjákvæmilega hrundi leikurinn algjörlega. Það var engin leið til að endurræsa án þess að endurhlaða alla síðuna.

Það var í grundvallaratriðum óspilandi.

Dómur: Fallegt en bilað.

Claude Opus 4.1: Óvænti meistarinn

Opus 4.1 tók lengri tíma að búa til kóðann, en munurinn á gæðum úttaksins var eins og dagur og nótt.

Fyrst gaf það mér raunverulegan upphafsskjá með leiðbeiningum um hvernig á að spila. Falleg smáatriði.

Þegar ég smellti á "Spila leik" virkaði móðan fullkomlega. Slangan brást við vel. Eðlisfræðin fannst rétt. Árekstursskynjunin var nákvæm. Mikilvægast af öllu, það var í raun skemmtilegt að spila.

Ég fann mig að fara í gegnum mörg stig og njóta upplifunarinnar í raun og veru. Fyrir fyrstu tilraun að búa til leik úr einföldum skilaboðum var þetta áberandi gott.

Dómur: Opus myrti þessa áskorun.

ChatGPT-5: Ruglingslega klúðurinn

ChatGPT-5 tók lengstan tíma að búa til kóðann. Þegar það loksins kláraði opnaði ég það sem það kallaði "Slingbirds".

Ég gat hreinskilnislega ekki fundið út hvað ég átti að gera. Viðmótið var ruglingslegt. Það virtist vera einhver keilu-lík móðun? Fuglarnir voru ekki einu sinni sýnilegir. Ég smellti í kringum mig að reyna að skilja, en leikurinn var í grundvallaratriðum óvirkur.

Dómur: Ekki einu sinni í keppninni.

Umferð 2: Önnur tækifæri

Ég er ekki sú gerð sem dæmir byggt á einni tilraun. Kannski Sonnet 4.5 var bara með slæman dag. Ég gaf öllum líkönum annað tækifæri með aðeins betrumbættum skilaboðum.

Sonnet 4.5: Enn að berjast

Önnur tilraunin frá Sonnet 4.5 var lítillega betri. Leikurinn hlaðst og ég gat séð nokkrar endurbætur í viðmótinu. En eðlisfræðin var enn í grundvallaratriðum biluð. Hreyfing fugls fannst röng og leikupplifunin var pirrandi frekar en skemmtileg.

ChatGPT-5: Jafnvel verra

Einhvern veginn var önnur tilraunin frá ChatGPT-5 jafnvel ruglingsl egri en sú fyrsta. Úttakið var nógu slæmt að ég ákváð að ekki eyða meiri tíma í það.

Opus 4.1: Stöðug ágæti

Ég truflaði mig ekki einu sinni við að prófa Opus 4.1 aftur fyrir leikinn. Það virkaði nú þegar fullkomlega.

Ultra-hugsunarprófun

Líkönin Claude hafa eiginleika sem kallast "útvíkkuð hugsun" eða "ultra think" hamur. Ég ákváð að gefa Sonnet 4.5 eitt lokahæfi með þessum eiginleika virkjuðum, hugsaði kannski það þyrfti bara meiri vinnsluítíma til að ná raunverulega til áskorunarinnar.

Niðurstaðan? Næstum jafn slæm og fyrsta tilraunin.

Þetta fékk mig til að hugsa: kannski Sonnet 4.5 krefst mjög sérstakra, vel útfærðra skilaboða til að ná árangri vel. Á meðan virðist Opus 4.1 takast á við óskýrari leiðbeiningar og samt skila gæðaniðurstöðum.

Áskorun 2: Lendingarsíðuhönnun

Hér urðu hlutirnir áhugaverðir.

Ég bað öll þrjú líkönin að búa til viðskiptamiðaða lendingarsíðu fyrir tölvupóstsmarkaðsstofur. Þau höfðu aðgang að núverandi vefsíðu fyrirtækis míns, vörumerkjaleiðbeiningum og skjölun. Markmiðið var að búa til eitthvað sem leit fagmannlega út, passaði við hönnunarkerfi okkar og myndi í raun breyta gestum í leiðir.

Niðurstöðurnar voru áberandi

Án þess að afhjúpa í upphafi hvaða líkan bjó til hvaða síðu (ég vildi meta þau blindandi), hér er það sem ég fann:

Síða 1: Hrein en almenn
Þessi lendingarsíða leit fagleg út en fannst svolítið sniðin. Textinn var ágætur, en ekkert sérstakt. Hún snerti alla grunnpunktana en skorti persónuleika. Sjónræn hönnunin var örugg.

Síða 2: Ósamkvæm en metnaðarfull
Þessi síða reyndi að gera margt. Sumir kaflar voru framúrskarandi, aðrir fundu ekki til vörumerkisins. Litaval voru vafasöm á stöðum, sem gerði suma texta erfitt að lesa. Það tók nokkrar endurtekningalotur að laga læsileikavandamál.

Síða 3: Samkvæm og viðskiptamiðuð
Þessi síða skar sig strax úr vegna samkvæmni hönnunar hennar. Hún hélt vörumerkjaviðmiðum okkar í gegn, notaði hvítt rými á skilvirkan hátt og textasmíðin var skörp. Algeng spurningar hlutinn spurði nákvæmlega rétt spurninga sem hugsanlegir viðskiptavinir myndu hafa. Heildaruppbyggingin var skynsamleg frá viðskiptasjónarmiði.

Mikla afhjúpunin

  • Síða 1 var ChatGPT-5. Traust, en ekkert stórkostlegt.
  • Síða 2 var Opus 4.1. Metnaðarfull en þurfti vinnu.
  • Síða 3 var Sonnet 4.5. Það náði algjörlega þessari áskorun.

Prófunarumferð 2: Nýr upphafur

Til að tryggja að niðurstöður lendingarsíðu væru ekki undir áhrifum líkana sem skoðuðu vinnu hvers annars, byrjaði ég alveg ferskt spjall og bað Sonnet 4.5 að búa til lendingarsíðu fyrir Facebook auglýsingastofur í staðinn.

Niðurstöðurnar voru aftur áhrifamiklar. Sonnet 4.5 sýndi sterka samkvæmni í hönnun, gerði færri mistök í heild og skildi viðskiptahagnýtingarkröfur vel.

Já, það klúðraði nokkrum litavali í upphafi sem gerði texta ólæsilegan. Og já, það tók 3-4 endurgjöfarlotur að fá allt rétt. En lokaniðurstaðan var í raun góð.

Uppbyggingin, sjónræna stigveldið, valið að nota færri orð en gera hvert þeirra mikilvægt - allt virkaði saman á samfelld hátt.

Það sem ég lærði: Það er engin "besta" gervigreindarlíkan

Hér er heiðarleg skoðun mín eftir að hafa eytt klukkustundum í að prófa þessi líkön:

Claude Opus 4.1 skarar fram úr í:

  • Skapandi vandamálalausnum
  • Leikjaþróun og flókinni rökfræði
  • Meðhöndlun óskýrra eða ófullkominna skilaboða
  • Að fá hluti rétta við fyrstu tilraun

Claude Sonnet 4.5 skarar fram úr í:

  • Skipulögðum hönnunarverkefnum
  • Samkvæmni og athygli á smáatriðum
  • Lendingarsíðum og vefhönnun
  • Að fylgja ákveðnum mynstrum

ChatGPT-5 skarar fram úr í:

  • Jæja... ég er enn að reyna að komast að því byggt á þessum prófunum

Fullyrðingin um að Sonnet 4.5 sé "besta kóðunarlíkanið í heiminum" er bæði sönn og villandi. Það fer alfarið eftir því hvað þú ert að byggja.

Fyrir vefhönnun, lendingarsíður og verkefni sem krefjast strangrar fylgni við hönnunarkerfi er Sonnet 4.5 frábært. Fyrir skapandi vandamálalausnir, leikjaþróun og verkefni sem þurfa innsæi með ófullnægj andi leiðbeiningum er Opus 4.1 enn meistarinn.

Gæði skilaboðaþáttar

Eitt mynstur sem ég tók eftir: Sonnet 4.5 virðist þurfa sértækari, ítarlegri skilaboð til að standa sig á tindi sínu. Þegar ég gaf því nákvæmar leiðbeiningar og skýrar tilvísanir skilaði það framúrskarandi niðurstöðum.

Opus 4.1, á hinn bóginn, stóð sig vel jafnvel með frekar óskýrum upphafsboðum mínum. Það fyllti holurnar á greindan hátt og gerði góðar ályktanir um það sem ég vildi.

Þetta er ekki endilega veikleiki Sonnet 4.5. Það gæti bara þýtt að það sé fínstillt á annan hátt. Ef þú ert reiðubúinn að fjárfesta tíma í að búa til ítarlega skilaboð getur Sonnet 4.5 skilað áberandi stöðugum úttaki.

Hvað með aðrar uppfærslur?

Claude gaf einnig út nokkrar aðrar áhugaverðar uppfærslur ásamt Sonnet 4.5 sem ég fjallaði ekki um í smáatriðum:

Claude Agent SDK - Þetta lítur vonandi út fyrir að byggja sjálfstæð umboðskerfi. Ég er forvitinn um hvernig það ber saman við það sem þú getur byggt með verkfærum eins og N8N.

Imagine With Claude - Þetta virðist vera svar Claude við vettvangi eins og Lovable, Bolt og V0. Það er í grundvallaratriðum gervigreindardrifinn forritarasmið. Ég ætla að prófa þetta í framtíðarsamanburði.

ChatGPT-5 fyrirbærið

Manstu þegar ChatGPT-5 var fyrst hleypt af stokkunum og allir kvörtuðu yfir að það væri ekki eins gott og búist var við? Síðan tveimur vikum síðar var það í raun að standa sig mjög vel?

Ég held að við séum kannski að sjá eitthvað svipað með Sonnet 4.5. Líkanið gæti þurft tíma til að setjast, eða kannski þurfum við öll tíma til að læra hvernig á að skilaboða það á áhrifaríkan hátt.

Ég mun örugglega eyða meiri tíma með Sonnet 4.5 til að sjá hvort niðurstöður mínar batni eftir því sem ég læri styrkleika þess og veikleika.

Lokadómur

Ef þú neyddir mig til að velja eitt líkan fyrir öll kóðunarverkefni mín myndi ég samt fara með Opus 4.1. Það er fjölhæfasta og sinnir breiðasta úrvali verkefna vel.

En fyrir sértæk notkunartilvik eins og hönnun lendingarsíðu er Sonnet 4.5 nú val mitt. Samkvæmnin og athyglin á hönnunarsmáatriðum gera það þess virði að nota fyrir þessi sértæku verkefni.

Hvað varðar ChatGPT-5, þarf ég að prófa það meira í mismunandi sviðsmyndum. Þessar sérstöku áskoranir spiluðu ekki við styrkleika þess, hver sem þeir kunna að vera.

Hver er þín reynsla?

Ég er forvitinn að heyra frá öðrum sem hafa prófað þessi líkön. Sérðu svipaðar niðurstöður? Hefur þú fundið notkunartilvik þar sem Sonnet 4.5 skín í raun og veru?

Skildu eftir hugsanir þínar í athugasemdum á myndbandinu og láttu mig vita hvað þú vilt sjá prófað næst.

Horfðu á allt prófunarferlið hér: https://youtu.be/TAGUl0Xj7xg

Myndbandið sýnir hverja tilraun, hvert mistök og allar endurtekningar í rauntíma. Ef þú ert að taka ákvarðanir um hvaða gervigreind kóðunaraðstoðarmann á að nota fyrir verkefni þín er það þess virði að horfa á allt.


Tilbúinn að fara upp á stig með gervigreindar-vinnuflæði þitt? Gerast áskrifandi að fleiri ítarlegum samanburðum á gervigreindartækjum og raunverulegu prófskoðun.