skip to content
@CKDML

Testova Claude Sonnet 4.5 kundër ChatGPT-5 dhe Opus 4.1: Rezultatet do t'ju habiten

10 min leximi
Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

Përmbajtja

Kur Claude (Anthropic) lançoi Sonnet 4.5 me pretendimin e guximshëm se është "modeli më i mirë i kodimit në botë", e dija se duhej ta testoja atë pohim.

Më në fund, ChatGPT-5 sapo doli dhe bëri valë në komunitetin e AI. Dhe Opus 4.1 kishte qenë mbreti i dashur i AI-së së kodimit për muaj të tërë. A mund të rrëzojë ky model i ri Sonnet vërtet të dyja?

Vendosa të kaloja të tre modelet nëpër sfida identike kodimi për të zbuluar cili vërtet performon më mirë në skenarë realë. Ajo që zbulova ndryshoi perspektivën time mbi se si duhet të mendojmë për asistentin "më të mirë" AI të kodimit.

Metodologjia e Testimit

Për ta mbajtur të drejtë, i dhashë çdo modeli saktësisht të njëjtat prompt-e dhe sfida. Pa ndihmë, pa rregullime ndërmjet përpjekjeve (të paktën jo fillimisht). Vetëm performancë e pastër.

Ja çfarë testova:

Sfida 1: Zhvillimi i Lojërave

I kërkova çdo modeli të krijojë një lojë Angry Birds plotësisht funksionale që funksionon në shfletues. Kërkesat ishin të thjeshta: bëje argëtuese, shto animacione, sigurohu që funksionon vërtet, dhe bëje vizualisht tërheqëse.

Sfida 2: Dizajni i Faqes së Uljes

I detyrova çdo model të krijojë një faqe uljeje profesionale për agjencitë e marketingut me email. Qëllimi ishte dizajn i fokusuar në konvertim me copywriting të përshtatshëm, tërheqje vizuale dhe respektim të udhëzimeve ekzistuese të markës.

Modelet kishin akses në materiale referuese dhe mund të bënin pyetje vijuese. Doja të shihja se si menaxhonin detyra komplekse realë me të cilat përballen zhvilluesit dhe dizajnerët çdo ditë.

Raundi 1: Sfida Angry Birds

Claude Sonnet 4.5: Dëmoni i Shpejtësisë që u Rrëzua

Sonnet 4.5 mbaroi i pari. Po flasim për rreth një minutë krahasuar me 5-10 minuta për të tjerët. Mbresëlënëse, apo jo?

Jo aq shpejt.

Kur hapa lojën, dukej vizualisht tërheqëse me shikim të parë. Grafikë e mirë, paraqitje e bukur. Por momentin që provova të luaja, gjithçka u shemb.

Mekanika e hinkës ishte plotësisht e prishur. Nuk mund ta tërhiqja prapa si duhet. Zogut mezi fluturonte. Dhe kur humba pa rrugëdalje, loja u rrëzua plotësisht. Nuk kishte mënyrë për ta rifilluar pa rifreskuar të gjithë faqen.

Ishte në thelb e pa luajtur.

Vendimi: E bukur por e prishur.

Claude Opus 4.1: Kampioni i Papritur

Opus 4.1 mori më shumë kohë për të gjeneruar kodin, por ndryshimi në cilësinë e rezultatit ishte si ditë dhe natë.

Së pari, më dha një ekran hyrjeje real me udhëzime se si të luash. Detaj i bukur.

Kur klikova "Luaj Lojën", mekanika funksionoi përsosësh. Hinka reagoi butësisht. Fizika u ndjehu e saktë. Zbulimi i përplasjeve ishte i saktë. Më e rëndësishmja, ishte vërtet argëtuese për të luajtur.

E gjeta veten duke kaluar nëpër nivele të shumta, duke e shijon vërtet përvojën. Për një përpjekje të parë për të krijuar një lojë nga një prompt i thjeshtë, kjo ishte jashtëzakonisht e mirë.

Vendimi: Opus e shtypi këtë sfidë.

ChatGPT-5: Rrëmuja Konfuze

ChatGPT-5 mori më shumë kohë për të gjeneruar kodin. Kur përfundoi më në fund, hapa atë që e quajti "Slingbirds".

Sinqerisht nuk mund të kuptoja se çfarë duhej të bëja. Ndërfaqja ishte konfuze. Dukej se kishte disa mekanika të ngjashme me bowling? Zogjtë as që ishin të dukshëm. Klikova rreth e rrotull duke u përpjekur ta kuptoja, por loja ishte në thelb jofunksionale.

Vendimi: Madje as në garë.

Raundi 2: Shanset e Dyta

Nuk jam nga ata që gjykojnë bazuar në një përpjekje të vetme. Ndoshta Sonnet 4.5 thjesht kishte një ditë të keqe. I dhashë të gjitha modelet një shansë tjetër me prompt-e pak më të rafinuara.

Sonnet 4.5: Ende Duke Luftuar

Përpjekja e dytë nga Sonnet 4.5 ishte margjinalisht më e mirë. Loja u ngarkua dhe mund të shihja disa përmirësime në ndërfaqe. Por fizika ende ishte thelbësisht e prishur. Lëvizja e zogut u ndjehu e gabuar, dhe përvoja e lojës ishte frustruese në vend që të ishte argëtuese.

ChatGPT-5: Edhe Më e Keqe

Disi, përpjekja e dytë e ChatGPT-5 ishte edhe më konfuze se e para. Rezultati ishte mjaft i keq sa vendosa të mos humbisja më shumë kohë me të.

Opus 4.1: Përsosmëri e Qëndrueshme

Madje as nuk u mundova të testoja Opus 4.1 përsëri për lojën. Tashmë funksiononte përsosësh.

Eksperimenti Ultra Think

Modelet e Claude kanë një veçori të quajtur "mendim i zgjeruar" ose modalitet "ultra think". Vendosa t'i jap Sonnet 4.5 një shansë të fundit me këtë veçori të aktivizuar, duke menduar se ndoshta thjesht i duhej më shumë kohë përpunimi për të përballuar vërtet sfidën.

Rezultati? Pothuajse po aq i keq sa përpjekja e parë.

Kjo më bëri të mendoja: ndoshta Sonnet 4.5 kërkon prompt-e jashtëzakonisht specifike, të hartuara mirë për të performuar mirë. Ndërkohë, Opus 4.1 duket se menaxhon udhëzime më të paqarta dhe ende jep rezultate cilësore.

Sfida 2: Dizajni i Faqes së Uljes

Këtu gjërat u bënë interesante.

I kërkova të tre modelet të krijojnë një faqe uljeje të fokusuar në konvertim për agjencitë e marketingut me email. Ata kishin akses në faqen e internetit ekzistuese të kompanisë sime, udhëzimet e markës dhe dokumentacionin. Qëllimi ishte të krijoja diçka që dukej profesionale, përkiste me sistemin tonë të dizajnit dhe do të konvertonte vërtet vizitorët në drejtime.

Rezultatet Ishin Befasuese

Pa zbuluar fillimisht se cili model krijoi cilën faqe (doja t'i vlerësoja me verbëri), ja çfarë gjeta:

Faqja 1: E Pastër por Gjenerike
Kjo faqe uljeje dukej profesionale por u ndjehua pak stereotipe. Kopja ishte e mirë, por asgjë e veçantë. Preku të gjitha pikat bazë por i mungonte personaliteti. Dizajni vizual ishte i sigurt.

Faqja 2: E Papërshtatshme por Ambicioze
Kjo faqe u përpoq të bënte shumë. Disa seksione ishin të shkëlqyera, të tjera u ndjenë jashtë markës. Zgjedhjet e ngjyrave ishin të dyshimta në vende, duke e bërë disa tekste të vështira për t'u lexuar. U deshën disa raunde iterimi për të rregulluar problemet e lexueshmërisë.

Faqja 3: E Qëndrueshme dhe e Fokusuar në Konvertim
Kjo faqe dallohej menjëherë për qëndrueshmërinë e saj të dizajnit. Ruajti standardet tona të markës përgjatë, përdori hapësirë të bardhë në mënyrë efektive, dhe copywriting-u ishte i mprehtë. Seksioni i FAQ bëri pikërisht pyetjet e duhura që klientët potencialë do të kishin. Struktura e përgjithshme kishte kuptim nga perspektiva e konvertimit.

Zbulimi i Madh

  • Faqja 1 ishte ChatGPT-5. Solide, por asgjë spektakolare.
  • Faqja 2 ishte Opus 4.1. Ambicioze por kishte nevojë për punë.
  • Faqja 3 ishte Sonnet 4.5. E përballoi plotësisht këtë sfidë.

Raundi i Testimit 2: Një Fillim i Freskët

Për të siguruar që rezultatet e faqes së uljes nuk ishin ndikuar nga modelet duke parë punën e njëri-tjetrit, fillova një bisedë plotësisht të re dhe i kërkova Sonnet 4.5 të krijojë një faqe uljeje për agjencitë e reklamave në Facebook në vend të saj.

Rezultatet ishin përsëri mbresëlënëse. Sonnet 4.5 tregoi qëndrueshmëri të fortë në dizajn, bëri më pak gabime në përgjithësi dhe kuptoi mirë kërkesat e optimizimit të konvertimit.

Po, fillimisht prishi disa zgjedhje ngjyrash që bënë tekstin të palexueshëm. Dhe po, mori 3-4 raunde reagimesh për ta bërë gjithçka si duhet. Por rezultati përfundimtar ishte vërtet i mirë.

Struktura, hierarkia vizuale, zgjedhja për të përdorur më pak fjalë por për ta bërë secilën të rëndësishme - gjithçka punoi së bashku në mënyrë të qëndrueshme.

Çfarë Mësova: Nuk Ka Model AI "Më të Mirë"

Ja mendimi im i sinqertë pas kalimit të orëve duke testuar këto modele:

Claude Opus 4.1 shkëlqen në:

  • Zgjidhje kreative të problemeve
  • Zhvillim lojërash dhe logjikë komplekse
  • Trajtim prompt-esh të paqarta ose të paplotë
  • Bërjen e gjërave siç duhet nga përpjekja e parë

Claude Sonnet 4.5 shkëlqen në:

  • Detyra dizajni të strukturuara
  • Qëndrueshmëri dhe vëmendje ndaj detajeve
  • Faqe uljeje dhe dizajn web
  • Ndjekje të modeleve të vendosura

ChatGPT-5 shkëlqen në:

  • Epo... ende po përpiqem ta kuptoj bazuar në këto teste

Pretendiimi se Sonnet 4.5 është "modeli më i mirë i kodimit në botë" është si i vërtetë ashtu dhe mashtruese. Varet plotësisht nga ajo që po ndërton.

Për dizajn web, faqe uljeje dhe detyra që kërkojnë përmbushje strikte të sistemeve të dizajnit, Sonnet 4.5 është i shkëlqyer. Për zgjidhje kreative të problemeve, zhvillim lojërash dhe detyra që kanë nevojë për intuicion me udhëzime të paplotë, Opus 4.1 ende është kampioni.

Faktori i Cilësisë së Prompt-it

Një model që vërejta: Sonnet 4.5 duket se kërkon prompt-e më specifike, të detajuara për të performuar në kulmin e tij. Kur i dhashë udhëzime të sakta dhe referenca të qarta, dha rezultate të shkëlqyera.

Opus 4.1, nga ana tjetër, performoi mirë edhe me prompt-et e mia fillestare disi të paqarta. Mbushi boshllëqet në mënyrë inteligjente dhe bëri supozime të mira për atë që doja.

Kjo nuk është domosdoshmërisht një dobësi e Sonnet 4.5. Mund të nënkuptojë thjesht se është optimizuar ndryshe. Nëse je i gatshëm të investosh kohë në hartimin e prompt-eve të detajuara, Sonnet 4.5 mund të japë rezultate jashtëzakonisht të qëndrueshme.

Çfarë për Përditësimet e Tjera?

Claude gjithashtu lançoi disa përditësime të tjera interesante krahas Sonnet 4.5 që nuk i mbulova në detaje:

Claude Agent SDK - Kjo duket premtuese për ndërtimin e sistemeve autonome të agjentëve. Jam kurioz se si krahasohet me atë që mund të ndërtosh me mjete si N8N.

Imagine With Claude - Kjo duket se është përgjigja e Claude për platforma si Lovable, Bolt dhe V0. Është në thelb një ndërtues aplikacionesh i mundësuar nga AI. Planifikoj ta testoj këtë në një krahasim të ardhshëm.

Fenomeni ChatGPT-5

E kujton kur ChatGPT-5 u lançua për herë të parë dhe të gjithë u ankuan se nuk ishte aq i mirë sa pritej? Pastaj dy javë më vonë, në fakt po performonte vërtet mirë?

Mendoj se mund të po shohim diçka të ngjashme me Sonnet 4.5. Modeli mund të ketë nevojë për kohë për t'u vendosur, ose ndoshta të gjithë ne kemi nevojë për kohë për të mësuar se si ta prompt-ojmë në mënyrë efektive.

Definitivisht do të kaloj më shumë kohë me Sonnet 4.5 për të parë nëse rezultatet e mia përmirësohen ndërsa mësoj pikat e forta dhe të dobëta të tij.

Vendimi Përfundimtar

Nëse më detyroje të zgjidhja një model për të gjitha detyrat e mia të kodimit, ende do të shkoja me Opus 4.1. Është më i gjithanshëm dhe menaxhon gamën më të gjerë të detyrave mirë.

Por për raste përdorimi specifike si dizajn faqesh uljeje, Sonnet 4.5 tani është zgjedhja ime. Qëndrueshmëria dhe vëmendja ndaj detajeve të dizajnit e bëjnë të vlen për ato detyra të veçanta.

Sa i përket ChatGPT-5, kam nevojë ta testoj më shumë në skenarë të ndryshëm. Këto sfida të veçanta nuk luajtën me pikat e forta të tij, çfarëdo qofshin ato.

Cila është Përvoja Juaj?

Jam kurioz të dëgjoj nga të tjerë që kanë testuar këto modele. Po sheh rezultate të ngjashme? Ke gjetur raste përdorimi ku Sonnet 4.5 vërtet shkëlqen?

Lini mendimet tuaja në komentet e videos dhe më bëni të di se çfarë do të donit të shihni testuar më pas.

Shihni procesin e plotë të testimit këtu: https://youtu.be/TAGUl0Xj7xg

Videoja tregon çdo përpjekje, çdo dështim dhe të gjitha iteracionet në kohë reale. Nëse po merrni vendime mbi cilin asistent AI të kodimit të përdorni për projektet tuaja, ia vlen të shikoni të gjithën.


Gati për të përmirësuar rrjedhën e punës AI? Abonohuni për më shumë krahasime të thella të mjeteve AI dhe testim në botën reale.