skip to content
@CKDML

Ittestjajt Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1: Ir-riżultati se jissorprendukom

8 min qari
Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

Werrej tal-Kontenut

Meta Claude (Anthropic) ħareġ Sonnet 4.5 bl-allegazzjoni qawwija li huwa "l-aħjar mudell ta' coding fid-dinja," kont naf li kellu nittestja dik l-allegazzjoni.

Wara kollox, ChatGPT-5 għadu kemm ħareġ u għamel mewġ fil-komunità tal-AI. U Opus 4.1 kien ir-re maħbub tal-AI ta' coding għal xhur. Jista' dan il-mudell ġdid Sonnet verament jagħti t-tnejn minnhom?

Iddeċidejt li nġarrab it-tliet mudelli kollha permezz ta' sfidi ta' coding identiċi biex niskopri liema wieħed verament jipperforma l-aħjar fi skenarji tad-dinja reali. Dak li skoprejt biddel il-perspettiva tiegħi dwar kif għandna naħsbu dwar l-"aħjar" assistent tal-AI ta' coding.

Il-Metodoloġija tat-Testjar

Biex inżomm il-ġustizzja, tajt lil kull mudell eżatt l-istess prompts u sfidi. Ebda għajnuna, ebda aġġustamenti bejn it-tentattivi (tal-inqas mhux fil-bidu). Biss prestazzjoni pura.

Hawn dak li ttestjajt:

Sfida 1: Żvilupp tal-Logħob

Tlabt lil kull mudell joħloq logħba Angry Birds kompletament funzjonali li taħdem fil-browser. Ir-rekwiżiti kienu sempliċi: agħmilha divertenti, żid animazzjonijiet, kun żgur li taħdem verament, u agħmilha attraenti viżwalment.

Sfida 2: Disinn tal-Paġna ta' Inżul

Klijt lil kull mudell joħloq paġna ta' inżul professjonali għall-aġenziji ta' marketing bl-email. Il-għan kien disinn iffokat fuq il-konverżjoni b'copywriting xieraq, attrazzjoni viżwali u aderenza mal-linji gwida eżistenti tal-marka.

Il-mudelli kellhom aċċess għal materjal ta' referenza u setgħu jagħmlu mistoqsijiet ta' segwitu. Ridt nara kif jieħdu ħsieb ħidmiet kumplessi tad-dinja reali li l-iżviluppaturi u d-disinjaturi jiltaqgħu magħhom kuljum.

Rawnd 1: L-Isfida Angry Birds

Claude Sonnet 4.5: Id-Demonu tal-Veloċità li Waqaf

Sonnet 4.5 spiċċa l-ewwel. Qed nitkellmu dwar minuta jew hekk meta mqabbla ma' 5-10 minuti għall-oħrajn. Impressjonanti, mhux hekk?

Mhux daqshekk malajr.

Meta ftaħt il-logħba, deher viżwalment attraenti għall-ewwel daqqa t'għajn. Grafika tajba, layout sabiħ. Iżda fil-mument li ppruvajt nilgħab, kollox waqaf.

Il-mekkaniżmi tal-ballun kienu kompletament miksura. Ma stajtx nitfarrak lura sewwa. It-tajr kif kif tbatta. U meta tileft inevitabbilment, il-logħba waqfet kompletament. Ma kienx hemm mod kif terġa' tibda mingħajr ma tirfrisska l-paġna kollha.

Kienet essenzjalment impossibli tilgħab.

Verdett: Sabiħa iżda miksura.

Claude Opus 4.1: Il-Kampjun Mhux Mistenni

Opus 4.1 ħa aktar żmien biex jiġġenera l-kodiċi, iżda d-differenza fil-kwalità tal-output kienet bħal lejl u nhar.

L-ewwel nett, tani skrin ta' dħul reali b'struzzjonijiet dwar kif tilgħab. Dettall sabiħ.

Meta kklikkajt "Ilgħab il-Logħba," il-mekkaniżmi ħadmu perfettament. Il-ballun irreagixxa b'mod fluwidu. Il-fiżika dehret korrettalment. Id-detezzjoni tal-kollizzjoni kienet preċiża. L-aktar importanti, kienet verament divertenti biex tilgħab.

Sibni nnifsi ngħaddi minn diversi livelli, verament ngawdi l-esperjenza. Għall-ewwel tentattiv li toħloq logħba minn prompt sempliċi, dan kien notevolment tajjeb.

Verdett: Opus ħassar din l-isfida.

ChatGPT-5: Il-Ħewwel Konfuż

ChatGPT-5 ħa l-aktar żmien twil biex jiġġenera l-kodiċi. Meta fl-aħħar temm, ftaħt dak li sejjaħ "Slingbirds."

Onestament ma stajtx nifhem x'kellu nifhem. L-interface kien konfuż. Deher li kien hemm xi mekkaniżmi bħal bowling? It-tjur lanqas ma kienu viżibbli. Kklikkajt madwar nipprovaw nifhem, iżda l-logħba kienet essenzjalment mhux funzjonali.

Verdett: Lanqas fil-kompetizzjoni.

Rawnd 2: Opportunitajiet Tnejn

M'inix it-tip li jiġġudika bbażat fuq tentattiv wieħed. Forsi Sonnet 4.5 sempliċement kellha jum ħażin. Tajt lill-mudelli kollha opportunità oħra b'prompts kemmxejn irfinuti.

Sonnet 4.5: Għadha Tiġġieled

It-tieni tentattiv minn Sonnet 4.5 kien marginalment aħjar. Il-logħba għaddiet u stajtfara xi titjib fl-interface. Iżda l-fiżika għadha kienet fundamentalment miksura. Il-moviment tat-tajr dehrex ħażin u l-esperjenza tal-logħba kienet frustranti minflok divertenti.

ChatGPT-5: Saħansitra Agħar

Xi mod, it-tieni tentattiv ta' ChatGPT-5 kien saħansitra aktar konfuż mill-ewwel. L-output kien ħażin biżżejjed li ddeċidejt li ma nixrrafhx aktar ħin fuqu.

Opus 4.1: Eċċellenza Konsistenti

Lanqas ma ddejjaqt nittestja Opus 4.1 mill-ġdid għall-logħba. Diġà kienet taħdem perfettament.

L-Esperiment Ultra Think

Il-mudelli ta' Claude għandhom karatteristika msejħa "ħsieb estiż" jew modalità "ultra think". Ddeċidejt nagħti lil Sonnet 4.5 opportunità finali b'din il-karatteristika attivata, naħseb forsi sempliċement kellha bżonn aktar ħin ta' pproċessar biex verament tirbah l-isfida.

Ir-riżultat? Kważi daqstant ħażin bħall-ewwel tentattiv.

Dan ġiegħelni naħseb: forsi Sonnet 4.5 teħtieġ prompts estremament speċifiċi u magħmula tajjeb biex tipperforma sewwa. Sadanittant, Opus 4.1 jidher li jimmaniġġa struzzjonijiet aktar vagi u xorta jagħti riżultati ta' kwalità.

Sfida 2: Disinn tal-Paġna ta' Inżul

Hawn affarijiet saru interessanti.

Tlabt lit-tliet mudelli kollha joħolqu paġna ta' inżul iffokata fuq il-konverżjoni għall-aġenziji ta' marketing bl-email. Kellhom aċċess għas-sit web eżistenti tal-kumpanija tiegħi, linji gwida tal-marka u dokumentazzjoni. Il-għan kien li toħloq xi ħaġa li tidher professjonali, taqbel mas-sistema tad-disinn tagħna u verament tikkonverti lill-viżitaturi f'leads.

Ir-Riżultati Kienu Sorprendenti

Mingħajr ma nirri inizjalment liema mudell ħoloq liema paġna (ridt nevalwahom għomja), hawn dak li sibt:

Paġna 1: Nadifa iżda Ġenerika
Din il-paġna ta' inżul dehret professjonali iżda dehret ftit standard. Il-kopja kienet deċenti iżda xejn speċjali. Missitha l-punti bażiċi kollha iżda nieqsha mill-personalità. Id-disinn viżwali kien sikur.

Paġna 2: Inkonsistenti iżda Ambiżjuża
Din il-paġna pprovat tagħmel ħafna. Xi sezzjonijiet kienu eċċellenti, oħrajn dehru barra mill-marka. L-għażliet tal-kulur kienu dubjużi f'postijiet, u dan għamel xi test diffiċli biex jinqara. Kien jeħtieġ diversi rawndijiet ta' iterazzjoni biex jissewwa problemi ta' leġġibilità.

Paġna 3: Konsistenti u Ffokata fuq il-Konverżjoni
Din il-paġna minnufih dehret għall-konsistenza tad-disinn tagħha. Żammet l-istandards tal-marka tagħna minn bidu għal tmiem, uża spazju abjad effettivament u l-copywriting kien qawwi. Is-sezzjoni tal-FAQ staqsiet eżatt il-mistoqsijiet it-tajbin li klijenti potenzjali kellhom ikollhom. L-istruttura ġenerali kellha sens minn perspettiva ta' konverżjoni.

Ir-Rivelazzjoni l-Kbira

  • Paġna 1 kienet ChatGPT-5. Solida iżda xejn spettakolari.
  • Paġna 2 kienet Opus 4.1. Ambiżjuża iżda kellha bżonn xogħol.
  • Paġna 3 kienet Sonnet 4.5. Assolutament rebħet din l-isfida.

Rawnd tat-Test 2: Bidu Ġdid

Biex niżgura li r-riżultati tal-paġna ta' inżul ma kinux influwenzati mill-mudelli li jaraw ix-xogħol ta' xulxin, bdejt chat kompletament ġdid u tlabt lil Sonnet 4.5 minflok toħloq paġna ta' inżul għall-aġenziji ta' reklamar fuq Facebook.

Ir-riżultati kienu impressjonanti mill-ġdid. Sonnet 4.5 wriethom konsistenza b'saħħitha fid-disinn, għamlet inqas żbalji b'mod ġenerali u fehmet tajjeb ir-rekwiżiti tal-ottimizzazzjoni tal-konverżjoni.

Iva, fasslet xi għażliet tal-kulur inizjalment li għamlu t-test leġġibbli. U iva, ħadet 3-4 rawndijiet ta' feedback biex tersaq kollox sewwa. Iżda l-output finali kien verament tajjeb.

L-istruttura, il-ġerarkija viżwali, l-għażla li tuża inqas kliem iżda tagħmel kull waħda toqgħod - kollox ħadem flimkien b'mod koeżiv.

Dak li Tgħallimt: M'hemm Ebda Mudell AI "L-Aħjar"

Hawn l-opinjoni onesta tiegħi wara li qattajt sigħat nitittest dawn il-mudelli:

Claude Opus 4.1 jeċċella f':

  • Soluzzjoni kreattiva tal-problemi
  • Żvilupp tal-logħob u loġika kumplessa
  • Immaniġġjar ta' prompts vagi jew imperfetti
  • Li jagħmel l-affarijiet sewwa fl-ewwel tentattiv

Claude Sonnet 4.5 jeċċella f':

  • Kompiti ta' disinn strutturat
  • Konsistenza u attenzjoni għad-dettall
  • Paġni ta' inżul u disinn tal-web
  • Segwi mudelli stabbiliti

ChatGPT-5 jeċċella f':

  • Ukoll... għadni qed nipprova niskopri dan ibbażat fuq dawn it-testijiet

L-allegazzjoni li Sonnet 4.5 huwa "l-aħjar mudell ta' coding fid-dinja" huwa kemm veru kif ukoll qarrieq. Jiddependi kompletament fuq dak li qed tibni.

Għad-disinn tal-web, il-paġni ta' inżul u kompiti li jeħtieġu aderenza stretta għal sistemi ta' disinn, Sonnet 4.5 huwa eċċellenti. Għal soluzzjoni kreattiva tal-problemi, żvilupp tal-logħob u kompiti li jeħtieġu intuwizzjoni b'struzzjonijiet imperfetti, Opus 4.1 għadu l-kampjun.

Il-Fattur tal-Kwalità tal-Prompt

Mudell wieħed li nnutajt: Sonnet 4.5 jidher li jeħtieġ prompts aktar speċifiċi u ddettaljati biex jipperforma fl-aqwa tiegħu. Meta tajtu struzzjonijiet preċiżi u referenzi ċari, ta riżultati eċċezzjonali.

Opus 4.1, min-naħa l-oħra, ipperforma tajjeb anke b'prompts inizjali tiegħi kemmxejn vagi. Imla l-lakuni b'mod intelliġenti u għamel suppożizzjonijiet tajbin dwar dak li rrid.

Dan mhux neċessarjament dgħufija ta' Sonnet 4.5. Jista' jsemmi sempliċiment li huwa ottimizzat b'mod differenti. Jekk inti lest li tinvesti l-ħin biex toħloq prompts dettaljati, Sonnet 4.5 jista' jagħti output notevolment konsistenti.

X'Dwar l-Aġġornamenti l-Oħra?

Claude ħareġ ukoll xi aġġornamenti oħra interessanti flimkien ma' Sonnet 4.5 li ma koperitx fid-dettall:

Claude Agent SDK - Dan jidher promettenti għall-bini ta' sistemi ta' aġenti awtonomi. Jien kurjuż kif jikkumpara ma' dak li tista' tibni bl-għodod bħal N8N.

Imagine With Claude - Dan jidher li huwa t-tweġiba ta' Claude għal pjattaformi bħal Lovable, Bolt u V0. Huwa essenzjalment bennej tal-apps immexxija mill-AI. Qed nippjana li nittestja dan f'paragun futur.

Il-Fenomenu ChatGPT-5

Tiftakar meta ChatGPT-5 tnediet għall-ewwel darba u kulħadd ilmenta li ma kienx daqstant tajjeb kif mistenni? Imbagħad ġimgħatejn wara, kien verament qed jipperforma sewwa?

Naħseb li forsi qed naraw xi ħaġa simili ma' Sonnet 4.5. Il-mudell jista' jeħtieġ ħin biex jistabbilixxi, jew forsi lkoll jeħtiġu ħin biex nitgħallmu kif nagħtuhprompts b'mod effettiv.

Definittivament se nqatta' aktar ħin ma' Sonnet 4.5 biex nara jekk ir-riżultati tiegħi jtejbux hekk kif nitgħallem il-qawwiet u d-dgħufijiet tiegħu.

Verdett Finali

Kieku ġġiegħelni nagħżel mudell wieħed għall-kompiti kollha ta' coding tiegħi, għadni nimxi ma' Opus 4.1. Huwa l-aktar versatili u jimmaniġġja l-akbar firxa ta' kompiti sewwa.

Iżda għal każijiet tal-użu speċifiċi bħal disinn tal-paġna ta' inżul, Sonnet 4.5 issa huwa l-għażla tiegħi. Il-konsistenza u l-attenzjoni għad-dettalji tad-disinn jagħmluh jiswa l-użu għal dawk il-kompiti partikolari.

Fir-rigward ta' ChatGPT-5, jeħtieġ nittestjah aktar f'xenarji differenti. Dawn l-isfidi partikolari ma laħqux mal-qawwiet tiegħu, xejn li jkunu.

X'Inhi l-Esperjenza Tiegħek?

Jien kurjuż nismagħ minn oħrajn li ttestjaw dawn il-mudelli. Qed tara riżultati simili? Sibt każijiet tal-użu fejn Sonnet 4.5 verament jiddi?

Ħalli l-ħsibijiet tiegħek fil-kummenti tal-vidjow u għarrafni x'tixtieq tara ttestjat li jmiss.

Ara l-proċess sħiħ tat-testjar hawn: https://youtu.be/TAGUl0Xj7xg

Il-vidjow juri kull tentattiv, kull falliment u l-iterazzjonijiet kollha f'ħin reali. Jekk qed tieħu deċiżjonijiet dwar liema assistent tal-AI ta' coding għandek tuża għall-proġetti tiegħek, jiswa li tara kollox.


Lest biex ittejjeb il-fluss tax-xogħol tal-AI tiegħek? Abbona għal aktar paragunijiet fil-fond ta' għodod tal-AI u testjar tad-dinja reali.