Testirao sam Claude Sonnet 4.5 protiv ChatGPT-5 i Opus 4.1: Rezultati će vas iznenaditi
9 min čitanja

Loading youtube content...
Sadržaj
Kada je Claude (Anthropic) objavio Sonnet 4.5 sa smелом твrđењем да је "najbolji model za kodiranje na svetu", znao sam da moram da testiram tu izjavu.
Naposletku, ChatGPT-5 je upravo izašao i napravio talase u AI zajednici. A Opus 4.1 je mesecima bio voljeni kralj AI kodiranja. Da li ovaj novi Sonnet model zaista može da zbaci obojicu sa prestola?
Odlučio sam da provedem sve tri modela kroz identične izazove kodiranja kako bih saznao koji zaista najbolje radi u realnim scenarijima. Ono što sam otkrio promenilo je moju perspektivu o tome kako treba razmišljati o "najboljem" AI asistentu za kodiranje.
Metodologija testiranja
Da održim fer uslove, dao sam svakom modelu potpuno iste prompte i izazove. Bez pomoći, bez prilagođavanja između pokušaja (barem ne na početku). Samo čista performansa.
Evo šta sam testirao:
Izazov 1: Razvoj igara
Zamolio sam svaki model da napravi potpuno funkcionalnu Angry Birds igru koja radi u browseru. Zahtevi su bili jednostavni: učini je zabavnom, dodaj animacije, osigur aj da zaista funkcioniše i učini je vizuelno privlačnom.
Izazov 2: Dizajn landing stranice
Zadao sam svakom modelu da napravi profesionalnu landing stranicu za agencije za email marketing. Cilj je bio dizajn fokusiran na konverziju sa odgovarajućim tekstom, vizuelnom privlačnošću i pridržavanjem postojećih brendnih smernica.
Modeli su imali pristup referentnim materijalima i mogli su postavljati dodatna pitanja. Hteo sam da vidim kako se nose sa složenim, realnim zadacima sa kojima se developeri i dizajneri suočavaju svakodnevno.
Runda 1: Angry Birds izazov
Claude Sonnet 4.5: Brzinski demon koji je pao
Sonnet 4.5 je završio prvi. Govorimo o minuti ili tako nečemu u poređenju sa 5-10 minuta za ostale. Impresivno, zar ne?
Ne baš tako brzo.
Kada sam otvorio igru, izgledala je vizuelno privlačno na prvi pogled. Dobra grafika, lep raspored. Ali u trenutku kada sam pokušao da igram, sve se raspalo.
Mehanika praćke bila je potpuno pokvarena. Nisam mogao pravilno povući nazad. Ptica jedva da je letela. A kada sam neizbežno izgubio, igra se potpuno srušila. Nije bilo načina da se restartuje bez osvežavanja cele stranice.
Bila je u suštini neigriva.
Presuda: Lepa ali pokvarena.
Claude Opus 4.1: Neočekivani šampion
Opus 4.1 je trebalo duže da generiše kod, ali razlika u kvalitetu izlaza bila je kao dan i noć.
Prvo, dao mi je pravi početni ekran sa uputstvima kako igrati. Lep detalj.
Kada sam kliknuo "Igraj igru", mehanika je radila savršeno. Praćka je reagovala glatko. Fizika se osećala ispravno. Detekcija sudara bila je precizna. Najvažnije, bilo je zaista zabavno igrati.
Zatekao sam sebe kako prolazim kroz više nivoa, istinski uživajući u iskustvu. Za prvi pokušaj pravljenja igre iz jednostavnog prompta, ovo je bilo izuzetno dobro.
Presuda: Opus je zdrobio ovaj izazov.
ChatGPT-5: Zbunjujući nered
ChatGPT-5 je trebalo najduže da generiše kod. Kada je konačno završio, otvorio sam ono što je nazvao "Slingbirds".
Iskreno nisam mogao da shvatim šta sam trebao da radim. Interfejs je bio zbunjujući. Izgledalo je da ima neku mehaniku sličnu kuglanju? Ptice čak nisu bile vidljive. Klikao sam okolo pokušavajući da razumem, ali igra je bila u suštini nefunkcionalna.
Presuda: Nije čak ni u trci.
Runda 2: Druge šanse
Nisam tip koji sudi na osnovu jednog pokušaja. Možda je Sonnet 4.5 samo imao loš dan. Dao sam svim modelima još jednu šansu sa malo preciznijim promptima.
Sonnet 4.5: Još uvek se bori
Drugi pokušaj Sonnet 4.5 bio je marginalno bolji. Igra se učitala i mogao sam videti neka poboljšanja u interfejsu. Ali fizika je još uvek bila fundamentalno pokvarena. Kretanje ptice se osećalo pogrešno, a iskustvo igranja bilo je frustrirajuće umesto zabavno.
ChatGPT-5: Još gore
Nekako je drugi pokušaj ChatGPT-5 bio još zbunjujući od prvog. Izlaz je bio dovoljno loš da sam odlučio da ne trošim više vremena na njega.
Opus 4.1: Konzistentna izvrsnost
Nisam se čak ni potrudio da ponovo testiram Opus 4.1 za igru. Već je radio savršeno.
Ultra think eksperiment
Claude-ovi modeli imaju funkciju koja se zove "prošireno razmišljanje" ili "ultra think" režim. Odlučio sam da dam Sonnet 4.5 jednu poslednju šansu sa ovom funkcijom omogućenom, misleći da mu možda samo treba više vremena za obradu da zaista savlada izazov.
Rezultat? Skoro podjednako loš kao prvi pokušaj.
To me je navelo da razmislim: možda Sonnet 4.5 zahteva izuzetno specifične, dobro osmišljene prompte da bi dobro radio. U međuvremenu, čini se da Opus 4.1 upravlja sa nejasnijim instrukcijama i ipak isporučuje kvalitetne rezultate.
Izazov 2: Dizajn landing stranice
Ovde su stvari postale zanimljive.
Zamolio sam sva tri modela da naprave landing stranicu fokusiranu na konverziju za agencije za email marketing. Imali su pristup postojećem veb sajtu moje kompanije, brendnim smernicama i dokumentaciji. Cilj je bio napraviti nešto što izgleda profesionalno, odgovara našem dizajn sistemu i zaista će konvertovati posetioce u potencijalne klijente.
Rezultati su bili iznenađujući
Bez otkrivanja koji je model napravio koju stranicu initially (hteo sam da ih ocenim nasumo), evo što sam našao:
Stranica 1: Čista ali generička
Ova landing stranica je izgledala profesionalno ali se osećala pomalo standardno. Tekst je bio pristojan, ali ništa posebno. Pokrivala je sve osnovne tačke ali joj je nedostajala ličnost. Vizuelni dizajn bio je bezbedan.
Stranica 2: Nedosledna ali ambiciozna
Ova stranica je pokušavala da uradi mnogo. Neki delovi su bili odlični, drugi su se osećali van brenda. Izbor boja bio je upitan na mestima, čineći neke tekstove teškim za čitanje. Bila su potrebna nekoliko iteracija da se poprave problemi sa čitljivošću.
Stranica 3: Dosledna i fokusirana na konverziju
Ova stranica se odmah istakla svojom doslednostima dizajna. Održavala je naše brendne standarde kroz ceo proces, efikasno koristila beli prostor, a tekst je bio oštar. FAQ sekcija je postavljala tačno prava pitanja koja bi potencijalni klijenti imali. Celokupna struktura imala je smisla iz perspektive konverzije.
Veliko otkrivenje
- Stranica 1 je bila ChatGPT-5. Solidna, ali ništa spektakularno.
- Stranica 2 je bila Opus 4.1. Ambiciozna ali je trebala rad.
- Stranica 3 je bila Sonnet 4.5. Apsolutno je savladala ovaj izazov.
Test runda 2: Nov početak
Da se osiguram da rezultati landing stranice nisu bili pod uticajem modela koji gledaju rad jedni drugih, započeo sam potpuno nov chat i zamolio Sonnet 4.5 da umesto toga napravi landing stranicu za agencije za Facebook oglase.
Rezultati su ponovo bili impresivni. Sonnet 4.5 je pokazao jaku doslednost u dizajnu, pravio je manje grešaka ukupno i dobro razumeo zahteve za optimizaciju konverzije.
Da, pokvarila je neke izbore boja initially što je učinilo tekst nečitljivim. I da, potrebno je bilo 3-4 runde povratnih informacija da se sve uradi kako treba. Ali konačni izlaz je bio stvarno dobar.
Struktura, vizuelna hijerarhija, izbor da se koriste manje reči ali da svaka znači - sve je radilo zajedno kohezivno.
Šta sam naučio: Ne postoji "najbolji" AI model
Evo moje iskrene ocene nakon što sam proveo sate testir ajući ove modele:
Claude Opus 4.1 izvrsno radi:
- Kreativno rešavanje problema
- Razvoj igara i složenu logiku
- Upravljanje nejasnim ili nepotpunim promptima
- Dobijanje stvari kako treba iz prvog pokušaja
Claude Sonnet 4.5 izvrsno radi:
- Strukturirane dizajnerske zadatke
- Doslednost i pažnju na detalje
- Landing stranice i veb dizajn
- Praćenje utvrđenih obrazaca
ChatGPT-5 izvrsno radi:
- Pa... još uvek pokušavam da shvatim na osnovu ovih testova
Tvrdnja da je Sonnet 4.5 "najbolji model za kodiranje na svetu" je istovremeno istinita i obmanjujuća. Potpuno zavisi od toga šta gradiš.
Za veb dizajn, landing stranice i zadatke koji zahtevaju striktno pridržavanje dizajn sistema, Sonnet 4.5 je odličan. Za kreativno rešavanje problema, razvoj igara i zadatke koji zahtevaju intuiciju sa nepotpunim instrukcijama, Opus 4.1 je još uvek šampion.
Faktor kvaliteta prompta
Jedan obrazac koji sam primetio: čini se da Sonnet 4.5 zahteva specifičnije, detaljnije prompte da bi radio na svom vrhuncu. Kada sam mu dao precizne instrukcije i jasne reference, isporučio je izvanredne rezultate.
Opus 4.1, s druge strane, radio je dobro čak i sa mojim pomalo nejasnim početnim promptima. Inteligentno je popunio praznine i napravio dobre pretpostavke o tome šta sam hteo.
Ovo nije nužno slabost Sonnet 4.5. Može jednostavno značiti da je optimizovan drugačije. Ako si spreman da investiraš vreme u izradu detaljnih prompta, Sonnet 4.5 može isporučiti izuzetno dosledan izlaz.
Šta je sa ostalim ažuriranjima?
Claude je takođe objavio neka druga zanimljiva ažuriranja uz Sonnet 4.5 koja nisam pokrio detaljno:
Claude Agent SDK - Ovo izgleda obećavajuće za izgradnju autonomnih agent sistema. Radoznao sam kako se poredi sa onim što možeš izgraditi alatima poput N8N.
Imagine With Claude - Ovo izgleda kao Claude-ov odgovor platformama poput Lovable, Bolt i V0. U suštini je AI-pokrenut graditelj aplikacija. Planiram da testiram ovo u budućem poređenju.
ChatGPT-5 fenomen
Sećaš li se kada je ChatGPT-5 prvi put lansiran i svi su se žalili da nije bio tako dobar kao što se očekivalo? Zatim dve nedelje kasnije, zaista je radio stvarno dobro?
Mislim da možda vidimo nešto slično sa Sonnet 4.5. Model možda treba vremena da se smiri, ili možda svi mi trebamo vremena da naučimo kako da ga efektivno promptujemo.
Sigurno ću provesti više vremena sa Sonnet 4.5 da vidim da li se moji rezultati poboljšavaju kako učim njegove snage i slabosti.
Konačna presuda
Ako bi me naterao da izaberem jedan model za sve svoje zadatke kodiranja, ipak bih išao sa Opus 4.1. Najsvestraniji je i dobro upravlja najširim spektrom zadataka.
Ali za specifične slučajeve upotrebe poput dizajna landing stranica, Sonnet 4.5 je sada moj izbor. Doslednost i pažnja na dizajnerske detalje čine ga vrednim korišćenja za te specifične zadatke.
Što se tiče ChatGPT-5, moram ga testirati više u različitim scenarijima. Ovi specifični izazovi nisu igrali na njegove snage, šta god one bile.
Kakvo je tvoje iskustvo?
Radoznao sam da čujem od drugih koji su testirali ove modele. Vidiš li slične rezultate? Da li si našao slučajeve upotrebe gde Sonnet 4.5 zaista блista?
Ostavi svoje misli u komentarima na videu i javi mi šta bi želeo da bude testirano sledeće.
Pogledaj kompletan proces testiranja ovde: https://youtu.be/TAGUl0Xj7xg
Video pokazuje svaki pokušaj, svaku grešku i sve iteracije u realnom vremenu. Ako donosiš odluke o tome koji AI asistent za kodiranje koristiti za svoje projekte, vredi pogledati sve.
Spreman da unapredišš svoj AI tok rada? Pretplati se za više detaljnih poređenja AI alata i testiranja u realnom svetu.