Išbandžiau Claude Sonnet 4.5 prieš ChatGPT-5 ir Opus 4.1: Rezultatai jus nustebins
7 min skaitymo

Loading youtube content...
Turinys
Kai Claude (Anthropic) išleido Sonnet 4.5 teigdamas, kad tai yra "geriausias kodavimo modelis pasaulyje", žinojau, kad turiu jį išbandyti.
Galiausiai ChatGPT-5 ką tik buvo išleistas ir sukėlė bangų AI bendruomenėje. O Opus 4.1 mėnesius buvo mylimas AI kodavimo karalius. Ar šis naujas Sonnet modelis galėtų iš tiesų nugalėti abu?
Nusprendžiau priversti visus tris modelius įveikti tuos pačius kodavimo iššūkius, kad pamatyčiau, kuris veikia geriausiai realiuose scenarijuose. Tai, ką atradau, pakeitė mano požiūrį į tai, kaip turėtume galvoti apie "geriausią" AI kodavimo asistentą.
Testavimo metodologija
Kad išlaikyčiau sąžiningumą, daviau kiekvienam modeliui tiksliai tas pačias užduotis ir iššūkius. Jokios pagalbos, jokių koregavimų tarp bandymų (bent jau pradžioje). Tik grynos veiklos.
Štai ką testuojau:
Iššūkis 1: Žaidimo kūrimas
Paprašiau kiekvieno modelio sukurti visiškai funkcinį Angry Birds žaidimą, kuris veikia naršyklėje. Reikalavimai buvo paprasti: padaryk jį linksmą, pridėk animacijas, įsitikink, kad iš tiesų veikia ir padaryk jį vizualiai patrauklų.
Iššūkis 2: Nukreipimo puslapio dizainas
Paprašiau kiekvieno modelio sukurti profesionalų nukreipimo puslapį el. pašto rinkodaros agentūrai. Tikslas buvo konversijoms orientuotas dizainas su tinkamu tekstu, vizualiu patrauklumu ir esamų prekės ženklo gairių laikymusi.
Modeliai turėjo prieigą prie palyginamųjų medžiagų ir galėjo užduoti tolesnius klausimus. Norėjau pamatyti, kaip jie tvarkosi su sudėtingomis realaus pasaulio užduotimis, su kuriomis kūrėjai ir dizaineriai susiduria kasdien.
Rezultatai: Stebinanti kelionė
Prieš pasigilindamas į detales, noriu pasidalyti kažkuo, kas mane tikrai nustebino: Joks modelis nelaimėjo visose kategorijose. Kiekvienas puikavosi skirtingais būdais, atskleidžiant, kad "geriausias" labai priklauso nuo to, ką bandote pasiekti.
ChatGPT-5: Vizualinio kūrybiškumo karalius
ChatGPT-5 absoliučiai puikavosi Angry Birds iššūkyje. Kai sakau puikavosi, turiu omenyje, kad jis sukūrė kažką, ką tu tikrai nori žaisti. Paukščių ir blokų fizika jautėsi patenkinama, animacijos buvo sklandžios, o bendras išvaizda turėjo tą "dar vienas raundas" faktorių.
Tai, kas mane labiausiai įspūdė, buvo vizualinis dizainas. ChatGPT-5 suprato, kad žaidimas turi būti daugiau nei funkcionalus - jis turi būti įtraukiantis. Jis pridėjo subtilias gradacijas, dalelių efektus susidūrimams ir net lygio užbaigimo ekraną, kuris buvo nupoliruotas.
Tačiau, kai reikėjo nukreipimo puslapio, dalykai tapo mažiau įspūdingi. Dizainas buvo estetiškai malonus, tačiau nesekė savo užduotimi. Jis ignoravo prekės ženklo gaires, kurias pateikiau, o tekstas atrodė bendras. Tai buvo tokio tipo puslapis, kuris galėtų laimėti dizaino apdovanojimą, bet nebūtinai konvertuotų lankytojus.
Opus 4.1: Nuoseklus atlikėjas
Opus 4.1 buvo patikimas atlikėjas grupėje. Abiejuose iššūkiuose jis pristatė tiksliai tai, ko tikėtumėisi iš patyrusio vyresniojo kūrėjo - nieko blizgaus, bet solid kiekvienoje detalėje.
Angry Birds žaidimas veikė tobulai nuo pirmo bandymo. Fizika buvo tiksli, valdymas buvo atsakingas, o kodas buvo švarus ir gerai organizuotas. Jei būčiau davęs tai klientui, jis būtų patenkintas. Bet jei būti sąžiningu, jam trūko ChatGPT-5 versijos magijos.
Kur Opus 4.1 tikrai puikavosi, buvo nukreipimo puslapis. Jis atidžiai perskaitė prekės ženklo gaires, naudojo teisingą spalvų paletę ir struktūravo turinį tiksliai taip, kaip nurodžiau. Tekstas jautėsi tyčinis - kiekviena sekcija turėjo aiškų tikslą vartotojo kelyje.
Jei nori kūrėjo, kuriuo gali pasitikėti, kad pristatys nuspėjamus kokybiškus rezultatus, Opus 4.1 yra tavo pasirinkimas. Jis nenustebins tavęs laukiniu kūrybiškumu, bet jis taip pat nenuves.
Claude Sonnet 4.5: Bendradarbiavimo staigmena
Sonnet 4.5 mane visiškai nustebino, bet ne dėl priežasčių, kurių tikėjausi. Vietoj to, kad bandytų iš karto pristatyti tobulą sprendimą, jis užduodavo klausimus. Daug klausimų.
Žaidimo iššūkiui:
- "Kokį sunkumo lygį taikuoji pirmajam lygiui?"
- "Ar teiki pirmenybę labiau arcade ar realistinei fizikai?"
- "Ar yra konkretus meninis stilius, kurį turi omenyje?"
- "Ar turėtų būti optimizuotas kompiuteriui, mobiliajam ar abiem?"
Iš pradžių buvau šiek tiek nusivylęs. Kiti modeliai tiesiog pradėjo statyti. Bet tada supratau kažką: Sonnet 4.5 darė tai, ką darytų tikrai geras kūrėjas - įsitikino, kad supranta problemą, prieš pradedant koduoti.
Kai atsakiau į klausimus, rezultatai buvo pastebėtini. Žaidimas buvo ne tik funkcionalus ir vizualiai patrauklus - jis jautėsi, tarsi būtų sukurtas specialiai mano naudojimo atvejui. Fizika atitiko mano pageidavimus, vartotojo sąsaja buvo optimizuota platformoms, kurias minėjau, ir netgi kodo komentarai atrodė pritaikyti prie mano darbo stiliaus.
Nukreipimo puslapis buvo ta pati istorija. Po klausimų ir atsakymų sesijos apie tikslinę auditoriją ir konversijos tikslus jis sukūrė kažką, kas jautėsi kruopščiai suprojektuota. Tai nebuvo tiesiog bendras nukreipimo puslapis - tai buvo nukreipimo puslapis, sukurtas mano konkretiems verslo poreikiams.
Tikrasis atskleidimas: Tobulinimas per bendradarbiavimą
Čia dalykai tapo tikrai įdomūs. Po pradinių ratų bandžiau dirbti su kiekvienu modeliu tobulindamas jų išvestis. Čia skirtumai tapo dar aiškesni.
Tobulinimas su ChatGPT-5
ChatGPT-5 buvo puikus vizualinėse iteracijose. Kai prašiau pakeitimų animacijose ar dizaine, jis jas greitai įgyvendindavo ir dažnai pridėdavo patobulinimų, apie kuriuos nebuvo galvojęs. Bet kai bandžiau jį priversti arčiau sekti prekės ženklo gairėmis, jis kovojo. Buvo tarsi jo kūrybiškumas būtų toks stiprus, kad jį buvo sunku sutramdyti.
Tobulinimas su Opus 4.1
Opus 4.1 tvarkė atsiliepimus tiksliai taip, kaip tikėtumėisi: profesionaliai ir efektyviai. Jis padarė pakeitimus, kurių prašiau, be problemų. Bet retai siūlė patobulinimų už to, ko konkrečiai prašiau. Jis buvo puikus vykdytojas, bet ne proaktyvus bendradarbis.
Tobulinimas su Sonnet 4.5
Tai buvo bendradarbiavimo patirtis, kuri pakeitė mano požiūrį. Kai prašytum pakeitimų, Sonnet 4.5 dažnai grįždavo su paaiškinimais:
"Noriu padaryti šią hero sekciją patrauklesnę. Ar bandau ją padaryti vizualiai patrauklesnę ar aiškesnę žinutės požiūriu? Ar abu?"
Arba:
"Pastebėjau, kad nori pakeisti žaidimo fiziką. Ar turėčiau taip pat koreguoti sunkumą, kad tai kompensėčiau, ar nori, kad tai būtų tyčia lengviau/sunkiau?"
Buvo tarsi dirbu su vyresniuoju kūrėju, kuris aktyviai galvoja apie didesnę problemą, o ne tiesiog vykdo užduotis.
Nuosprendis: Nėra universalaus nugalėtojo
Po savaičių testuojant šiuos modelius, mano išvada yra kontraintuityvi: Neturėtum pasirinkti vieno "nugalėtojo".
Štai kaip apie juos dabar galvoju:
Naudok ChatGPT-5, kai:
- Reikia kūrybinių vizualinių koncepcijų ir dizaino tyrinėjimo
- Dirbi prie kažko, kur estetika yra taip pat svarbi kaip funkcionalumas
- Nori pamatyti kūrybines galimybes, apie kurias nebūtum pagalvojęs
- Esi pasiruošęs suteikti konkrečių atsiliepimų, kad jį nukreiptum link savo tikslų
Naudok Opus 4.1, kai:
- Turi aiškius ir gerai apibrėžtus reikalavimus
- Reikia patikimo ir nuspėjamo vykdymo
- Dirbi su griežtomis prekės ženklo gairėmis ar techniniais apribojimais
- Nori švaus ir gerai organizuoto kodo be staigmenų
Naudok Sonnet 4.5, kai:
- Tavo problema yra sudėtinga ir turėtų naudos iš diskusijos
- Nori bendradarbio, ne tik vykdytojo
- Esi atviras savo reikalavimų tobulinimui per pokalbį
- Vertini apgalvotus sprendimus, kurie atsižvelgia į platesnes pasekmes
Didesnė pamoka
Šių trijų modelių testavimas mane išmokė kažko svarbaus apie AI apskritai: Tai ne apie "geriausio" įrankio radimą - tai apie kiekvieno įrankio stipriųjų pusių supratimą ir tai, kada juos naudoti.
Savo kūrimo praktikoje dabar naudoju visus tris, dažnai skirtingoms to paties projekto dalims. Galbūt pradedu su Sonnet 4.5, kad suderinčiau architektūrą ir reikalavimus, naudoju Opus 4.1 pagrindiniam įgyvendinimui ir kreipiuos į ChatGPT-5, kai man reikia tos kūrybinės kibirkšties sąsajai.
Anthropic teiginys, kad Sonnet 4.5 yra "geriausias kodavimo modelis pasaulyje", yra techniškai tiesa - bet ne taip, kaip tikėjausi. Jis nėra geriausias, nes nugali visus kitus modelius kiekvienoje užduotyje. Jis yra geriausias, nes keičia santykį, kurį turi su AI kodavimu, iš "įrankio" į "bendradarbį".
Mano rekomendacija
Jei turiu pasirinkti tik vieną kam nors, kas pradeda su AI kodavimu:
Pradedantiesiems: Pradėk su ChatGPT-5. Jo kūrybiškumas ir vizualinis universalumas padarys mokymąsi malonesnį, o jo gebėjimas generuoti kodą, kuris "tiesiog veikia", yra puikus, kai dar mokaisi.
Vidutinio lygio kūrėjams: Opus 4.1 bus tavo geriausias draugas. Jo nuoseklumas ir patikimumas taps neįkainojami, kai kuriuosi sudėtingesnius projektus.
Pažengusiems kūrėjams: Sonnet 4.5. Jei jau žinai, kokius klausimus užduoti ir kaip struktūruoti problemas, jo bendradarbiavimo požiūris tave padarys produktyvesnį, nei būtum vienas.
Bet sąžiningai? Jei gali, naudok visus tris. Mano mėnesinis AI prenumeratos biudžetas išaugo, bet ir mano produktyvumas. Svarbiau, mano kuriamo turinio kokybė pagerėjo, nes naudoju tinkamą įrankį kiekvienam darbui.
Baigiamosios mintys
AI kodavimo karas nėra apie tai, kas nugali savo konkurentus - tai apie tai, kaip gerai šie įrankiai gali mums padėti kurti geresnius dalykus greičiau. Šiuo požiūriu visi trys yra nugalėtojai.
Claude Sonnet 4.5 gali būti "geriausias" etaloniniuose testuose, bet realiame pasaulyje geriausias įrankis yra tas, kuris atitinka tavo poreikius tuo momentu. Kartais tai ChatGPT-5 kūrybiškumas. Kartais tai Opus 4.1 patikimumas. O kartais tai Sonnet 4.5 bendradarbiavimo požiūris.
Tikroji galia ateina iš žinojimo, kada naudoti kurį, ir lankstumo perjungti tarp jų, kai tavo poreikiai vystosi.
Watch the full testing process here: https://youtu.be/TAGUl0Xj7xg