Es pārbaudīju Claude Sonnet 4.5 pret ChatGPT-5 un Opus 4.1: Rezultāti jūs pārsteigs • ckdml

Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

Kad Claude (Anthropic) izlaida Sonnet 4.5, apgalvojot, ka tas ir "labākais kodēšanas modelis pasaulē", es zināju, ka man tas jāpārbauda.

Galu galā ChatGPT-5 tikko bija iznācis un radījis viļņus AI kopienā. Un Opus 4.1 mēnešiem ilgi bija bijis mīļotais AI kodēšanas karalis. Vai šis jaunais Sonnet modelis varētu patiešām pārspēt abus?

Es nolēmu likt visiem trim modeļiem veikt vienas un tās pašas kodēšanas problēmas, lai redzētu, kurš darbojas vislabāk reālās pasaules scenārijos. Tas, ko atklāju, mainīja manu skatījumu uz to, kā mums vajadzētu domāt par "labāko" AI kodēšanas asistentu.

Testēšanas metodoloģija

Lai saglabātu godīgumu, es katram modelim devu precīzi tādus pašus norādījumus un izaicinājumus. Bez palīdzības, bez pielāgojumiem starp mēģinājumiem (vismaz sākumā). Tikai tīrs sniegums.

Šeit ir tas, ko es testēju:

Izaicinājums 1: Spēles izstrāde

Es lūdzu katru modeli izveidot pilnībā funkcionējošu Angry Birds spēli, kas darbojas pārlūkprogrammā. Prasības bija vienkāršas: padariet to jautru, pievienojiet animācijas, pārliecinieties, ka tā patiešām darbojas, un padariet to vizuāli pievilcīgu.

Izaicinājums 2: Mērķlapas dizains

Es lūdzu katru modeli izveidot profesionālu mērķlapu e-pasta mārketinga aģentūrai. Mērķis bija konversijai orientēts dizains ar piemērotu tekstu, vizuālu pievilcību un esošo zīmola vadlīniju ievērošanu.

Modeļiem bija piekļuve atsauces materiāliem un viņi varēja uzdot turpinājuma jautājumus. Es gribēju redzēt, kā viņi tiek galā ar sarežģītiem reālās pasaules uzdevumiem, ar kuriem izstrādātāji un dizaineri sastopas katru dienu.

Rezultāti: Pārsteidzošs ceļojums

Pirms iedziļināties detaļās, es gribu dalīties ar kaut ko, kas mani patiešām pārsteidza: Neviens modelis neuzvarēja visās kategorijās. Katrs izcēlās dažādos veidos, atklājot, ka "labākais" ļoti atkarīgs no tā, ko jūs mēģināt sasniegt.

ChatGPT-5: Vizuālās radošuma karalis

ChatGPT-5 absolūti izcēlās Angry Birds izaicinājumā. Kad es saku izcēlās, es domāju, ka tas izveidoja kaut ko, ko tu patiešām vēlies spēlēt. Putnu un bloku fizika jutās apmierinoša, animācijas bija vienmērīgas, un kopējais izskats bija ar šo "vēl vienu kārtu" faktoru.

Tas, kas mani visvairāk iespaidoja, bija vizuālais dizains. ChatGPT-5 saprata, ka spēlei jābūt vairāk nekā funkcionālai - tai jābūt saistošai. Tas pievienoja smalkas krāsu pārejas, daļiņu efektus sadursmēm un pat līmeņa pabeigšanas ekrānu, kas bija noslīpēts.

Tomēr, kad runa bija par mērķlapu, lietas kļuva mazāk iespaidīgas. Dizains bija estētiski patīkams, bet tas neievēroja savu uzdevumu. Tas ignorēja zīmola vadlīnijas, ko es nodrošināju, un teksts šķita vispārīgs. Tā bija tāda lapa, kas varētu uzvarēt dizaina balvu, bet ne obligāti pārvērst apmeklētājus.

Opus 4.1: Konsekvents izpildītājs

Opus 4.1 bija uzticams izpildītājs grupā. Abos izaicinājumos tas piegādāja precīzi to, ko tu sagaidītu no pieredzējuša senior izstrādātāja - nekas mirdzošs, bet stabils katrā detaļā.

Angry Birds spēle darbojās nevainojami no pirmā mēģinājuma. Fizika bija precīza, vadīklas bija atsaucīgas, un kods bija tīrs un labi organizēts. Ja es būtu to nodevis klientam, viņš būtu bijis apmierināts. Bet, ja esmu godīgs, tam trūka ChatGPT-5 versijas maģijas.

Tur, kur Opus 4.1 patiešām izcēlās, bija mērķlapa. Tas rūpīgi izlasīja zīmola vadlīnijas, izmantoja pareizo krāsu paleti un strukturēja saturu precīzi tā, kā es norādīju. Teksts bija apzināts - katrai sekcijai bija skaidrs mērķis lietotāja ceļojumā.

Ja tu vēlies izstrādātāju, uz kuru tu vari paļauties, lai sniegtu paredzamus kvalitatīvus rezultātus, Opus 4.1 ir tava izvēle. Tas nepārsteigs tevi ar mežonīgu radošumu, bet tas arī nepievils.

Claude Sonnet 4.5: Sadarbības pārsteigums

Sonnet 4.5 mani pilnībā pārsteidza, bet ne iemeslu dēļ, ko es būtu sagaidījis. Tā vietā, lai mēģinātu nekavējoties sniegt perfektu risinājumu, tas uzdeva jautājumus. Daudz jautājumu.

Spēles izaicinājumam:

"Kādu grūtības līmeni tu mērķē pirmajam līmenim?"
"Vai tu dod priekšroku vairāk arkādes vai reālistiskākai fizikai?"
"Vai ir kāds konkrēts mākslinieciskais stils, ko tu turi prātā?"
"Vai tam jābūt optimizētam datoram, mobilajam vai abiem?"

Sākumā es biju nedaudz frustrēts. Pārējie modeļi vienkārši sāka būvēt. Bet tad es kaut ko sapratu: Sonnet 4.5 darīja to, ko darītu patiešām labs izstrādātājs - pārliecinājās, ka saprot problēmu, pirms sāk kodēt.

Pēc tam, kad es biju atbildējis uz jautājumiem, rezultāti bija ievērojami. Spēle nebija tikai funkcionāla un vizuāli pievilcīga - tā jutās, it kā būtu uzbūvēta īpaši manam izmantošanas gadījumam. Fizika atbilda manām preferences, lietotāja saskarnes bija optimizētas platformām, ko es minēju, un pat koda komentāri šķita pielāgoti manam darba stilam.

Mērķlapa bija tā pati stāsts. Pēc jautājumu un atbilžu sesijas par mērķauditoriju un konversijas mērķiem tas izveidoja kaut ko, kas jutās rūpīgi izstrādāts. Tā nebija tikai vispārīga mērķlapa - tā bija mērķlapa, kas tika uzbūvēta manām konkrētajām biznesa vajadzībām.

Īstais atklājums: Uzlabošana ar sadarbību

Te lietas kļuva patiešām interesantas. Pēc sākotnējām kārtām es mēģināju strādāt ar katru modeli, lai uzlabotu to izvadi. Te atšķirības kļuva vēl skaidrākas.

Uzlabošana ar ChatGPT-5

ChatGPT-5 bija lielisks vizuālajās iterācijās. Kad es lūdzu izmaiņas animācijās vai dizainā, tas tās ātri ieviesa un bieži pievienoja uzlabojumus, par kuriem es nebiju domājis. Bet, kad es mēģināju to piespiest ciešāk sekot zīmola vadlīnijām, tas cīnījās. Bija tā, it kā tā radošums būtu tik spēcīgs, ka to bija grūti pakļaut.

Uzlabošana ar Opus 4.1

Opus 4.1 tika galā ar atsauksmēm precīzi tā, kā tu sagaidītu: profesionāli un efektīvi. Tas veica izmaiņas, ko es lūdzu, bez problēmām. Bet tas reti ieteica uzlabojumus ārpus tā, ko es īpaši lūdzu. Tas bija lielisks izpildītājs, bet ne proaktīvs sadarbības partneris.

Uzlabošana ar Sonnet 4.5

Šī bija sadarbības pieredze, kas mainīja manu skatījumu. Kad tu lūdzi izmaiņas, Sonnet 4.5 bieži atgriezās ar skaidrojumiem:

"Es gribu padarīt šo hero sekciju pievilcīgāku. Vai es mēģinu to padarīt vizuāli pievilcīgāku vai skaidrāku ziņojuma ziņā? Vai abus?"

Vai:

"Es pamanīju, ka tu vēlies mainīt spēles fiziku. Vai man arī jāpielāgo grūtības pakāpe, lai to kompensētu, vai tu vēlies, lai tas būtu apzināti vieglāk/grūtāk?"

Bija tā, it kā es strādātu ar senior izstrādātāju, kas aktīvi domā par lielāku problēmu, nevis tikai izpilda uzdevumus.

Spriedums: Nav universāla uzvarētāja

Pēc nedēļām šo modeļu testēšanas mans secinājums ir pretrunīgs: Tev nevajadzētu izvēlēties vienu "uzvarētāju".

Te ir, kā es par tiem tagad domāju:

Izmanto ChatGPT-5, kad:

Tev ir nepieciešami radoši vizuāli koncepti un dizaina izpēte
Tu strādā pie kaut kā, kur estētika ir tikpat svarīga kā funkcionalitāte
Tu vēlies redzēt radošas iespējas, par kurām tu nebūtu domājis
Tu esi gatavs sniegt konkrētas atsauksmes, lai to virzītu uz saviem mērķiem

Izmanto Opus 4.1, kad:

Tev ir skaidras un labi definētas prasības
Tev ir nepieciešama uzticama un paredzama izpilde
Tu strādā ar stingrām zīmola vadlīnijām vai tehniskiem ierobežojumiem
Tu vēlies tīru un labi organizētu kodu bez pārsteigumiem

Izmanto Sonnet 4.5, kad:

Tava problēma ir sarežģīta un tai būtu labums no diskusijas
Tu vēlies sadarbības partneri, nevis tikai izpildītāju
Tu esi atvērts savu prasību precizēšanai caur sarunu
Tu vērtē pārdomātus risinājumus, kas ņem vērā plašākas sekas

Lielāka mācība

Šo trīs modeļu testēšana mani iemācīja kaut ko svarīgu par AI kopumā: Tas nav par "labākā" rīka atrašanu - tas ir par katra rīka stipro pušu izpratni un to, kad tos izmantot.

Savā izstrādes praksē tagad es izmantoju visus trīs, bieži viena projekta dažādām daļām. Varbūt es sāku ar Sonnet 4.5, lai precizētu arhitektūru un prasības, izmantoju Opus 4.1 pamata ieviešanai un izsaucu ChatGPT-5, kad man nepieciešama tā radošā dzirksts saskarnei.

Anthropic apgalvojums, ka Sonnet 4.5 ir "labākais kodēšanas modelis pasaulē", ir tehniski patiess - bet ne tā, kā es sagaidīju. Tas nav labākais, jo tas uzvar visus citus modeļus katrā uzdevumā. Tas ir labākais, jo tas maina attiecības, kas tev ir ar AI kodēšanu no "rīka" uz "sadarbības partneri".

Mans ieteikums

Ja man jāizvēlas tikai viens kādam, kas sāk ar AI kodēšanu:

Iesācējiem: Sāc ar ChatGPT-5. Tā radošums un vizuālā universālums padarīs mācīšanos patīkamāku, un tā spēja ģenerēt kodu, kas "vienkārši darbojas", ir lieliski, kad vēl mācies.

Vidējā līmeņa izstrādātājiem: Opus 4.1 būs tavs labākais draugs. Tā konsekvence un uzticamība kļūs nenoērtējama, kad tu būvēsi sarežģītākus projektus.

Progresīviem izstrādātājiem: Sonnet 4.5. Ja tu jau zini, kādus jautājumus uzdot un kā strukturēt problēmas, tā sadarbības pieeja tevi padarīs produktīvāku, nekā tu būtu viens pats.

Bet godīgi? Ja tu vari, izmanto visus trīs. Mans mēneša AI abonēšanas budžets ir audzis, bet arī mana produktivitāte. Vēl svarīgāk, tā, ko es būvēju, kvalitāte ir uzlabojusies, jo es izmantoju pareizo rīku katram darbam.

Nobeiguma domas

AI kodēšanas karš nav par to, kurš uzvar savus konkurentus - tas ir par to, cik labi šie rīki var mums palīdzēt būvēt labākas lietas ātrāk. Šajā ziņā visi trīs ir uzvarētāji.

Claude Sonnet 4.5 var būt "labākais" etalontestos, bet reālajā pasaulē labākais rīks ir tas, kas atbilst tavām vajadzībām tajā brīdī. Dažreiz tas ir ChatGPT-5 radošums. Dažreiz tas ir Opus 4.1 uzticamība. Un dažreiz tas ir Sonnet 4.5 sadarbības pieeja.

Īstā spēks nāk no zināšanām, kad izmantot kuru, un elastības pārslēgties starp tiem, kad tavas vajadzības attīstās.

Watch the full testing process here: https://youtu.be/TAGUl0Xj7xg

Atjaunots: October 1, 2025

Birkas: ai claude chatgpt opus coding programming webdev comparison testing automation