Ես փորձարկեցի Claude Sonnet 4.5-ը ChatGPT-5-ի և Opus 4.1-ի դեմ։ Արդյունքները կզարմացնեն ձեզ • ckdml

Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

Երբ Claude-ն (Anthropic) թողարկեց Sonnet 4.5-ը՝ պնդելով, որ դա «աշխարհի լավագույն կոդավորման մոդելն է», ես գիտեի, որ պետք է փորձարկեմ այն։

Վերջապես, ChatGPT-5-ը նոր էր թողարկվել և ալիքներ էր ստեղծել արհեստական բանականության հանրությունում։ Իսկ Opus 4.1-ը ամիսներ շարունակ եղել է կոդավորման արհեստական բանականության սիրված թագավորը։ Արդյոք այս նոր Sonnet մոդելը կարող է իսկապես հաղթել երկուսին էլ։

Ես որոշեցի բոլոր երեք մոդելները անցկացնել նույն կոդավորման մարտահրավերներով՝ տեսնելու համար, թե որը լավագույնս է աշխատում իրական աշխարհի սցենարներում։ Այն, ինչ հայտնաբերեցի, փոխեց իմ տեսակետը այն մասին, թե ինչպես պետք է մտածենք արհեստական բանականության կոդավորման «լավագույն» օգնականի մասին։

Փորձարկման մեթոդոլոգիա

Արդարությունը պահպանելու համար ես յուրաքանչյուր մոդելին տվեցի ճիշտ նույն հրահանգներն ու մարտահրավերները։ Առանց օգնության, առանց ճշգրտումների փորձերի միջև (առնվազն սկզբում)։ Միայն մաքուր կատարողականություն։

Ահա թե ինչ փորձարկեցի.

Մարտահրավեր 1. Խաղի մշակում

Ես խնդրեցի յուրաքանչյուր մոդելին ստեղծել Angry Birds խաղի ամբողջովին գործող տարբերակ, որը աշխատում է բրաուզերում։ Պահանջները պարզ էին՝ դարձրեք այն զվարճալի, ավելացրեք անիմացիաներ, համոզվեք, որ իսկապես աշխատում է և դարձրեք այն տեսողականորեն գրավիչ։

Մարտահրավեր 2. Վայրէջքի էջի դիզայն

Ես խնդրեցի յուրաքանչյուր մոդելին ստեղծել էլփոստի մարքեթինգի գործակալության համար պրոֆեսիոնալ վայրէջքի էջ։ Նպատակն էր փոխակերպման վրա կենտրոնացած դիզայն՝ համապատասխան տեքստով, տեսողական գրավչությամբ և առկա ապրանքանիշի ուղեցույցներին համապատասխանությամբ։

Մոդելները մուտք ունեին ծանոթագրական նյութերի և կարող էին հետագա հարցեր տալ։ Ես ցանկանում էի տեսնել, թե ինչպես են նրանք վարվում բարդ իրական աշխարհի առաջադրանքների հետ, որոնց բախվում են ծրագրավորողներն ու դիզայներները ամեն օր։

Արդյունքներ. զարմանալի ճանապարհորդություն

Նախքան մանրամասներին անդրադառնալը, ես ցանկանում եմ կիսվել մի բանով, որը իսկապես զարմացրեց ինձ. ոչ մի մոդել չհաղթեց բոլոր կատեգորիաներում։ Յուրաքանչյուրը փայլեց տարբեր ձևերով՝ բացահայտելով, որ «լավագույնը» շատ է կախված նրանից, թե ինչի եք փորձում հասնել։

ChatGPT-5. տեսողական ստեղծագործականության թագավոր

ChatGPT-5-ը բացարձակապես փայլեց Angry Birds մարտահրավերում։ Երբ ասում եմ փայլեց, նկատի ունեմ, որ այն ստեղծեց ինչ-որ բան, որը իսկապես ցանկանում ես խաղալ։ Թռչունների և բլոկների ֆիզիկան բավարարիչ էր զգացվում, անիմացիաները հարթ էին, և ընդհանուր տեսքը ուներ այդ «ևս մեկ փուլ» գործոնը։

Ինձ ամենաշատը տպավորեց տեսողական դիզայնը։ ChatGPT-5-ը հասկացավ, որ խաղը պետք է լինի ավելին, քան գործառնական՝ այն պետք է լինի ներգրավող։ Այն ավելացրեց նուրբ գրադիենտներ, մասնիկների էֆեկտներ բախումների համար և նույնիսկ մակարդակի ավարտի էկրան, որը հղկված էր։

Այնուամենայնիվ, երբ հարցը վերաբերում էր վայրէջքի էջին, գործերը դարձան պակաս տպավորիչ։ Դիզայնը էսթետիկ հաճելի էր, բայց չհետևեց իր սեփական բրիֆին։ Այն անտեսեց ապրանքանիշի ուղեցույցները, որոնք ես տրամադրել էի, և տեքստը ընդհանուր էր զգացվում։ Սա այն տեսակի էջն էր, որը կարող էր դիզայնի մրցանակ շահել, բայց անպայման այցելուներին չփոխակերպեր։

Opus 4.1. հետևողական կատարող

Opus 4.1-ը խմբի հուսալի կատարողն էր։ Երկու մարտահրավերներում էլ այն տրամադրեց ճիշտ այն, ինչ սպասում էիր փորձառու ավագ ծրագրավորողից՝ ոչ փայլուն, բայց պինդ ամեն մանրամասնությամբ։

Angry Birds խաղը կատարելապես աշխատեց առաջին փորձից։ Ֆիզիկան ճշգրիտ էր, կառավարումները արձագանքող էին, իսկ կոդը մաքուր և լավ կազմակերպված։ Եթե սա տայի հաճախորդին, նրանք գոհ կլինեին։ Բայց եթե ազնիվ լինեմ, դրանում չկար ChatGPT-5 տարբերակի կախարդանքը։

Որտեղ Opus 4.1-ը իսկապես փայլեց, վայրէջքի էջն էր։ Այն ուշադիր կարդաց ապրանքանիշի ուղեցույցները, օգտագործեց ճիշտ գույնի պալիտրան և կառուցվածքավորեց պարունակությունը ճիշտ այնպես, ինչպես ես նշել էի։ Տեքստը մտադիր էր զգացվում՝ յուրաքանչյուր բաժինը ուներ հստակ նպատակ օգտատիրոջ ճանապարհորդության մեջ։

Եթե ցանկանում եք ծրագրավորող, որին կարող եք վստահել կանխատեսելի որակական արդյունքներ տրամադրելու համար, Opus 4.1-ը ձեր ընտրությունն է։ Այն ձեզ չի զարմացնի վայրի ստեղծագործականությամբ, բայց ձախողումներ էլ չի ունենա։

Claude Sonnet 4.5. համագործակցության անակնկալ

Sonnet 4.5-ը ամբողջությամբ զարմացրեց ինձ, բայց ոչ այն պատճառներով, որոնք ակնկալում էի։ Անմիջապես կատարյալ լուծում տրամադրելու փորձի փոխարեն, այն հարցեր տվեց։ Շատ հարցեր։

Խաղի մարտահրավերի համար.

«Ինչ բարդության մակարդակի եք նպատակ ունենում առաջին մակարդակի համար»:
«Նախընտրում եք ավելի արկադային, թե ավելի ռեալիստական ֆիզիկա»:
«Կա՞ որևէ կոնկրետ արվեստի ոճ, որը ունեք մտքում»:
«Պետք է օպտիմալացվի desktop-ի, բջջայինի, թե՞ երկուսի համար»:

Սկզբում փոքր-ինչ հիասթափված էի։ Մյուս մոդելները պարզապես սկսեցին կառուցել։ Բայց հետո ես ինչ-որ բան հասկացա. Sonnet 4.5-ը անում էր այն, ինչ իսկապես լավ ծրագրավորողը կանի՝ համոզվում է, որ հասկանում է խնդիրը նախքան կոդավորումը սկսելը։

Հարցերին պատասխանելուց հետո արդյունքները նշանակալի էին։ Խաղը ոչ միայն գործառնական և տեսողականորեն գրավիչ էր՝ այն զգացվում էր, որպես թե հատուկ կառուցվել է իմ օգտագործման դեպքի համար։ Ֆիզիկան համապատասխանում էր իմ նախապատվություններին, օգտատիրոջ միջերեսը օպտիմալացված էր այն հարթակների համար, որոնք ես նշել էի, և նույնիսկ կոդի մեկնաբանությունները կարծես հարմարեցված էին իմ աշխատանքային ոճին։

Վայրէջքի էջը նույն պատմությունն էր։ Նպատակային լսարանի և փոխակերպման նպատակների մասին հարցերի և պատասխանների նիստից հետո այն ստեղծեց ինչ-որ բան, որը զգացվում էր ուշադիր նախագծված։ Սա պարզապես ընդհանուր վայրէջքի էջ չէր՝ սա էր վայրէջքի էջ, որը կառուցվել էր իմ հատուկ բիզնես կարիքների համար։

Իրական հայտնագործություն. բարելավում համագործակցության միջոցով

Այստեղ գործերը դարձան իսկապես հետաքրքիր։ Սկզբնական փուլերից հետո ես փորձեցի աշխատել յուրաքանչյուր մոդելի հետ՝ վերամշակելու նրանց ելքերը։ Այստեղ տարբերությունները դարձան ավելի ակնհայտ։

Բարելավում ChatGPT-5-ի հետ

ChatGPT-5-ը հիանալի էր տեսողական կրկնություններում։ Երբ ես խնդրեցի փոփոխություններ անիմացիաներում կամ դիզայնում, այն արագ կատարեց դրանք և հաճախ ավելացրեց բարելավումներ, որոնց մասին չէի մտածել։ Բայց երբ ես փորձեցի դրան ստիպել ավելի մոտիկից հետևել ապրանքանիշի ուղեցույցներին, այն բախվեց դժվարություններին։ Կարծես նրա ստեղծագործականությունը այնքան ուժեղ էր, որ դրան տիրել դժվար էր։

Բարելավում Opus 4.1-ի հետ

Opus 4.1-ը կարգավորեց արձագանքը ճիշտ այնպես, ինչպես կսպասեիր. պրոֆեսիոնալ և արդյունավետ։ Այն կատարեց փոփոխությունները, որոնք ես խնդրեցի, առանց խնդիրների։ Բայց այն հազվադեպ էր առաջարկում բարելավումներ նրանից այն կողմ, ինչ ես մասնավորապես խնդրել էի։ Այն գերազանց կատարող էր, բայց ոչ պրոակտիվ համագործակից։

Բարելավում Sonnet 4.5-ի հետ

Սա համագործակցային փորձն էր, որը փոխեց իմ տեսակետը։ Երբ խնդրեցիր փոփոխություններ, Sonnet 4.5-ը հաճախ վերադառնում էր պարզաբանումներով.

«Ես ցանկանում եմ այս հերոս բաժինը ավելի գրավիչ դարձնել։ Արդյո՞ք ես փորձում եմ այն դարձնել ավելի տեսողականորեն գրավիչ, թե ավելի պարզ հաղորդագրության առումով։ Թե՞ երկուսն էլ»:

Կամ.

«Նկատեցի, որ ուզում եք փոխել խաղի ֆիզիկան։ Պետք է՞ կարգավորեմ նաև բարդությունը՝ հատուցելու համար, թե՞ ուզում եք դրա մտադիր ավելի հեշտ/դժվար լինել»:

Կարծես աշխատում էի ավագ ծրագրավորողի հետ, ով ակտիվորեն մտածում է ավելի մեծ խնդրի մասին, այլ ոչ թե պարզապես առաջադրանքներ կատարում։

Վճիռ. համընդհանուր հաղթող չկա

Այս մոդելները շաբաթներ փորձարկելուց հետո իմ եզրակացությունը հակասական է. դուք չպետք է ընտրեք մեկ «հաղթող»։

Ահա թե ինչպես եմ ես հիմա մտածում նրանց մասին.

Օգտագործեք ChatGPT-5-ը, երբ.

Ձեզ անհրաժեշտ են ստեղծագործական տեսողական հայեցակարգեր և դիզայնի ուսումնասիրություն
Աշխատում եք ինչ-որ բանի վրա, որտեղ էսթետիկան այնքան կարևոր է, որքան գործառնությունը
Ցանկանում եք տեսնել ստեղծագործական հնարավորություններ, որոնց մասին չէիք մտածի
Պատրաստ եք տրամադրել հատուկ հետադարձ կապ՝ ուղղորդելու այն դեպի ձեր նպատակները

Օգտագործեք Opus 4.1-ը, երբ.

Ունեք հստակ և լավ սահմանված պահանջներ
Ձեզ անհրաժեշտ է հուսալի և կանխատեսելի կատարում
Աշխատում եք խիստ ապրանքանիշի ուղեցույցների կամ տեխնիկական սահմանափակումների հետ
Ցանկանում եք մաքուր և լավ կազմակերպված կոդ առանց անակնկալների

Օգտագործեք Sonnet 4.5-ը, երբ.

Ձեր խնդիրը բարդ է և օգտվի քննարկումից
Ցանկանում եք համագործակից, ոչ թե միայն կատարող
Բաց եք զրույցի միջոցով ձեր պահանջները վերամշակելու համար
Գնահատում եք խոհեմ լուծումներ, որոնք հաշվի են առնում ավելի լայն ազդեցությունները

Ավելի մեծ դաս

Այս երեք մոդելների փորձարկումը ինձ կարևոր ինչ-որ բան սովորեցրեց արհեստական բանականության մասին ընդհանուր առմամբ. դա «լավագույն» գործիքը գտնելու մասին չէ՝ դա յուրաքանչյուր գործիքի ուժերը հասկանալու և դրանք երբ օգտագործելու մասին է։

Իմ մշակման պրակտիկայում հիմա օգտագործում եմ երեքն էլ՝ հաճախ նույն նախագծի տարբեր մասերի համար։ Գուցե սկսում եմ Sonnet 4.5-ով՝ ճշգրտելու ճարտարապետությունը և պահանջները, օգտագործում եմ Opus 4.1-ը հիմնական իրականացման համար և կանչում եմ ChatGPT-5-ին, երբ ինձ անհրաժեշտ է այդ ստեղծագործական կայծը միջերեսի համար։

Anthropic-ի պնդումը, որ Sonnet 4.5-ը «աշխարհի լավագույն կոդավորման մոդելն է», տեխնիկապես ճիշտ է՝ բայց ոչ այն ձևով, որը ես ակնկալում էի։ Այն լավագույնը չէ, որովհետև հաղթում է բոլոր մյուս մոդելներին յուրաքանչյուր առաջադրանքում։ Այն լավագույնն է, որովհետև փոխում է ձեր հարաբերությունները արհեստական բանականության կոդավորման հետ՝ «գործիքից» դեպի «համագործակից»։

Իմ առաջարկը

Եթե պետք է ընտրեմ միայն մեկը մեկի համար, ով սկսում է արհեստական բանականության կոդավորումով.

Սկսնակների համար. սկսեք ChatGPT-5-ից։ Նրա ստեղծագործականությունն ու տեսողական բազմակողմանիությունը ուսուցումը կդարձնեն ավելի հաճելի, իսկ կոդ ստեղծելու նրա կարողությունը, որը «պարզապես աշխատում է», հիանալի է, երբ դեռ սովորում եք։

Միջին մակարդակի ծրագրավորողների համար. Opus 4.1-ը կլինի ձեր լավագույն ընկերը։ Նրա հետևողականությունն ու հուսալիությունը անգնահատելի կդառնան, երբ ավելի բարդ նախագծեր եք կառուցում։

Առաջադեմ ծրագրավորողների համար. Sonnet 4.5։ Եթե արդեն գիտեք, թե ինչ հարցեր տալ և ինչպես կառուցվածք տալ խնդիրներին, նրա համագործակցային մոտեցումը ձեզ կդարձնի ավելի արտադրողական, քան միայնակ լինելիս։

Բայց ազնվորեն: Եթե կարող եք, օգտագործեք երեքն էլ։ Իմ ամսական արհեստական բանականության բաժանորդագրության բյուջեն ավելացել է, բայց նաև իմ արտադրողականությունը։ Ավելի կարևոր է, որ այն, ինչ ես կառուցում եմ, բարելավվել է, որովհետև ես օգտագործում եմ ճիշտ գործիքը յուրաքանչյուր աշխատանքի համար։

Վերջնական մտքեր

Արհեստական բանականության կոդավորման պատերազմը չէ, թե ով է հաղթում իր մրցակիցներին՝ դա այն մասին է, թե որքան լավ են այս գործիքները կարող օգնել մեզ ավելի լավ բաներ կառուցել ավելի արագ։ Այդ իմաստով երեքն էլ հաղթողներ են։

Claude Sonnet 4.5-ը կարող է լինել «լավագույնը» benchmark փորձարկումներում, բայց իրական աշխարհում լավագույն գործիքը այն է, որը համապատասխանում է ձեր կարիքներին այդ պահին։ Երբեմն դա ChatGPT-5-ի ստեղծագործականությունն է։ Երբեմն դա Opus 4.1-ի հուսալիությունն է։ Իսկ երբեմն դա Sonnet 4.5-ի համագործակցային մոտեցումն է։

Իրական ուժը գալիս է նրանից, որ գիտես, թե երբ ում օգտագործել, և ճկունությունը՝ դրանց միջև անցնելու համար, երբ ձեր կարիքները զարգանում են։

Watch the full testing process here: https://youtu.be/TAGUl0Xj7xg

Թարմացված: October 1, 2025

Պիտակներ: ai claude chatgpt opus coding programming webdev comparison testing automation