მე გავტესტე Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1: შედეგები გაგაოცებთ • ckdml

Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

როდესაც Claude (Anthropic)-მა გამოუშვა Sonnet 4.5 თამამი განცხადებით, რომ ეს არის "მსოფლიოში საუკეთესო კოდირების მოდელი", ვიცოდი, რომ უნდა გამომეცადა ეს განცხადება.

ბოლოს და ბოლოს, ChatGPT-5 ახლახან გამოვიდა და ტალღები შექმნა AI საზოგადოებაში. და Opus 4.1 თვეების განმავლობაში იყო კოდირების AI-ის საყვარელი მეფე. შეძლებს თუ არა ეს ახალი Sonnet მოდელი მართლა ჩამოაგდოს ორივე?

გადავწყვიტე, გავივლი ყველა სამი მოდელი იდენტური კოდირების გამოწვევებით, რომ გავიგო, რომელი რეალურად საუკეთესოდ მუშაობს რეალურ სცენარებში. ის, რაც აღმოვაჩინე, შეცვალა ჩემი პერსპექტივა იმაზე, თუ როგორ უნდა ვფიქრობდეთ "საუკეთესო" AI კოდირების ასისტენტზე.

ტესტირების მეთოდოლოგია

სამართლიანობის შესანარჩუნებლად, თითოეულ მოდელს მივეცი ზუსტად ერთი და იგივე პრომპტები და გამოწვევები. დახმარების გარეშე, კორექტირების გარეშე მცდელობებს შორის (მაინც არა თავიდან). მხოლოდ წმინდა შესრულება.

აი რა შევამოწმე:

გამოწვევა 1: თამაშის განვითარება

მოვთხოვე თითოეულ მოდელს შეეექმნა სრულიად ფუნქციური Angry Birds თამაში, რომელიც მუშაობს ბრაუზერში. მოთხოვნები მარტივი იყო: გახადე ის სახალისო, დაამატე ანიმაციები, დარწმუნდი, რომ რეალურად მუშაობს და გახადე ის ვიზუალურად მიმზიდველი.

გამოწვევა 2: დაშვების გვერდის დიზაინი

დავავალე თითოეულ მოდელს შეეექმნა პროფესიონალური დაშვების გვერდი იმეილ მარკეტინგის სააგენტოებისთვის. მიზანი იყო კონვერსიაზე ფოკუსირებული დიზაინი შესაბამისი ტექსტით, ვიზუალური მიმზიდველობით და არსებული ბრენდის სახელმძღვანელოების დაცვით.

მოდელებს ჰქონდათ წვდომა საცნობარო მასალებზე და შეეძლოთ შემდგომი კითხვების დასმა. მინდოდა მენახა, როგორ ართმევდნენ თავს რთულ, რეალურ ამოცანებს, რომლებსაც შემუშავებლები და დიზაინერები ყოველდღე აწყდებიან.

რაუნდი 1: Angry Birds გამოწვევა

Claude Sonnet 4.5: სიჩქარის დემონი, რომელიც ჩამოინგრა

Sonnet 4.5 პირველი დაასრულა. ვსაუბრობთ დაახლოებით ერთ წუთზე სხვებთან შედარებით 5-10 წუთთან. შთამბეჭდავი, არა?

არც ისე სწრაფად.

როდესაც გავხსენი თამაში, პირველი შეხედვით ვიზუალურად მიმზიდველი გამოიყურებოდა. კარგი გრაფიკა, ლამაზი განლაგება. მაგრამ იმ მომენტში, როცა ვცადე ვეთამაშე, ყველაფერი ჩამოინგრა.

სტაციონარული მექანიკა სრულიად გაფუჭებული იყო. ვერ ვიტანდი უკან სწორად. ჩიტი ძლივს დაფრინდა. და როცა გარდაუვლად ვაგე, თამაში სრულიად დაინგრა. არ არსებობდა გზა გადატვირთვისთვის მთელი გვერდის განახლების გარეშე.

ის უბრალოდ არ იყო სათამაშო.

განაჩენი: ლამაზი მაგრამ გაფუჭებული.

Claude Opus 4.1: მოულოდნელი ჩემპიონი

Opus 4.1-ს მეტი დრო დასჭირდა კოდის გენერირებისთვის, მაგრამ სხვაობა გამოსავლის ხარისხში იყო როგორც დღე და ღამე.

პირველ რიგში, მომეცა რეალური შესვლის ეკრანი ინსტრუქციებით თამაშის თამაშის შესახებ. ლამაზი დეტალი.

როდესაც დავაჭირე "თამაშის დაწყება", მექანიკა სრულყოფილად მუშაობდა. სტაციონარი გლუვად რეაგირებდა. ფიზიკა სწორად იგრძნობოდა. შეჯახების აღმოჩენა ზუსტი იყო. ყველაზე მთავარი, ის რეალურად სახალისო იყო თამაშისთვის.

აღმოვაჩინე, რომ გავდიოდი რამდენიმე დონეზე, ნამდვილად ვსარგებლობდი გამოცდილებით. პირველი მცდელობისთვის თამაშის შექმნისთვის მარტივი პრომპტიდან, ეს შესანიშნავად კარგი იყო.

განაჩენი: Opus-მა დაამარცხა ეს გამოწვევა.

ChatGPT-5: დამაბნეველი ფუჭი

ChatGPT-5-ს ყველაზე მეტი დრო დასჭირდა კოდის გენერირებისთვის. როდესაც საბოლოოდ დასრულდა, გავხსენი ის, რასაც "Slingbirds" უწოდა.

პატიოსნად, ვერ გავიგე რა უნდა გამეკეთებინა. ინტერფეისი დამაბნეველი იყო. ჩანდა რაღაც ბოულინგის მსგავსი მექანიკა? ჩიტები არც კი იყო ხილული. დავაჭირე გარშემო ცდილობდი გავიგო, მაგრამ თამაში უბრალოდ არ იყო ფუნქციონალური.

განაჩენი: შემდეგ არც კი გარბენში.

რაუნდი 2: მეორე შანსები

მე არა ვარ ის ტიპი, ვინც ვიმსჯელებ ერთი მცდელობის საფუძველზე. შესაძლოა Sonnet 4.5-ს უბრალოდ ცუდი დღე ჰქონდა. მივეცი ყველა მოდელს კიდევ ერთი შანსი ოდნავ დახვეწილი პრომპტებით.

Sonnet 4.5: ჯერ კიდევ იბრძოდა

მეორე მცდელობა Sonnet 4.5-დან ოდნავ უკეთესი იყო. თამაში ჩაიტვირთა და მენახა რამდენიმე გაუმჯობესება ინტერფეისში. მაგრამ ფიზიკა ჯერ კიდევ ფუნდამენტურად გაფუჭებული იყო. ჩიტის მოძრაობა არასწორად იგრძნობოდა და თამაშის გამოცდილება იყო სასოწარკვეთილი ვიდრე სახალისო.

ChatGPT-5: კიდევ უფრო ცუდი

როგორღაც, ChatGPT-5-ის მეორე მცდელობა კიდევ უფრო დამაბნეველი იყო ვიდრე პირველი. გამოსავალი საკმარისად ცუდი იყო, რომ გადავწყვიტე აღარ დამეკარგა მასზე მეტი დრო.

Opus 4.1: თანმიმდევრული გამორჩეულობა

არც კი შევაწუხე Opus 4.1-ის ხელახალი ტესტირება თამაშისთვის. ის უკვე სრულყოფილად მუშაობდა.

ულტრა აზროვნების ექსპერიმენტი

Claude-ის მოდელებს აქვთ ფუნქცია სახელწოდებით "გაფართოებული აზროვნება" ან "ულტრა think" რეჟიმი. გადავწყვიტე მიმეცა Sonnet 4.5-სთვის ერთი საბოლოო შანსი ამ ფუნქციის ჩართვით, ვფიქრობდი შესაძლოა უბრალოდ სჭირდება მეტი დამუშავების დრო რომ რეალურად გაემკლავა გამოწვევას.

შედეგი? თითქმის ისევე ცუდი როგორც პირველი მცდელობა.

ამან მიმიყვანა აზრებზე: შესაძლოა Sonnet 4.5 მოითხოვს უკიდურესად სპეციფიკურ, კარგად ჩამოყალიბებულ პრომპტებს კარგად იმუშაოს. იმავდროულად, Opus 4.1 ჩანს, რომ უმკლავდება უფრო ბუნდოვან ინსტრუქციებს და მაინც აწვდის ხარისხიან შედეგებს.

გამოწვევა 2: დაშვების გვერდის დიზაინი

აქ საქმეები საინტერესო გახდა.

მოვთხოვე ყველა სამ მოდელს შეექმნა კონვერსიაზე ფოკუსირებული დაშვების გვერდი იმეილ მარკეტინგის სააგენტოებისთვის. მათ ჰქონდათ წვდომა ჩემი კომპანიის არსებულ ვებსაიტზე, ბრენდის სახელმძღვანელოებზე და დოკუმენტაციაზე. მიზანი იყო შექმნილიყო რაღაც, რაც პროფესიონალურად გამოიყურება, შეესაბამება ჩვენს დიზაინის სისტემას და რეალურად გარდააქცევს ვიზიტორებს ლიდებში.

შედეგები გასაოცარი იყო

საწყის ეტაპზე გამოუმჟღავნებლად, თუ რომელმა მოდელმა რომელი გვერდი შექმნა (მინდოდა მათი ბრმად შეფასება), აი რა აღმოვაჩინე:

გვერდი 1: სუფთა მაგრამ ზოგადი
ეს დაშვების გვერდი პროფესიონალურად გამოიყურებოდა მაგრამ ოდნავ შაბლონურად ძალა იგრძნობოდა. ტექსტი კეთილშობილი იყო, მაგრამ არაფერი განსაკუთრებული. ის შეეხო ყველა ძირითად პუნქტს, მაგრამ არ ჰქონდა პიროვნება. ვიზუალური დიზაინი უსაფრთხო იყო.

გვერდი 2: არათანმიმდევრული მაგრამ ამბიციური
ეს გვერდი ცდილობდა ბევრი გაეკეთებინა. ზოგიერთი განყოფილება ბრწყინვალე იყო, სხვები ძალიან ბრენდიდან გასული გრძნობოდა. ფერების არჩევანი საეჭვო იყო ზოგიერთ ადგილას, რაც ზოგიერთ ტექსტს ძნელად კითხვადს ხდიდა. საჭირო იყო რამდენიმე იტერაციის რაუნდი წაკითხვადობის პრობლემების გასასწორებლად.

გვერდი 3: თანმიმდევრული და კონვერსიაზე ფოკუსირებული
ეს გვერდი დაუყოვნებლივ გამოირჩეოდა თავისი დიზაინის თანმიმდევრულობით. ის ინარჩუნებდა ჩვენს ბრენდის სტანდარტებს მთელი გზის მანძილზე, ეფექტურად იყენებდა თეთრ სივრცეს და ტექსტი მკვეთრი იყო. FAQ განყოფილება ზუსტად იმ სწორ კითხვებს სვამდა, რაც პოტენციურ კლიენტებს ექნებოდათ. საერთო სტრუქტურა აზრს შენარჩუნებდა კონვერსიის პერსპექტივიდან.

დიდი გამჟღავნება

გვერდი 1 იყო ChatGPT-5. მტკიცე, მაგრამ არაფერი სპექტაკულარული.
გვერდი 2 იყო Opus 4.1. ამბიციური მაგრამ სჭირდებოდა სამუშაო.
გვერდი 3 იყო Sonnet 4.5. ის აბსოლუტურად გაართვა თავი ამ გამოწვევას.

ტესტ რაუნდი 2: ახალი დაწყება

იმის უზრუნველსაყოფად, რომ დაშვების გვერდის შედეგები არ იყო გავლენილი მოდელების ერთმანეთის სამუშაოს ნახვით, დავიწყე სრულიად ახალი ჩათი და ვთხოვე Sonnet 4.5-ს ამის ნაცვლად შეექმნა დაშვების გვერდი Facebook რეკლამის სააგენტოებისთვის.

შედეგები კვლავ შთამბეჭდავი იყო. Sonnet 4.5-მა აჩვენა ძლიერი თანმიმდევრულობა დიზაინში, გაუკეთა ნაკლები შეცდომა საერთო ჯამში და კარგად გაიგო კონვერსიის ოპტიმიზაციის მოთხოვნები.

დიახ, დაიწყებაში გააფუჭა ზოგიერთი ფერის არჩევანი, რამაც ტექსტი წაუკითხავ გახადა. და დიახ, დასჭირდა 3-4 უკუკავშირის რაუნდი ყველაფრის გასასწორებლად. მაგრამ საბოლოო შედეგი რეალურად კარგი იყო.

სტრუქტურა, ვიზუალური იერარქია, არჩევანი გამოიყენოს ნაკლები სიტყვები მაგრამ თითოეული მნიშვნელოვანი გაეხადა - ყველაფერი მუშაობდა ერთად კოჰეზიურად.

რასაც ვისწავლე: არ არსებობს "საუკეთესო" AI მოდელი

აი ჩემი გულწრფელი აზრი საათობით ამ მოდელების ტესტირების შემდეგ:

Claude Opus 4.1 გამორჩეულია:

კრეატიულ პრობლემების გადაჭრაში
თამაშების განვითარებაში და რთულ ლოგიკაში
ბუნდოვანი ან არასრული პრომპტების მართვაში
საქმის პირველი მცდელობიდან სწორად გაკეთებაში

Claude Sonnet 4.5 გამორჩეულია:

სტრუქტურირებულ დიზაინის ამოცანებში
თანმიმდევრულობაში და დეტალებზე ყურადღებაში
დაშვების გვერდებსა და ვებ დიზაინში
დამკვიდრებული შაბლონების მიყოლაში

ChatGPT-5 გამორჩეულია:

ჰმ... ჯერ კიდევ ვცდილობ გავარკვიო ამ ტესტების საფუძველზე

ის მტკიცება, რომ Sonnet 4.5 არის "მსოფლიოში საუკეთესო კოდირების მოდელი" არის ერთდროულად მართალი და შეცდომაში შემყვანი. სრულიად დამოკიდებულია იმაზე, თუ რას აშენებ.

ვებ დიზაინისთვის, დაშვების გვერდებისთვის და ამოცანებისთვის, რომლებიც მოითხოვენ დიზაინის სისტემების მკაცრ დაცვას, Sonnet 4.5 ბრწყინვალეა. კრეატიული პრობლემების გადაჭრისთვის, თამაშების განვითარებისთვის და ამოცანებისთვის, რომლებსაც სჭირდებათ ინტუიცია არასრული ინსტრუქციებით, Opus 4.1 ჯერ კიდევ ჩემპიონია.

პრომპტის ხარისხის ფაქტორი

ერთი შაბლონი, რაც შევამჩნიე: Sonnet 4.5, როგორც ჩანს, მოითხოვს უფრო სპეციფიკურ, დეტალურ პრომპტებს მისი პიკზე მუშაობისთვის. როდესაც მივეცი მას ზუსტი ინსტრუქციები და მკაფიო მითითებები, მან წარმოშვა გამორჩეული შედეგები.

Opus 4.1, მეორე მხრივ, კარგად მუშაობდა ჩემი დაწყებითი ოდნავ ბუნდოვანი პრომპტებითაც კი. ის ინტელექტუალურად ავსებდა ხარვეზებს და აკეთებდა კარგ დაშვებებს იმის შესახებ, თუ რა მინდოდა.

ეს არ არის აუცილებლად Sonnet 4.5-ის სისუსტე. ეს შეიძლება უბრალოდ ნიშნავს, რომ ის სხვაგვარად არის ოპტიმიზირებული. თუ თქვენ მზად ხართ დროის ინვესტირებას დეტალური პრომპტების შექმნაში, Sonnet 4.5 შეუძლია წარმოშვას შესანიშნავად თანმიმდევრული გამოსავალი.

რა იყო სხვა განახლებები?

Claude-მა ასევე გამოუშვა რამდენიმე სხვა საინტერესო განახლება Sonnet 4.5-თან ერთად, რომლებსაც არ შევეხე დეტალურად:

Claude Agent SDK - ეს მაღალობარი ჩანს ავტონომიური აგენტის სისტემების აშენებისთვის. ცნობისმოყვარე ვარ, როგორ შედარდება იმას, რასაც შეგიძლია ააშენო ისეთი ინსტრუმენტებით, როგორიცაა N8N.

Imagine With Claude - ეს, როგორც ჩანს, არის Claude-ის პასუხი პლატფორმებისთვის, როგორებიცაა Lovable, Bolt და V0. ის არის თითქმის AI-ზე დაფუძნებული აპლიკაციის შემქმნელი. გეგმავ ვტესტო ეს მომავალ შედარებაში.

ChatGPT-5 ფენომენი

გახსოვს როდესაც ChatGPT-5 პირველად იქნა გაშვებული და ყველა უჩივლებდა, რომ არ იყო ისეთი კარგი, როგორც მოსალოდნელი იყო? შემდეგ ორი კვირის შემდეგ, ის რეალურად ძალიან კარგად მუშაობდა?

ვფიქრობ, ჩვენ შეიძლება ვხედავთ რაღაც მსგავსს Sonnet 4.5-თან. მოდელს შეიძლება სჭირდება დრო დამკვიდრებისთვის, ან შესაძლოა ჩვენ ყველას ვჭირდებათ დრო, რომ ვისწავლოთ როგორ ეფექტურად გავუშვათ მას პრომპტები.

ნამდვილად გავატარებ მეტ დროს Sonnet 4.5-თან, რომ ვნახო გაუმჯობესდება თუ არა ჩემი შედეგები, როდესაც ვისწავლი მის ძლიერებებს და სისუსტეებს.

საბოლოო განაჩენი

თუ დამაიძულებთ ერთი მოდელის არჩევას ყველა ჩემი კოდირების ამოცანისთვის, მაინც Opus 4.1-ს ავირჩევდი. ის ყველაზე მრავალფეროვანია და კარგად უმკლავდება ამოცანების ყველაზე ფართო სპექტრს.

მაგრამ კონკრეტული გამოყენების შემთხვევებისთვის, როგორიცაა დაშვების გვერდის დიზაინი, Sonnet 4.5 ახლა ჩემი არჩევანია. თანმიმდევრულობა და დიზაინის დეტალებზე ყურადღება მას ღირებულს ხდის ამ კონკრეტული ამოცანებისთვის.

რაც შეეხება ChatGPT-5-ს, უნდა ვტესტო ის უფრო მეტი განსხვავებულ სცენარებში. ეს კონკრეტული გამოწვევები არ ჰგავდა მის ძლიერ მხარეებს, რაც არ უნდა იყოს ისინი.

რა არის შენი გამოცდილება?

ცნობისმოყვარე ვარ გავიგო სხვებისგან, ვინც ტესტავდა ამ მოდელებს. ხედავ მსგავს შედეგებს? იპოვე გამოყენების შემთხვევები, სადაც Sonnet 4.5 რეალურად ბრწყინავს?

დატოვე შენი აზრები ვიდეოს კომენტარებში და მომაცნობე რისი ტესტირება გინდა შემდეგი.

იხილე სრული ტესტირების პროცესი აქ: https://youtu.be/TAGUl0Xj7xg

ვიდეო აჩვენებს ყველა მცდელობას, ყველა წარუმატებლობას და ყველა იტერაციას რეალურ დროში. თუ გადაწყვეტილებებს იღებ იმის შესახებ, თუ რომელი AI კოდირების ასისტენტი გამოიყენო შენი პროექტებისთვის, ღირს ყველაფრის ნახვა.

მზად ხარ აიწიო შენი AI სამუშაო ნაკადი? გამოიწერე მეტი სიღრმისეული AI ინსტრუმენტების შედარებისთვის და რეალური სამყაროს ტესტირებისთვის.

განახლებული: October 1, 2025

ტეგები: ai claude chatgpt opus coding programming webdev comparison testing automation