skip to content
@CKDML

Я протестував Claude Sonnet 4.5 проти ChatGPT-5 та Opus 4.1: Результати вас здивують

8 хв читання
Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

Зміст

Коли Claude (Anthropic) випустила Sonnet 4.5 зі сміливою заявою, що це "найкраща модель для кодування у світі", я знав, що мушу перевірити це твердження.

Зрештою, ChatGPT-5 щойно вийшов і наробив галасу в AI-спільноті. А Opus 4.1 був улюбленим королем AI для кодування впродовж місяців. Чи може ця нова модель Sonnet справді скинути їх обох з трону?

Я вирішив прогнати всі три моделі через ідентичні виклики з кодування, щоб з'ясувати, яка насправді найкраще справляється в реальних сценаріях. Те, що я виявив, змінило мою перспективу щодо того, як ми повинні думати про "найкращого" AI-асистента для кодування.

Методологія тестування

Щоб зберегти справедливість, я дав кожній моделі точно такі самі промпти та виклики. Без допомоги, без коригувань між спробами (принаймні спочатку). Лише чиста продуктивність.

Ось що я тестував:

Виклик 1: Розробка ігор

Я попросив кожну модель створити повністю функціональну гру Angry Birds, яка працює в браузері. Вимоги були простими: зроби це веселим, додай анімацію, переконайся, що це справді працює, і зроби візуально привабливим.

Виклик 2: Дизайн посадкової сторінки

Я доручив кожній моделі створити професійну посадкову сторінку для агентств email-маркетингу. Метою був дизайн, орієнтований на конверсію, з відповідним копірайтингом, візуальною привабливістю та дотриманням існуючих брендових вказівок.

Моделі мали доступ до довідкових матеріалів і могли ставити додаткові запитання. Я хотів побачити, як вони справляються зі складними реальними завданнями, з якими розробники та дизайнери стикаються щодня.

Раунд 1: Виклик Angry Birds

Claude Sonnet 4.5: Демон швидкості, що зламався

Sonnet 4.5 закінчила першою. Ми говоримо про хвилину або близько того порівняно з 5-10 хвилинами для інших. Вражаюче, чи не так?

Не так швидко.

Коли я відкрив гру, вона виглядала візуально привабливою з першого погляду. Хороша графіка, гарний макет. Але в момент, коли я спробував грати, все розвалилося.

Механіка рогатки була повністю зламана. Я не міг нормально потягнути назад. Птах ледве літав. І коли я неминуче програв, гра повністю зависла. Не було способу перезапустити без оновлення всієї сторінки.

По суті, в неї неможливо було грати.

Вердикт: Красиво, але зламано.

Claude Opus 4.1: Несподіваний чемпіон

Opus 4.1 зайняв більше часу для генерації коду, але різниця в якості виводу була як день і ніч.

По-перше, він дав мені справжній стартовий екран з інструкціями, як грати. Гарна деталь.

Коли я клікнув "Грати в гру", механіка працювала ідеально. Рогатка реагувала плавно. Фізика відчувалася правильною. Виявлення зіткнень було точним. Найважливіше, в це було справді весело грати.

Я виявив, що проходжу кілька рівнів, справді насолоджуючись досвідом. Для першої спроби створити гру з простого промпту, це було напрочуд добре.

Вердикт: Opus роздавив цей виклик.

ChatGPT-5: Заплутаний безлад

ChatGPT-5 зайняв найдовше для генерації коду. Коли він нарешті закінчив, я відкрив те, що він назвав "Slingbirds".

Чесно кажучи, я не міг зрозуміти, що я повинен робити. Інтерфейс був заплутаним. Здавалося, там була якась боулінг-подібна механіка? Птахів навіть не було видно. Я клікав навкруг, намагаючись зрозуміти, але гра була по суті нефункціональною.

Вердикт: Навіть не в гонці.

Раунд 2: Другі шанси

Я не з тих, хто судить на основі одної спроби. Можливо, у Sonnet 4.5 просто був поганий день. Я дав усім моделям ще один шанс з дещо вдосконаленими промптами.

Sonnet 4.5: Досі бореться

Друга спроба Sonnet 4.5 була незначно кращою. Гра завантажилася, і я міг побачити деякі покращення в інтерфейсі. Але фізика все ще була фундаментально зламана. Рух птаха відчувався неправильно, і ігровий досвід був фруструючим замість веселого.

ChatGPT-5: Ще гірше

Якось друга спроба ChatGPT-5 була ще більш заплутаною, ніж перша. Вивід був досить поганим, що я вирішив не витрачати на це більше часу.

Opus 4.1: Послідовна досконалість

Я навіть не потурбувався тестувати Opus 4.1 знову для гри. Вона вже працювала ідеально.

Експеримент з ультра-мисленням

Моделі Claude мають функцію під назвою "розширене мислення" або режим "ultra think". Я вирішив дати Sonnet 4.5 останній шанс з увімкненою цією функцією, думаючи, що можливо йому просто потрібно більше часу на обробку, щоб справді впоратися з викликом.

Результат? Майже так само погано, як і перша спроба.

Це змусило мене задуматися: можливо, Sonnet 4.5 потребує надзвичайно специфічних, добре складених промптів для хорошої роботи. Тим часом Opus 4.1, здається, справляється з більш розпливчастими інструкціями і все ще видає якісні результати.

Виклик 2: Дизайн посадкової сторінки

Тут справи стали цікавими.

Я попросив усі три моделі створити посадкову сторінку, орієнтовану на конверсію, для агентств email-маркетингу. Вони мали доступ до існуючого веб-сайту моєї компанії, брендових вказівок та документації. Метою було створити щось, що виглядає професійно, відповідає нашій системі дизайну і фактично перетворюватиме відвідувачів на ліди.

Результати були дивовижними

Не розкриваючи спочатку, яка модель створила яку сторінку (я хотів оцінити їх наосліп), ось що я знайшов:

Сторінка 1: Чиста, але загальна
Ця посадкова сторінка виглядала професійно, але відчувалася трохи шаблонною. Текст був пристойним, але нічого особливого. Вона торкнулася всіх основних моментів, але їй бракувало індивідуальності. Візуальний дизайн був безпечним.

Сторінка 2: Непослідовна, але амбітна
Ця сторінка намагалася зробити багато. Деякі розділи були чудовими, інші відчувалися поза брендом. Вибір кольорів був сумнівним у деяких місцях, що робило деякі тексти важкими для читання. Знадобилося кілька раундів ітерацій, щоб виправити проблеми з читабельністю.

Сторінка 3: Послідовна та орієнтована на конверсію
Ця сторінка одразу виділялася своєю послідовністю дизайну. Вона підтримувала наші брендові стандарти протягом усього часу, ефективно використовувала білий простір, і копірайтинг був гострим. Розділ FAQ задавав саме ті правильні питання, які були б у потенційних клієнтів. Загальна структура мала сенс з перспективи конверсії.

Велике розкриття

  • Сторінка 1 була ChatGPT-5. Надійно, але нічого вражаючого.
  • Сторінка 2 була Opus 4.1. Амбітно, але потребувала роботи.
  • Сторінка 3 була Sonnet 4.5. Вона абсолютно впоралася з цим викликом.

Тестовий раунд 2: Свіжий початок

Щоб переконатися, що результати посадкової сторінки не були під впливом того, що моделі бачили роботу одна одної, я розпочав абсолютно свіжий чат і попросив Sonnet 4.5 створити посадкову сторінку для агентств реклами у Facebook натомість.

Результати знову були вражаючими. Sonnet 4.5 показала сильну послідовність у дизайні, зробила менше помилок загалом і добре зрозуміла вимоги оптимізації конверсії.

Так, вона спочатку зіпсувала деякі вибори кольорів, що зробило текст нечитабельним. І так, знадобилося 3-4 раунди зворотного зв'язку, щоб все було правильно. Але кінцевий результат був справді хорошим.

Структура, візуальна ієрархія, вибір використовувати менше слів, але зробити кожне значущим - все працювало разом злагоджено.

Що я дізнався: Немає "найкращої" AI-моделі

Ось моя чесна думка після витрачання годин на тестування цих моделей:

Claude Opus 4.1 відмінно справляється з:

  • Творчим вирішенням проблем
  • Розробкою ігор та складною логікою
  • Обробкою нечітких або неповних промптів
  • Правильним виконанням з першої спроби

Claude Sonnet 4.5 відмінно справляється з:

  • Структурованими дизайнерськими завданнями
  • Послідовністю та увагою до деталей
  • Посадковими сторінками та веб-дизайном
  • Дотриманням усталених шаблонів

ChatGPT-5 відмінно справляється з:

  • Ну... я все ще намагаюся з'ясувати це на основі цих тестів

Твердження, що Sonnet 4.5 є "найкращою моделлю для кодування у світі", одночасно правдиве і оманливе. Це повністю залежить від того, що ти будуєш.

Для веб-дизайну, посадкових сторінок та завдань, які вимагають суворого дотримання систем дизайну, Sonnet 4.5 відмінна. Для творчого вирішення проблем, розробки ігор та завдань, які потребують інтуїції з неповними інструкціями, Opus 4.1 все ще чемпіон.

Фактор якості промпта

Один шаблон, який я помітив: Sonnet 4.5, здається, потребує більш конкретних, детальних промптів для найкращої роботи. Коли я дав йому точні інструкції та чіткі посилання, він видав видатні результати.

Opus 4.1, з іншого боку, добре працював навіть з моїми дещо нечіткими початковими промптами. Він розумно заповнив прогалини і зробив хороші припущення про те, що я хотів.

Це не обов'язково слабкість Sonnet 4.5. Це може просто означати, що він оптимізований по-іншому. Якщо ти готовий інвестувати час у створення детальних промптів, Sonnet 4.5 може видавати напрочуд послідовні результати.

А як щодо інших оновлень?

Claude також випустила кілька інших цікавих оновлень разом з Sonnet 4.5, які я не розглядав детально:

Claude Agent SDK - Це виглядає перспективно для побудови автономних агентських систем. Мені цікаво, як це порівнюється з тим, що можна побудувати за допомогою інструментів, таких як N8N.

Imagine With Claude - Це здається відповіддю Claude на платформи, такі як Lovable, Bolt та V0. По суті це конструктор додатків на базі AI. Я планую протестувати це в майбутньому порівнянні.

Феномен ChatGPT-5

Пам'ятаєш, коли ChatGPT-5 вперше запустився, і всі скаржилися, що він не такий хороший, як очікувалося? Потім через два тижні він справді працював дуже добре?

Я думаю, ми можемо бачити щось подібне з Sonnet 4.5. Моделі може знадобитися час, щоб улягтися, або можливо всім нам потрібен час, щоб навчитися ефективно писати промпти до неї.

Я точно витрачу більше часу з Sonnet 4.5, щоб побачити, чи покращуються мої результати, коли я вивчаю її сильні та слабкі сторони.

Остаточний вердикт

Якщо б ти змусив мене вибрати одну модель для всіх моїх завдань з кодування, я б все одно обрав Opus 4.1. Він найбільш універсальний і добре справляється з найширшим діапазоном завдань.

Але для конкретних випадків використання, таких як дизайн посадкових сторінок, Sonnet 4.5 тепер мій вибір. Послідовність та увага до деталей дизайну роблять його вартим використання для цих конкретних завдань.

Що стосується ChatGPT-5, мені потрібно протестувати його більше в різних сценаріях. Ці конкретні виклики не грали на його сильних сторонах, якими б вони не були.

Який твій досвід?

Мені цікаво почути від інших, хто тестував ці моделі. Ти бачиш подібні результати? Чи знайшов ти випадки використання, де Sonnet 4.5 справді сяє?

Залиш свої думки в коментарях до відео і дай мені знати, що ти хотів би побачити протестованим наступним.

Подивись весь процес тестування тут: https://youtu.be/TAGUl0Xj7xg

Відео показує кожну спробу, кожну невдачу і всі ітерації в реальному часі. Якщо ти приймаєш рішення про те, який AI-асистент для кодування використовувати для своїх проєктів, варто подивитися все.


Готовий підняти свій AI-робочий процес на новий рівень? Підпишись на більше поглиблених порівнянь інструментів AI та реального тестування.