Я протестировал Claude Sonnet 4.5 против ChatGPT-5 и Opus 4.1: Результаты вас удивят
8 мин чтения

Loading youtube content...
Содержание
Когда Claude (Anthropic) выпустил Sonnet 4.5 с громким заявлением, что это "лучшая модель для кодинга в мире", я знал, что должен это проверить.
В конце концов, ChatGPT-5 только что вышел и наделал шуму в AI-сообществе. А Opus 4.1 месяцами был любимым королем AI для кодирования. Может ли эта новая модель Sonnet действительно свергнуть обоих?
Я решил прогнать все три модели через идентичные задачи по кодированию, чтобы выяснить, какая действительно работает лучше всего в реальных сценариях. То, что я обнаружил, изменило мою перспективу на то, что мы должны считать "лучшим" AI-ассистентом для программирования.
Методология тестирования
Чтобы было честно, я дал каждой модели совершенно одинаковые промпты и задачи. Никакой помощи, никаких корректировок между попытками (по крайней мере, не сначала). Только чистая производительность.
Вот что я тестировал:
Задача 1: Разработка игры
Я попросил каждую модель создать полностью функциональную игру Angry Birds, которая работает в браузере. Требования были простыми: сделай её веселой, добавь анимации, убедись, что она действительно работает, и чтобы была визуально привлекательной.
Задача 2: Дизайн лендинга
Я поручил каждой модели создать профессиональный лендинг для агентств email-маркетинга. Цель была в дизайне, ориентированном на конверсию, с подходящим копирайтингом, визуальной привлекательностью и соблюдением существующих брендовых руководств.
Модели имели доступ к справочным материалам и могли задавать дополнительные вопросы. Я хотел посмотреть, как они справляются со сложными задачами реального мира, с которыми разработчики и дизайнеры сталкиваются ежедневно.
Раунд 1: Испытание Angry Birds
Claude Sonnet 4.5: Демон скорости, который крашнулся
Sonnet 4.5 закончил первым. Говорим о минуте или около того по сравнению с 5-10 минутами для остальных. Впечатляет, правда?
Не так быстро.
Когда я открыл игру, она выглядела визуально привлекательно на первый взгляд. Хорошая графика, приятный макет. Но в тот момент, когда я попытался играть, всё развалилось.
Механика рогатки была полностью сломана. Я не мог нормально оттянуть. Птица едва летела. А когда я неизбежно проиграл, игра полностью крашнулась. Не было способа перезапустить без обновления всей страницы.
По сути, в неё было невозможно играть.
Вердикт: Красиво, но сломано.
Claude Opus 4.1: Неожиданный чемпион
Opus 4.1 потратил больше времени на генерацию кода, но разница в качестве была как день и ночь.
Во-первых, он дал мне настоящий экран входа с инструкциями, как играть. Приятный штрих.
Когда я нажал "Играть", механика работала идеально. Рогатка реагировала плавно. Физика была правильной. Определение столкновений было точным. Самое главное, в это было действительно весело играть.
Я обнаружил, что прохожу несколько уровней, искренне наслаждаясь опытом. Для первой попытки создания игры из простого промпта это было удивительно хорошо.
Вердикт: Opus раздавил это испытание.
ChatGPT-5: Запутанный бардак
ChatGPT-5 потратил больше всего времени на генерацию кода. Когда он наконец закончил, я открыл то, что он назвал "Slingbirds".
Честно говоря, я не мог понять, что мне предполагалось делать. Интерфейс был запутанным. Казалось, там была какая-то механика боулинга? Птиц даже не было видно. Я кликал повсюду, пытаясь разобраться, но игра была по сути нефункциональной.
Вердикт: Даже не в гонке.
Раунд 2: Второй шанс
Я не из тех, кто судит на основе одной попытки. Может быть, у Sonnet 4.5 просто был плохой день. Я дал всем моделям еще один шанс с немного уточненными промптами.
Sonnet 4.5: Всё ещё борется
Вторая попытка Sonnet 4.5 была незначительно лучше. Игра загрузилась, и я мог видеть некоторые улучшения в интерфейсе. Но физика все еще была фундаментально сломана. Движение птицы было неправильным, и игровой опыт был скорее раздражающим, чем веселым.
ChatGPT-5: Еще хуже
Каким-то образом вторая попытка ChatGPT-5 была еще более запутанной, чем первая. Результат был настолько плохим, что я решил не тратить на это больше времени.
Opus 4.1: Последовательное превосходство
Я даже не стал снова тестировать Opus 4.1 для игры. Она уже работала идеально.
Эксперимент Ultra Think
У моделей Claude есть функция, называемая режим "расширенного мышления" или "ультра-мышление". Я решил дать Sonnet 4.5 последний шанс с включенной этой функцией, думая, что, может быть, ему просто нужно было больше времени на обработку, чтобы действительно справиться с задачей.
Результат? Почти так же плохо, как и первая попытка.
Это заставило меня задуматься: возможно, Sonnet 4.5 требует чрезвычайно специфичных, хорошо продуманных промптов для хорошей производительности. Тем временем Opus 4.1, кажется, справляется с более расплывчатыми инструкциями и всё равно выдает качественные результаты.
Задача 2: Дизайн лендинга
Вот тут стало интересно.
Я попросил все три модели создать лендинг, ориентированный на конверсию, для агентств email-маркетинга. У них был доступ к существующему сайту моей компании, брендовым руководствам и документации. Цель была создать что-то профессионально выглядящее, соответствующее нашей системе дизайна и действительно конвертирующее посетителей в лиды.
Результаты были удивительными
Не раскрывая, какая модель создала какую страницу изначально (я хотел оценить их вслепую), вот что я обнаружил:
Страница 1: Чистая, но общая
Эта лендинговая страница выглядела профессионально, но ощущалась немного шаблонной. Копирайт был приличным, но ничего особенного. Она касалась всех базовых моментов, но не хватало индивидуальности. Визуальный дизайн был безопасным.
Страница 2: Непоследовательная, но амбициозная
Эта страница пыталась сделать многое. Некоторые разделы были отличными, другие казались не соответствующими бренду. Выбор цветов был сомнительным в некоторых местах, из-за чего некоторый текст было трудно читать. Потребовалось несколько раундов итерации, чтобы исправить проблемы с читабельностью.
Страница 3: Последовательная и ориентированная на конверсию
Эта страница сразу выделилась своей последовательностью дизайна. Она сохраняла наши стандарты бренда повсюду, эффективно использовала пространство, а копирайтинг был острым. Раздел FAQ задавал именно те вопросы, которые были бы у потенциальных клиентов. Общая структура имела смысл с точки зрения конверсии.
Большое раскрытие
- Страница 1 была ChatGPT-5. Солидно, но ничего впечатляющего.
- Страница 2 была Opus 4.1. Амбициозно, но требовала работы.
- Страница 3 была Sonnet 4.5. Абсолютно справился с этой задачей.
Раунд тестирования 2: Свежий старт
Чтобы убедиться, что результаты лендинга не были под влиянием моделей, смотрящих на работу друг друга, я начал полностью новый чат и попросил Sonnet 4.5 вместо этого создать лендинг для агентств рекламы Facebook.
Результаты снова были впечатляющими. Sonnet 4.5 показал сильную последовательность в дизайне, сделал меньше ошибок в целом и хорошо понял требования к оптимизации конверсии.
Да, он испортил некоторые цветовые решения изначально, из-за которых текст было нечитаемым. И да, потребовалось 3-4 раунда обратной связи, чтобы всё исправить. Но финальный результат был действительно хорошим.
Структура, визуальная иерархия, выбор использовать меньше слов, но сделать каждое значимым – всё работало вместе слаженно.
Что я узнал: Нет "лучшей" модели AI
Вот мое честное мнение после часов тестирования этих моделей:
Claude Opus 4.1 превосходит в:
- Творческом решении проблем
- Разработке игр и сложной логике
- Работе с расплывчатыми или несовершенными промптами
- Правильном выполнении с первого раза
Claude Sonnet 4.5 превосходит в:
- Структурированных задачах дизайна
- Последовательности и внимании к деталям
- Лендингах и веб-дизайне
- Следовании установленным паттернам
ChatGPT-5 превосходит в:
- Ну... я всё ещё выясняю это на основе этих тестов
Заявление, что Sonnet 4.5 - это "лучшая модель кодирования в мире", одновременно и правдиво, и вводит в заблуждение. Это полностью зависит от того, что вы строите.
Для веб-дизайна, лендингов и задач, требующих строгого соблюдения систем дизайна, Sonnet 4.5 отличный. Для творческого решения проблем, разработки игр и задач, требующих интуиции с несовершенными инструкциями, Opus 4.1 всё ещё чемпион.
Фактор качества промптов
Один паттерн, который я заметил: Sonnet 4.5, кажется, требует более специфичных, детальных промптов для максимальной производительности. Когда я давал ему точные инструкции и четкие референсы, он выдавал выдающиеся результаты.
Opus 4.1, с другой стороны, хорошо справлялся даже с моими несколько расплывчатыми начальными промптами. Он интеллектуально заполнял пробелы и делал хорошие предположения о том, что я хотел.
Это не обязательно слабость Sonnet 4.5. Это может просто означать, что он оптимизирован по-другому. Если вы готовы инвестировать время в создание детальных промптов, Sonnet 4.5 может выдавать удивительно последовательный результат.
А как насчет других обновлений?
Claude также выпустил несколько других интересных обновлений вместе с Sonnet 4.5, которые я не рассматривал подробно:
Claude Agent SDK – Это выглядит многообещающе для построения автономных агентских систем. Мне любопытно, как это сравнивается с тем, что можно построить с такими инструментами, как N8N.
Imagine With Claude – Это, похоже, ответ Claude на платформы вроде Lovable, Bolt и V0. По сути, это конструктор приложений на основе AI. Я планирую протестировать это в будущем сравнении.
Феномен ChatGPT-5
Помните, когда ChatGPT-5 впервые запустился, и все жаловались, что он не так хорош, как ожидалось? А затем через две недели он на самом деле работал очень хорошо?
Я думаю, мы можем видеть что-то подобное с Sonnet 4.5. Модели может потребоваться время, чтобы устояться, или, возможно, всем нам нужно время, чтобы научиться эффективно его промптить.
Я определенно буду проводить больше времени с Sonnet 4.5, чтобы увидеть, улучшатся ли мои результаты по мере того, как я изучаю его сильные и слабые стороны.
Финальный вердикт
Если бы вы заставили меня выбрать одну модель для всех моих задач по кодированию, я бы всё равно выбрал Opus 4.1. Она самая универсальная и хорошо справляется с самым широким разнообразием задач.
Но для конкретных случаев использования, таких как дизайн лендингов, Sonnet 4.5 теперь мой выбор. Последовательность и внимание к деталям дизайна делают его стоящим использования для этих конкретных задач.
Что касается ChatGPT-5, мне нужно протестировать его больше в разных сценариях. Эти конкретные испытания не играли на его сильных сторонах, какими бы они ни были.
Каков ваш опыт?
Мне любопытно услышать от других, кто тестировал эти модели. Вы видите похожие результаты? Вы нашли случаи использования, где Sonnet 4.5 действительно блестит?
Оставляйте свои мысли в комментариях к видео и дайте мне знать, что вы хотели бы увидеть протестированным дальше.
Смотрите весь процесс тестирования здесь: https://youtu.be/TAGUl0Xj7xg
Видео показывает каждую попытку, каждый сбой и все итерации в реальном времени. Если вы принимаете решения о том, какого AI-ассистента для кодирования использовать для ваших проектов, стоит посмотреть всё целиком.
Готовы улучшить свой рабочий процесс с AI? Подписывайтесь для более глубоких сравнений AI-инструментов и тестирования в реальных условиях.