skip to content
@CKDML

Testoval jsem Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1: Výsledky vás překvapí

8 min čtení
Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

Obsah

Když Claude (Anthropic) vypustil Sonnet 4.5 s tvrzením, že je to "nejlepší kódovací model na světě", věděl jsem, že to musím otestovat.

ChatGPT-5 přeci právě vyšel a udělal rozruch v AI komunitě. A Opus 4.1 byl měsíce milovaným králem AI pro kódování. Mohl by tento nový model Sonnet opravdu sesadit oba z trůnu?

Rozhodl jsem se všechny tři modely prohnat identickými výzvami v kódování, abych zjistil, který skutečně podává nejlepší výkon v reálných scénářích. To, co jsem objevil, změnilo můj pohled na to, jak bychom měli přemýšlet o "nejlepším" AI asistentovi pro kódování.

Testovací metodika

Aby to bylo fér, dal jsem každému modelu přesně stejné prompty a výzvy. Žádné vedení za ručičku, žádné ladění mezi pokusy (aspoň ne zpočátku). Jen čistý výkon.

Tady je, co jsem testoval:

Výzva 1: Vývoj hry

Požádal jsem každý model, aby vytvořil plně funkční hru Angry Birds, která funguje v prohlížeči. Požadavky byly jednoduché: udělej ji zábavnou, přidej animace, zajisti, že skutečně funguje, a ať vypadá dobře.

Výzva 2: Design landing page

Dal jsem modelům za úkol vytvořit profesionální landing page pro agentury emailového marketingu. Cílem byl design zaměřený na konverze se správným copywritingem, vizuální přitažlivostí a dodržením existujících brand guidelines.

Modely měly přístup k referenčním materiálům a mohly klást doplňující otázky. Chtěl jsem vidět, jak zvládají složité úkoly z reálného světa, se kterými se vývojáři a designéři potýkají denně.

Kolo 1: Výzva Angry Birds

Claude Sonnet 4.5: Démon rychlosti, který spadl

Sonnet 4.5 skončil první. Mluvíme o nějaké minutě oproti 5-10 minutám u ostatních. Působivé, ne?

Ne tak rychle.

Když jsem hru otevřel, vypadala na první pohled vizuálně přitažlivě. Dobrá grafika, pěkné rozložení. Ale jakmile jsem se pokusil hrát, všechno se rozpadlo.

Mechanika praku byla úplně rozbitá. Nemohl jsem správně vytáhnout. Pták sotva letěl. A když jsem nevyhnutelně prohrál, hra úplně spadla. Nebylo možné restartovat bez obnovení celé stránky.

Bylo to v podstatě nehratelné.

Verdikt: Krásné, ale rozbiténé.

Claude Opus 4.1: Nečekaný šampión

Opus 4.1 trval déle na generování kódu, ale rozdíl ve kvalitě výstupu byl jako den a noc.

Nejprve mi dal skutečnou vstupní obrazovku s instrukcemi, jak hrát. Pěkný dotek.

Když jsem kliknul na "Hrát hru", mechaniky fungovaly perfektně. Prak reagoval hladce. Fyzika byla správná. Detekce kolizí byla přesná. A co je nejdůležitější, bylo to opravdu zábavné hrát.

Zjistil jsem, že procházím několika úrovněmi a opravdu si to užívám. Pro první pokus o vytvoření hry z jednoduchého promptu to bylo pozoruhodně dobré.

Verdikt: Opus rozdrtil tuto výzvu.

ChatGPT-5: Matoucí zmatek

ChatGPT-5 trval nejdéle na generování kódu. Když konečně skončil, otevřel jsem to, čemu říkal "Slingbirds".

Upřímně jsem nemohl pochopit, co mám dělat. Rozhraní bylo matoucí. Zdálo se, že tam je nějaká bowling mechanika? Ptáci nebyli ani viditelní. Klikal jsem všude a snažil se tomu porozumět, ale hra byla v podstatě nefunkční.

Verdikt: Ani v závodě.

Kolo 2: Druhé šance

Nejsem člověk, který by soudil na základě jediného pokusu. Možná Sonnet 4.5 jen měl špatný den. Dal jsem všem modelům další šanci s mírně vylepšenými prompty.

Sonnet 4.5: Stále zápasí

Druhý pokus Sonnetu 4.5 byl o něco lepší. Hra se načetla a mohl jsem vidět některá vylepšení v rozhraní. Ale fyzika byla stále zásadně rozbitá. Pohyb ptáka se zdál špatný a herní zážitek byl spíš frustrující než zábavný.

ChatGPT-5: Ještě horší

Nějak byl druhý pokus ChatGPT-5 ještě více matoucí než první. Výstup byl dost špatný, že jsem se rozhodl na to neztrácet víc času.

Opus 4.1: Konzistentní excelence

Ani jsem neobtěžoval testovat Opus 4.1 znovu pro hru. Už fungoval perfektně.

Experiment Ultra Think

Modely Claude mají funkci zvanou "rozšířené myšlení" nebo režim "ultra think". Rozhodl jsem se dát Sonnetu 4.5 poslední šanci s touto funkcí zapnutou, myslel jsem si, že možná jen potřeboval více času na zpracování, aby výzvu opravdu zvládnul.

Výsledek? Téměř stejně špatný jako první pokus.

To mě přimělo k zamyšlení: možná Sonnet 4.5 vyžaduje extrémně specifické, dobře vytvořené prompty, aby fungoval dobře. Mezitím se zdá, že Opus 4.1 zvládá nejasné pokyny a stále poskytuje kvalitní výsledky.

Výzva 2: Design landing page

Tady se to stalo zajímavým.

Požádal jsem všechny tři modely, aby vytvořily landing page zaměřenou na konverze pro agentury emailového marketingu. Měly přístup k existující webové stránce mé společnosti, brand guidelines a dokumentaci. Cílem bylo vytvořit něco, co vypadá profesionálně, odpovídá našemu designovému systému a skutečně konvertuje návštěvníky na leady.

Výsledky byly překvapivé

Aniž bych zpočátku odhalil, který model vytvořil kterou stránku (chtěl jsem je hodnotit naslepo), tady je, co jsem zjistil:

Stránka 1: Čistá, ale obecná
Tato landing page vypadala profesionálně, ale působila trochu šablonově. Text byl slušný, ale nic zvláštního. Dotýkala se všech základních bodů, ale chyběla jí osobnost. Vizuální design byl bezpečný.

Stránka 2: Nekonzistentní, ale ambiciózní
Tato stránka se snažila dělat hodně. Některé sekce byly vynikající, jiné působily mimo brand. Volby barev byly na některých místech sporné, což ztěžovalo čtení některých textů. Potřebovala několik kol iterace k opravě problémů s čitelností.

Stránka 3: Konzistentní a zaměřená na konverzi
Tato stránka okamžitě vynikla svou konzistencí designu. Udržovala naše brand standardy všude, efektivně využívala bílého prostoru a copywriting byl ostrý. Sekce FAQ kladla přesně ty správné otázky, které by potenciální klienti měli. Celková struktura dávala smysl z hlediska konverze.

Velké odhalení

  • Stránka 1 byla ChatGPT-5. Solidní, ale nic spektakulárního.
  • Stránka 2 byl Opus 4.1. Ambiciózní, ale potřeboval práci.
  • Stránka 3 byl Sonnet 4.5. Tuto výzvu absolutně zvládl.

Testovací kolo 2: Čerstvý začátek

Abych se ujistil, že výsledky landing page nebyly ovlivněny tím, že modely viděly navzájem svou práci, začal jsem úplně nový chat a požádal jsem Sonnet 4.5, aby místo toho vytvořil landing page pro agentury Facebook reklam.

Výsledky byly opět působivé. Sonnet 4.5 ukázal silnou konzistenci v designu, udělal celkově méně chyb a dobře pochopil požadavky na optimalizaci konverze.

Ano, zpočátku pokazil některé volby barev, které učinily text nečitelným. A ano, trvalo 3-4 kola zpětné vazby, než se všechno podařilo. Ale finální výstup byl skutečně dobrý.

Struktura, vizuální hierarchie, volba použít méně slov, ale dát každému smysl - všechno fungovalo dohromady soudržně.

Co jsem se naučil: Neexistuje "nejlepší" AI model

Tady je můj upřímný názor po hodinách testování těchto modelů:

Claude Opus 4.1 vyniká v:

  • Kreativním řešení problémů
  • Vývoji her a složité logice
  • Zvládání nejasných nebo nedokonalých promptů
  • Správném provedení na první pokus

Claude Sonnet 4.5 vyniká v:

  • Strukturovaných designových úkolech
  • Konzistenci a pozornosti k detailům
  • Landing pages a webovém designu
  • Dodržování zavedených vzorů

ChatGPT-5 vyniká v:

  • No... to ještě zjišťuji na základě těchto testů

Tvrzení, že Sonnet 4.5 je "nejlepší kódovací model na světě", je současně pravdivé i zavádějící. Záleží úplně na tom, co stavíte.

Pro webový design, landing pages a úkoly vyžadující přísné dodržování designových systémů je Sonnet 4.5 vynikající. Pro kreativní řešení problémů, vývoj her a úkoly potřebující intuici s nedokonalými instrukcemi je Opus 4.1 stále šampiónem.

Faktor kvality promptů

Jeden vzor, který jsem si všiml: Sonnet 4.5 se zdá vyžadovat specifičtější, detailnější prompty pro maximální výkon. Když jsem mu dal přesné instrukce a jasné reference, poskytl vynikající výsledky.

Opus 4.1 na druhé straně fungoval dobře i s mými poněkud nejasycznými počátečními prompty. Inteligentně vyplnil mezery a udělal dobré předpoklady o tom, co jsem chtěl.

To není nutně slabost Sonnetu 4.5. Může to jen znamenat, že je optimalizován jinak. Pokud jste ochotni investovat čas do vytváření detailních promptů, Sonnet 4.5 může poskytovat pozoruhodně konzistentní výstup.

Co ostatní aktualizace?

Claude také vydal několik dalších zajímavých aktualizací vedle Sonnetu 4.5, které jsem podrobně nepokryl:

Claude Agent SDK – To vypadá slibně pro budování autonomních agentních systémů. Zajímá mě, jak se to srovnává s tím, co můžete vybudovat s nástroji jako N8N.

Imagine With Claude – To se zdá být odpovědí Clauda na platformy jako Lovable, Bolt a V0. Je to v podstatě AI-poháněný tvůrce aplikací. Plánuji to otestovat v budoucím srovnání.

Fenomén ChatGPT-5

Pamatujete si, když byl ChatGPT-5 poprvé spuštěn a všichni si stěžovali, že není tak dobrý, jak se očekávalo? Pak o dva týdny později vlastně fungoval opravdu dobře?

Myslím, že u Sonnetu 4.5 můžeme vidět něco podobného. Model možná potřebuje čas na ustálení, nebo možná všichni potřebujeme čas naučit se, jak ho efektivně promptovat.

Určitě strávím s Sonnetem 4.5 více času, abych viděl, jestli se mé výsledky zlepší, jak se učím jeho silné a slabé stránky.

Konečný verdikt

Kdybyste mě přinutili vybrat jeden model pro všechny mé kódovací úkoly, stále bych šel s Opusem 4.1. Je to nejvšestrannější a zvládá dobře nejširší škálu úkolů.

Ale pro specifické případy použití jako design landing page je Sonnet 4.5 teď moje volba. Konzistence a pozornost k designovým detailům za to stojí pro tyto konkrétní úkoly.

Co se týče ChatGPT-5, musím ho otestovat více v různých scénářích. Tyto konkrétní výzvy nehrály na jeho silné stránky, ať už jsou jakékoli.

Jaká je vaše zkušenost?

Jsem zvědavý slyšet od ostatních, kteří testovali tyto modely. Vidíte podobné výsledky? Našli jste případy použití, kde Sonnet 4.5 skutečně vyniká?

Zanechte své myšlenky v komentářích k videu a dejte mi vědět, co byste chtěli vidět testované příště.

Sledujte celý proces testování zde: https://youtu.be/TAGUl0Xj7xg

Video ukazuje každý pokus, každé selhání a všechny iterace v reálném čase. Pokud děláte rozhodnutí o tom, kterého AI kódovacího asistenta použít pro své projekty, stojí za to se na to podívat celé.


Jste připraveni vylepšit svůj AI workflow? Přihlaste se k odběru pro více důkladných srovnání AI nástrojů a testování v reálném světě.