Saya Menguji Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1: Hasilnya Akan Mengejutkan Anda
9 menit baca

Loading youtube content...
Daftar Isi
Ketika Claude (Anthropic) merilis Sonnet 4.5 dengan klaim berani bahwa itu adalah "model coding terbaik di dunia," saya tahu saya harus menguji pernyataan itu.
Lagipula, ChatGPT-5 baru saja dirilis dan membuat geger di komunitas AI. Dan Opus 4.1 telah menjadi raja coding AI yang dicintai selama berbulan-bulan. Bisakah model Sonnet baru ini benar-benar menggulingkan keduanya?
Saya memutuskan untuk menjalankan ketiga model melalui tantangan coding yang identik untuk mengetahui mana yang sebenarnya berkinerja terbaik dalam skenario dunia nyata. Apa yang saya temukan mengubah perspektif saya tentang bagaimana kita harus berpikir tentang asisten coding AI "terbaik".
Metodologi Pengujian
Untuk menjaga keadilan, saya memberikan setiap model prompt dan tantangan yang persis sama. Tanpa bantuan, tanpa penyesuaian di antara percobaan (setidaknya tidak di awal). Hanya performa murni.
Inilah yang saya uji:
Tantangan 1: Pengembangan Game
Saya meminta setiap model membuat game Angry Birds yang berfungsi penuh yang bekerja di browser. Persyaratannya sederhana: buat itu menyenangkan, tambahkan animasi, pastikan itu benar-benar berfungsi, dan buat itu menarik secara visual.
Tantangan 2: Desain Halaman Landing
Saya menugaskan setiap model untuk membuat halaman landing profesional untuk agensi pemasaran email. Tujuannya adalah desain yang berfokus pada konversi dengan copywriting yang tepat, daya tarik visual, dan kepatuhan terhadap pedoman merek yang ada.
Model-model memiliki akses ke materi referensi dan dapat mengajukan pertanyaan lanjutan. Saya ingin melihat bagaimana mereka menangani tugas-tugas kompleks dunia nyata yang dihadapi developer dan desainer setiap hari.
Putaran 1: Tantangan Angry Birds
Claude Sonnet 4.5: Iblis Kecepatan yang Crash
Sonnet 4.5 selesai terlebih dahulu. Kita bicara sekitar satu menit dibandingkan dengan 5-10 menit untuk yang lain. Mengesankan, bukan?
Tunggu dulu.
Ketika saya membuka game, itu terlihat menarik secara visual pada pandangan pertama. Grafis bagus, tata letak yang bagus. Tapi begitu saya mencoba bermain, semuanya runtuh.
Mekanik ketapel benar-benar rusak. Saya tidak bisa menarik ke belakang dengan benar. Burung hampir tidak terbang. Dan ketika saya pasti kalah, game crash sepenuhnya. Tidak ada cara untuk restart tanpa me-refresh seluruh halaman.
Pada dasarnya tidak bisa dimainkan.
Vonis: Cantik tapi rusak.
Claude Opus 4.1: Juara yang Tak Terduga
Opus 4.1 membutuhkan waktu lebih lama untuk menghasilkan kode, tetapi perbedaan dalam kualitas output adalah seperti siang dan malam.
Pertama, itu memberi saya layar masuk yang sebenarnya dengan instruksi tentang cara bermain. Sentuhan yang bagus.
Ketika saya mengklik "Mainkan Game," mekaniknya bekerja dengan sempurna. Ketapel merespons dengan mulus. Fisikanya terasa tepat. Deteksi tabrakannya akurat. Yang paling penting, itu benar-benar menyenangkan untuk dimainkan.
Saya menemukan diri saya melewati beberapa level, benar-benar menikmati pengalamannya. Untuk percobaan pertama membuat game dari prompt sederhana, ini luar biasa bagus.
Vonis: Opus menghancurkan tantangan ini.
ChatGPT-5: Kekacauan yang Membingungkan
ChatGPT-5 membutuhkan waktu paling lama untuk menghasilkan kode. Ketika akhirnya selesai, saya membuka apa yang disebutnya "Slingbirds."
Sejujurnya saya tidak bisa memahami apa yang seharusnya saya lakukan. Antarmukanya membingungkan. Sepertinya ada mekanik seperti bowling? Burung-burungnya bahkan tidak terlihat. Saya mengklik-klik mencoba memahami, tapi game ini pada dasarnya tidak berfungsi.
Vonis: Bahkan tidak masuk dalam pertandingan.
Putaran 2: Kesempatan Kedua
Saya bukan tipe orang yang menilai berdasarkan satu percobaan. Mungkin Sonnet 4.5 hanya mengalami hari yang buruk. Saya memberi semua model kesempatan lain dengan prompt yang sedikit diperbaiki.
Sonnet 4.5: Masih Berjuang
Percobaan kedua dari Sonnet 4.5 sedikit lebih baik. Game dimuat, dan saya bisa melihat beberapa perbaikan di antarmuka. Tapi fisikanya masih rusak secara fundamental. Gerakan burung terasa salah, dan pengalaman gameplay membuat frustasi daripada menyenangkan.
ChatGPT-5: Bahkan Lebih Buruk
Entah bagaimana, percobaan kedua ChatGPT-5 bahkan lebih membingungkan dari yang pertama. Outputnya cukup buruk sehingga saya memutuskan untuk tidak membuang lebih banyak waktu untuk itu.
Opus 4.1: Keunggulan Konsisten
Saya bahkan tidak repot-repot menguji Opus 4.1 lagi untuk game. Itu sudah bekerja dengan sempurna.
Eksperimen Ultra Think
Model Claude memiliki fitur yang disebut "pemikiran diperluas" atau mode "ultra think". Saya memutuskan untuk memberi Sonnet 4.5 satu kesempatan terakhir dengan fitur ini diaktifkan, berpikir mungkin itu hanya membutuhkan lebih banyak waktu pemrosesan untuk benar-benar menyelesaikan tantangan.
Hasilnya? Hampir sama buruknya dengan percobaan pertama.
Ini membuat saya berpikir: mungkin Sonnet 4.5 memerlukan prompt yang sangat spesifik dan dibuat dengan baik untuk berkinerja dengan baik. Sementara itu, Opus 4.1 tampaknya menangani instruksi yang lebih samar dan masih memberikan hasil berkualitas.
Tantangan 2: Desain Halaman Landing
Di sinilah hal-hal menjadi menarik.
Saya meminta ketiga model untuk membuat halaman landing yang berfokus pada konversi untuk agensi pemasaran email. Mereka memiliki akses ke situs web perusahaan saya yang ada, pedoman merek, dan dokumentasi. Tujuannya adalah membuat sesuatu yang terlihat profesional, cocok dengan sistem desain kami, dan benar-benar akan mengkonversi pengunjung menjadi prospek.
Hasilnya Mengejutkan
Tanpa mengungkapkan model mana yang membuat halaman mana pada awalnya (saya ingin mengevaluasi mereka secara buta), inilah yang saya temukan:
Halaman 1: Bersih tapi Generik
Halaman landing ini terlihat profesional tapi terasa sedikit standar. Copy-nya lumayan, tapi tidak ada yang istimewa. Ini menyentuh semua poin dasar tapi kurang kepribadian. Desain visualnya aman.
Halaman 2: Tidak Konsisten tapi Ambisius
Halaman ini mencoba melakukan banyak hal. Beberapa bagian sangat bagus, yang lain terasa tidak sesuai merek. Pilihan warnanya dipertanyakan di beberapa tempat, membuat beberapa teks sulit dibaca. Butuh beberapa putaran iterasi untuk memperbaiki masalah keterbacaan.
Halaman 3: Konsisten dan Berfokus pada Konversi
Halaman ini langsung menonjol karena konsistensi desainnya. Ini mempertahankan standar merek kami sepanjang waktu, menggunakan ruang putih secara efektif, dan copywriting-nya tajam. Bagian FAQ mengajukan pertanyaan yang tepat yang akan dimiliki calon klien. Struktur keseluruhan masuk akal dari perspektif konversi.
Pengungkapan Besar
- Halaman 1 adalah ChatGPT-5. Solid, tapi tidak ada yang spektakuler.
- Halaman 2 adalah Opus 4.1. Ambisius tapi perlu dikerjakan.
- Halaman 3 adalah Sonnet 4.5. Itu benar-benar menguasai tantangan ini.
Putaran Pengujian 2: Awal yang Segar
Untuk memastikan hasil halaman landing tidak dipengaruhi oleh model yang melihat pekerjaan satu sama lain, saya memulai obrolan yang benar-benar baru dan meminta Sonnet 4.5 untuk membuat halaman landing untuk agensi iklan Facebook sebagai gantinya.
Hasilnya mengesankan lagi. Sonnet 4.5 menunjukkan konsistensi yang kuat dalam desain, membuat lebih sedikit kesalahan secara keseluruhan, dan memahami persyaratan optimisasi konversi dengan baik.
Ya, itu mengacaukan beberapa pilihan warna pada awalnya yang membuat teks tidak terbaca. Dan ya, butuh 3-4 putaran umpan balik untuk mendapatkan semuanya dengan benar. Tapi output akhirnya benar-benar bagus.
Strukturnya, hierarki visual, pilihan untuk menggunakan lebih sedikit kata tetapi membuat setiap kata berarti - semuanya bekerja bersama secara kohesif.
Yang Saya Pelajari: Tidak Ada Model AI "Terbaik"
Ini adalah pendapat jujur saya setelah menghabiskan berjam-jam menguji model-model ini:
Claude Opus 4.1 unggul dalam:
- Pemecahan masalah kreatif
- Pengembangan game dan logika kompleks
- Menangani prompt yang samar atau tidak sempurna
- Melakukan hal-hal dengan benar pada percobaan pertama
Claude Sonnet 4.5 unggul dalam:
- Tugas desain terstruktur
- Konsistensi dan perhatian terhadap detail
- Halaman landing dan desain web
- Mengikuti pola yang sudah mapan
ChatGPT-5 unggul dalam:
- Yah... saya masih mencoba mencari tahu berdasarkan tes-tes ini
Klaim bahwa Sonnet 4.5 adalah "model coding terbaik di dunia" adalah benar dan menyesatkan. Itu sepenuhnya tergantung pada apa yang kamu bangun.
Untuk desain web, halaman landing, dan tugas yang memerlukan kepatuhan ketat terhadap sistem desain, Sonnet 4.5 sangat baik. Untuk pemecahan masalah kreatif, pengembangan game, dan tugas yang membutuhkan intuisi dengan instruksi yang tidak sempurna, Opus 4.1 masih juaranya.
Faktor Kualitas Prompt
Satu pola yang saya perhatikan: Sonnet 4.5 tampaknya memerlukan prompt yang lebih spesifik dan terperinci untuk berkinerja pada puncaknya. Ketika saya memberinya instruksi yang tepat dan referensi yang jelas, itu memberikan hasil yang luar biasa.
Opus 4.1 di sisi lain, berkinerja baik bahkan dengan prompt awal saya yang agak samar. Itu mengisi celah dengan cerdas dan membuat asumsi yang baik tentang apa yang saya inginkan.
Ini belum tentu kelemahan Sonnet 4.5. Itu mungkin hanya berarti dioptimalkan secara berbeda. Jika kamu bersedia menginvestasikan waktu dalam membuat prompt yang terperinci, Sonnet 4.5 dapat memberikan output yang luar biasa konsisten.
Bagaimana dengan Pembaruan Lainnya?
Claude juga merilis beberapa pembaruan menarik lainnya bersama Sonnet 4.5 yang tidak saya bahas secara detail:
Claude Agent SDK - Ini terlihat menjanjikan untuk membangun sistem agen otonom. Saya penasaran bagaimana itu dibandingkan dengan apa yang bisa kamu bangun dengan alat seperti N8N.
Imagine With Claude - Ini tampaknya adalah jawaban Claude untuk platform seperti Lovable, Bolt, dan V0. Ini pada dasarnya adalah pembuat aplikasi bertenaga AI. Saya berencana untuk menguji ini dalam perbandingan masa depan.
Fenomena ChatGPT-5
Ingat ketika ChatGPT-5 pertama kali diluncurkan dan semua orang mengeluh itu tidak sebaik yang diharapkan? Kemudian dua minggu kemudian, itu sebenarnya berkinerja sangat baik?
Saya pikir kita mungkin melihat sesuatu yang serupa dengan Sonnet 4.5. Model mungkin perlu waktu untuk menetap, atau mungkin kita semua perlu waktu untuk belajar bagaimana prompt-nya secara efektif.
Saya pasti akan menghabiskan lebih banyak waktu dengan Sonnet 4.5 untuk melihat apakah hasil saya membaik saat saya mempelajari kekuatan dan kelemahannya.
Vonis Akhir
Jika kamu memaksa saya untuk memilih satu model untuk semua tugas coding saya, saya masih akan memilih Opus 4.1. Ini yang paling serbaguna dan menangani berbagai tugas terluas dengan baik.
Tapi untuk kasus penggunaan tertentu seperti desain halaman landing, Sonnet 4.5 sekarang menjadi pilihan saya. Konsistensi dan perhatian terhadap detail desain membuatnya layak digunakan untuk tugas-tugas khusus tersebut.
Untuk ChatGPT-5, saya perlu mengujinya lebih banyak dalam berbagai skenario. Tantangan khusus ini tidak sesuai dengan kekuatannya, apa pun itu.
Apa Pengalaman Kamu?
Saya penasaran mendengar dari orang lain yang telah menguji model-model ini. Apakah kamu melihat hasil yang serupa? Apakah kamu menemukan kasus penggunaan di mana Sonnet 4.5 benar-benar bersinar?
Tinggalkan pemikiran kamu di komentar video, dan beri tahu saya apa yang ingin kamu lihat diuji selanjutnya.
Tonton proses pengujian lengkap di sini: https://youtu.be/TAGUl0Xj7xg
Video ini menunjukkan setiap percobaan, setiap kegagalan, dan semua iterasi secara real-time. Jika kamu membuat keputusan tentang asisten coding AI mana yang akan digunakan untuk proyek-proyekmu, layak untuk menonton semuanya.
Siap untuk meningkatkan alur kerja AI kamu? Berlangganan untuk perbandingan alat AI yang lebih mendalam dan pengujian dunia nyata.