skip to content
@CKDML

Saya Menguji Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1: Hasilnya Akan Mengejutkan Anda

8 min bacaan
Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

Kandungan

Apabila Claude (Anthropic) melancarkan Sonnet 4.5 dengan mendakwa ia adalah "model pengekodan terbaik di dunia", saya tahu saya perlu mengujinya.

Lagipun, ChatGPT-5 baru sahaja dilancarkan dan mencipta gelombang dalam komuniti AI. Dan Opus 4.1 telah menjadi raja AI pengekodan yang digemari selama berbulan-bulan. Bolehkah model Sonnet baharu ini benar-benar mengalahkan kedua-duanya?

Saya memutuskan untuk meletakkan ketiga-tiga model melalui cabaran pengekodan yang sama untuk melihat yang mana berfungsi paling baik dalam senario dunia sebenar. Apa yang saya dapati telah mengubah perspektif saya tentang bagaimana kita sepatutnya memikirkan pembantu AI pengekodan "terbaik".

Metodologi ujian

Untuk memastikan perkara adil, saya memberi setiap model arahan dan cabaran yang sama persis. Tiada bantuan, tiada pelarasan antara percubaan (sekurang-kurangnya pada mulanya). Hanya prestasi tulen sahaja.

Inilah yang saya uji:

Cabaran 1: Pembangunan permainan

Saya meminta setiap model mencipta permainan Angry Birds yang berfungsi sepenuhnya dalam penyemak imbas. Keperluan adalah mudah: jadikan ia menyeronokkan, tambah animasi, pastikan ia benar-benar berfungsi, dan jadikannya menarik secara visual.

Cabaran 2: Reka bentuk halaman pendaratan

Saya meminta setiap model mencipta halaman pendaratan profesional untuk agensi pemasaran e-mel. Matlamatnya adalah reka bentuk yang fokus kepada penukaran dengan salinan yang sesuai, daya tarikan visual, dan pematuhan kepada garis panduan jenama sedia ada.

Model-model mempunyai akses kepada bahan rujukan dan boleh mengajukan soalan susulan. Saya mahu melihat bagaimana mereka menangani tugas-tugas kompleks dunia sebenar yang dihadapi oleh pembangun dan pereka setiap hari.

Keputusan: Perjalanan yang mengejutkan

Sebelum menyelami butiran, saya mahu berkongsi sesuatu yang benar-benar mengejutkan saya: Tiada model yang menang dalam semua kategori. Setiap satu cemerlang dalam cara yang berbeza, mendedahkan bahawa "terbaik" sangat bergantung kepada apa yang anda cuba capai.

ChatGPT-5: Raja kreativiti visual

ChatGPT-5 benar-benar cemerlang dalam cabaran permainan Angry Birds. Apabila saya katakan cemerlang, maksud saya ia mencipta sesuatu yang anda benar-benar mahu mainkan. Fizik burung dan blok terasa memuaskan, animasi lancar, dan penampilan keseluruhan mempunyai faktor "satu pusingan lagi" itu.

Apa yang paling mengagumkan saya ialah reka bentuk visual. ChatGPT-5 memahami bahawa permainan perlu lebih daripada berfungsi - ia perlu menarik. Ia menambah kecerunan halus, kesan zarah untuk perlanggaran, dan malah skrin penyiapan tahap yang digilap.

Walau bagaimanapun, apabila tiba masa untuk halaman pendaratan, perkara menjadi kurang mengagumkan. Reka bentuk adalah menyenangkan dari segi estetik tetapi tidak mengikuti taklimat sendiri. Ia mengabaikan garis panduan jenama yang saya berikan, dan salinan terasa generik. Ia adalah jenis halaman yang mungkin memenangi anugerah reka bentuk tetapi tidak semestinya menukar pelawat.

Opus 4.1: Penghibur yang konsisten

Opus 4.1 adalah penghibur yang boleh dipercayai dalam kumpulan. Dalam kedua-dua cabaran, ia menyampaikan tepat apa yang anda jangka daripada pembangun kanan berpengalaman - tidak mencolok tetapi kukuh dalam setiap butiran.

Permainan Angry Birds berfungsi dengan sempurna dari percubaan pertama. Fizik adalah tepat, kawalan responsif, dan kod bersih dan teratur. Jika saya memberikan ini kepada pelanggan, mereka akan berpuas hati. Tetapi jika jujur, ia kekurangan sihir versi ChatGPT-5.

Di mana Opus 4.1 benar-benar bersinar adalah pada halaman pendaratan. Ia membaca garis panduan jenama dengan teliti, menggunakan palet warna yang betul, dan menstruktur kandungan tepat seperti yang saya nyatakan. Salinan terasa disengajakan - setiap bahagian mempunyai tujuan yang jelas dalam perjalanan pengguna.

Jika anda mahukan pembangun yang boleh anda harapkan untuk menyampaikan hasil berkualiti yang boleh diramal, Opus 4.1 adalah pilihan anda. Ia tidak akan mengejutkan anda dengan kreativiti liar, tetapi ia juga tidak akan mengecewakan.

Claude Sonnet 4.5: Kejutan kolaboratif

Sonnet 4.5 mengejutkan saya sepenuhnya, tetapi bukan atas sebab yang saya jangkakan. Daripada cuba menyampaikan penyelesaian sempurna dengan serta-merta, ia mengajukan soalan. Banyak soalan.

Untuk cabaran permainan:

  • "Apakah tahap kesukaran yang anda sasarkan untuk tahap pertama?"
  • "Adakah anda lebih suka fizik arkad atau lebih realistik?"
  • "Adakah terdapat gaya seni tertentu yang anda fikirkan?"
  • "Patutkah ia dioptimumkan untuk desktop, mudah alih, atau kedua-duanya?"

Pada mulanya, saya sedikit kecewa. Model lain hanya mula membina. Tetapi kemudian saya menyedari sesuatu: Sonnet 4.5 melakukan apa yang akan dilakukan oleh pembangun yang benar-benar baik - memastikan ia memahami masalah sebelum mula mengekod.

Selepas saya menjawab soalan-soalan, hasilnya luar biasa. Permainan bukan sahaja berfungsi dan menarik secara visual - ia terasa seolah-olah dibina khusus untuk kes penggunaan saya. Fizik sepadan dengan pilihan saya, antara muka pengguna dioptimumkan untuk platform yang saya sebutkan, dan malah komen kod nampaknya disesuaikan dengan gaya kerja saya.

Halaman pendaratan adalah cerita yang sama. Selepas sesi soal jawab tentang khalayak sasaran dan matlamat penukaran, ia mencipta sesuatu yang terasa direka dengan teliti. Ia bukan hanya halaman pendaratan generik - ia adalah halaman pendaratan yang dibina untuk keperluan perniagaan khusus saya.

Pendedahan sebenar: Penambahbaikan melalui kerjasama

Di sinilah perkara menjadi benar-benar menarik. Selepas pusingan awal, saya cuba bekerja dengan setiap model untuk memperhalusi output mereka. Di sini perbezaan menjadi lebih jelas.

Penambahbaikan dengan ChatGPT-5

ChatGPT-5 hebat dalam lelaran visual. Apabila saya meminta perubahan dalam animasi atau reka bentuk, ia melaksanakannya dengan cepat dan sering menambah penambahbaikan yang tidak saya fikirkan. Tetapi apabila saya cuba membuatnya mengikuti garis panduan jenama dengan lebih rapat, ia bergelut. Ia seperti kreativitinya begitu kuat sehingga sukar untuk dijinakkan.

Penambahbaikan dengan Opus 4.1

Opus 4.1 mengendalikan maklum balas tepat seperti yang anda jangkakan: profesional dan cekap. Ia membuat perubahan yang saya minta tanpa masalah. Tetapi ia jarang mencadangkan penambahbaikan di luar apa yang saya minta secara khusus. Ia adalah pelaksana yang cemerlang tetapi bukan kolaborator proaktif.

Penambahbaikan dengan Sonnet 4.5

Ini adalah pengalaman kolaboratif yang mengubah perspektif saya. Apabila anda meminta perubahan, Sonnet 4.5 sering kembali dengan penjelasan:

"Saya mahu menjadikan bahagian hero ini lebih menarik. Adakah saya cuba menjadikannya lebih menarik secara visual atau lebih jelas dari segi mesej? Atau kedua-duanya?"

Atau:

"Saya perasan anda mahu menukar fizik permainan. Patutkah saya juga menyesuaikan kesukaran untuk mengimbanginya, atau anda mahu ia sengaja lebih mudah/lebih sukar?"

Ia seperti saya bekerja dengan pembangun kanan yang secara aktif memikirkan masalah yang lebih besar, bukan sekadar melaksanakan tugas.

Keputusan: Tiada pemenang universal

Selepas minggu menguji model-model ini, kesimpulan saya adalah berlawanan dengan intuisi: Anda tidak sepatutnya memilih satu "pemenang".

Inilah cara saya memikirkan mereka sekarang:

Gunakan ChatGPT-5 apabila:

  • Anda memerlukan konsep visual kreatif dan penerokaan reka bentuk
  • Anda bekerja pada sesuatu di mana estetika sama pentingnya dengan fungsi
  • Anda mahu melihat kemungkinan kreatif yang tidak anda fikirkan
  • Anda bersedia memberi maklum balas khusus untuk membimbingnya ke arah matlamat anda

Gunakan Opus 4.1 apabila:

  • Anda mempunyai keperluan yang jelas dan ditakrifkan dengan baik
  • Anda memerlukan pelaksanaan yang boleh dipercayai dan boleh diramal
  • Anda bekerja dengan garis panduan jenama yang ketat atau kekangan teknikal
  • Anda mahukan kod yang bersih dan teratur tanpa kejutan

Gunakan Sonnet 4.5 apabila:

  • Masalah anda kompleks dan akan mendapat manfaat daripada perbincangan
  • Anda mahukan kolaborator, bukan hanya pelaksana
  • Anda terbuka untuk memperhalus keperluan anda melalui perbualan
  • Anda menghargai penyelesaian yang dipikirkan dengan baik yang mengambil kira implikasi yang lebih luas

Pengajaran yang lebih besar

Menguji ketiga-tiga model ini mengajar saya sesuatu yang penting tentang AI secara umum: Ia bukan tentang mencari alat "terbaik" - ia tentang memahami kekuatan setiap alat dan bila menggunakannya.

Dalam amalan pembangunan saya, sekarang saya menggunakan ketiga-tiganya, selalunya untuk bahagian berbeza projek yang sama. Mungkin saya mulakan dengan Sonnet 4.5 untuk memperhalus seni bina dan keperluan, gunakan Opus 4.1 untuk pelaksanaan teras, dan panggil ChatGPT-5 apabila saya perlukan percikan kreatif itu untuk antara muka.

Dakwaan Anthropic bahawa Sonnet 4.5 adalah "model pengekodan terbaik di dunia" secara teknikal benar - tetapi bukan dengan cara yang saya jangkakan. Ia bukan yang terbaik kerana ia mengalahkan semua model lain dalam setiap tugas. Ia adalah yang terbaik kerana ia mengubah hubungan yang anda ada dengan AI pengekodan dari "alat" kepada "kolaborator".

Cadangan saya

Jika saya perlu memilih hanya satu untuk seseorang yang bermula dengan AI coding:

Untuk pemula: Mulakan dengan ChatGPT-5. Kreativiti dan fleksibiliti visualnya akan menjadikan pembelajaran lebih menyeronokkan, dan keupayaannya untuk menghasilkan kod yang "hanya berfungsi" adalah hebat ketika anda masih belajar.

Untuk pembangun pertengahan: Opus 4.1 akan menjadi kawan baik anda. Konsistensi dan kebolehpercayaannya akan menjadi sangat berharga ketika anda membina projek yang lebih kompleks.

Untuk pembangun lanjutan: Sonnet 4.5. Jika anda sudah tahu soalan apa yang perlu ditanya dan bagaimana untuk menstruktur masalah, pendekatan kolaboratifnya akan menjadikan anda lebih produktif daripada anda sendirian.

Tetapi jujur? Jika anda boleh, gunakan ketiga-tiganya. Bajet langganan AI bulanan saya telah meningkat, tetapi produktiviti saya juga. Lebih penting lagi, kualiti apa yang saya bina telah bertambah baik kerana saya menggunakan alat yang tepat untuk setiap pekerjaan.

Pemikiran akhir

Perang AI pengekodan bukan tentang siapa yang mengalahkan pesaing mereka - ia tentang seberapa baik alat-alat ini boleh membantu kita membina perkara yang lebih baik dengan lebih pantas. Dalam erti kata itu, ketiga-tiganya adalah pemenang.

Claude Sonnet 4.5 mungkin "terbaik" dalam ujian penanda aras, tetapi dalam dunia sebenar, alat terbaik adalah yang sesuai dengan keperluan anda pada masa itu. Kadang-kadang ia adalah kreativiti ChatGPT-5. Kadang-kadang ia adalah kebolehpercayaan Opus 4.1. Dan kadang-kadang ia adalah pendekatan kolaboratif Sonnet 4.5.

Kuasa sebenar datang dari mengetahui bila menggunakan yang mana dan fleksibiliti untuk beralih antara mereka ketika keperluan anda berkembang.

Watch the full testing process here: https://youtu.be/TAGUl0Xj7xg