من Claude Sonnet 4.5 در مقابل ChatGPT-5 و Opus 4.1 را آزمایش کردم: نتایج شگفت‌انگیز است • ckdml

Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

وقتی Claude (Anthropic) مدل Sonnet 4.5 را با این ادعای جسورانه که "بهترین مدل کدنویسی در جهان" است منتشر کرد، می‌دانستم که باید این ادعا را آزمایش کنم.

بالاخره، ChatGPT-5 تازه منتشر شده بود و در جامعه هوش مصنوعی موج زده بود. و Opus 4.1 ماه‌ها بود که پادشاه محبوب هوش مصنوعی کدنویسی بود. آیا واقعاً این مدل جدید Sonnet می‌تواند هر دوی آن‌ها را شکست دهد؟

تصمیم گرفتم هر سه مدل را با چالش‌های کدنویسی یکسان امتحان کنم تا ببینم کدام یک در سناریوهای واقعی بهتر عمل می‌کند. آنچه کشف کردم دیدگاه من را درباره "بهترین" دستیار هوش مصنوعی کدنویسی تغییر داد.

روش‌شناسی آزمایش

برای عادلانه نگه داشتن، به هر مدل دقیقاً همان پرامپت‌ها و چالش‌ها را دادم. بدون کمک، بدون تنظیمات بین تلاش‌ها (حداقل در ابتدا). فقط عملکرد خام.

این چیزی بود که آزمایش کردم:

چالش 1: توسعه بازی

از هر مدل خواستم یک بازی Angry Birds کاملاً کاربردی که در مرورگر کار می‌کند بسازد. الزامات ساده بود: سرگرم‌کننده‌اش کن، انیمیشن اضافه کن، مطمئن شو که واقعاً کار می‌کند، و بصری جذاب‌اش کن.

چالش 2: طراحی صفحه فرود

از هر مدل خواستم یک صفحه فرود حرفه‌ای برای آژانس‌های ایمیل مارکتینگ بسازد. هدف طراحی متمرکز بر تبدیل با کپی‌رایتینگ مناسب، جذابیت بصری و رعایت دستورالعمل‌های برند موجود بود.

مدل‌ها به مطالب مرجع دسترسی داشتند و می‌توانستند سؤالات بعدی بپرسند. می‌خواستم ببینم چگونه با وظایف پیچیده دنیای واقعی که توسعه‌دهندگان و طراحان روزانه با آن روبرو می‌شوند، کنار می‌آیند.

راند 1: چالش Angry Birds

Claude Sonnet 4.5: شیطان سرعت که کرش کرد

Sonnet 4.5 اول تمام شد. ما در مورد یک دقیقه یا بیشتر در مقایسه با 5-10 دقیقه برای بقیه صحبت می‌کنیم. تأثیرگذار، نه؟

نه اینقدر سریع.

وقتی بازی را باز کردم، در نگاه اول بصری جذاب به نظر می‌رسید. گرافیک خوب، چیدمان قشنگ. اما لحظه‌ای که سعی کردم بازی کنم، همه چیز از هم پاشید.

مکانیک تیرکمان کاملاً خراب بود. نمی‌توانستم درست عقب بکشم. پرنده به سختی پرواز می‌کرد. و وقتی اجتناب‌ناپذیر باختم، بازی کاملاً کرش کرد. هیچ راهی برای ریستارت بدون رفرش کردن کل صفحه وجود نداشت.

اساساً غیرقابل بازی بود.

حکم: زیبا اما خراب.

Claude Opus 4.1: قهرمان غیرمنتظره

Opus 4.1 زمان بیشتری برای تولید کد گرفت، اما تفاوت در کیفیت خروجی مثل شب و روز بود.

ابتدا، یک صفحه ورود واقعی با دستورالعمل‌هایی درباره نحوه بازی به من داد. لمس خوبی بود.

وقتی روی "بازی کن" کلیک کردم، مکانیک‌ها کاملاً کار کردند. تیرکمان به آرامی پاسخ می‌داد. فیزیک درست احساس می‌شد. تشخیص برخورد دقیق بود. مهم‌تر از همه، واقعاً بازی کردن سرگرم‌کننده بود.

خودم را یافتم که از چندین مرحله عبور می‌کنم و واقعاً از تجربه لذت می‌برم. برای اولین تلاش در ساخت یک بازی از یک پرامپت ساده، این بسیار خوب بود.

حکم: Opus این چالش را له کرد.

ChatGPT-5: آشفتگی گیج‌کننده

ChatGPT-5 بیشترین زمان را برای تولید کد گرفت. وقتی بالاخره تمام شد، چیزی که "Slingbirds" نامیده بود را باز کردم.

صادقانه نمی‌توانستم بفهمم قرار است چه کار کنم. رابط کاربری گیج‌کننده بود. به نظر می‌رسید نوعی مکانیک شبیه بولینگ وجود داشت؟ پرنده‌ها حتی قابل مشاهده نبودند. در اطراف کلیک کردم و سعی کردم معنی‌اش را بفهمم، اما بازی اساساً غیرکاربردی بود.

حکم: حتی در رقابت هم نبود.

راند 2: شانس‌های دوم

من از آن نوع افرادی نیستم که براساس یک تلاش واحد قضاوت کنند. شاید Sonnet 4.5 فقط یک روز بد داشت. با پرامپت‌های کمی اصلاح‌شده به همه مدل‌ها شانس دیگری دادم.

Sonnet 4.5: هنوز در حال تقلا

تلاش دوم Sonnet 4.5 حاشیه‌ای بهتر بود. بازی لود شد و می‌توانستم برخی بهبودها در رابط کاربری را ببینم. اما فیزیک هنوز اساساً خراب بود. حرکت پرنده اشتباه احساس می‌شد و تجربه گیم‌پلی ناامیدکننده بود به جای سرگرم‌کننده.

ChatGPT-5: حتی بدتر

به نوعی، تلاش دوم ChatGPT-5 حتی گیج‌کننده‌تر از اولی بود. خروجی به اندازه کافی بد بود که تصمیم گرفتم وقت بیشتری روی آن تلف نکنم.

Opus 4.1: تعالی پایدار

حتی زحمت آزمایش دوباره Opus 4.1 را برای بازی ندادم. قبلاً کاملاً کار می‌کرد.

آزمایش فکر فوق‌العاده

مدل‌های Claude یک ویژگی به نام "تفکر گسترده" یا حالت "ultra think" دارند. تصمیم گرفتم با این ویژگی فعال به Sonnet 4.5 یک شانس نهایی بدهم، فکر می‌کردم شاید فقط نیاز به زمان پردازش بیشتری دارد تا واقعاً چالش را انجام دهد.

نتیجه؟ تقریباً به همان بدی تلاش اول.

این باعث شد فکر کنم: شاید Sonnet 4.5 به پرامپت‌های بسیار خاص و خوب‌ساخته نیاز دارد تا خوب عمل کند. در عین حال، به نظر می‌رسد Opus 4.1 با دستورالعمل‌های مبهم‌تر کنار می‌آید و هنوز نتایج با کیفیت تحویل می‌دهد.

چالش 2: طراحی صفحه فرود

اینجا بود که چیزها جالب شدند.

از هر سه مدل خواستم یک صفحه فرود متمرکز بر تبدیل برای آژانس‌های ایمیل مارکتینگ بسازند. آن‌ها به وب‌سایت موجود شرکت من، دستورالعمل‌های برند و مستندات دسترسی داشتند. هدف ساخت چیزی بود که حرفه‌ای به نظر برسد، با سیستم طراحی ما مطابقت داشته باشد و واقعاً بازدیدکنندگان را به لیدها تبدیل کند.

نتایج شگفت‌انگیز بودند

بدون اینکه ابتدا فاش کنم کدام مدل کدام صفحه را ساخته (می‌خواستم آن‌ها را کورکورانه ارزیابی کنم)، اینها چیزهایی بودند که یافتم:

صفحه 1: تمیز اما عمومی
این صفحه فرود حرفه‌ای به نظر می‌رسید اما کمی قالبی احساس می‌شد. کپی مناسب بود، اما هیچ چیز ویژه‌ای. تمام نکات اساسی را پوشش داد اما فاقد شخصیت بود. طراحی بصری امن بود.

صفحه 2: ناسازگار اما جاه‌طلبانه
این صفحه سعی کرد کارهای زیادی انجام دهد. برخی بخش‌ها عالی بودند، بقیه خارج از برند احساس می‌شدند. انتخاب رنگ‌ها در برخی جاها مشکوک بود و برخی متن‌ها را سخت خوانا می‌کرد. نیاز به چندین دور تکرار برای رفع مشکلات خوانایی داشت.

صفحه 3: سازگار و متمرکز بر تبدیل
این صفحه فوراً به خاطر سازگاری طراحی‌اش برجسته شد. استانداردهای برند ما را در سراسر حفظ کرد، از فضای سفید به طور مؤثر استفاده کرد و کپی‌رایتینگ تیز بود. بخش FAQ دقیقاً سؤالات درستی را که مشتریان بالقوه می‌پرسیدند، مطرح می‌کرد. ساختار کلی از منظر تبدیل منطقی بود.

افشای بزرگ

صفحه 1، ChatGPT-5 بود. محکم، اما هیچ چیز تماشایی نبود.
صفحه 2، Opus 4.1 بود. جاه‌طلبانه اما نیاز به کار داشت.
صفحه 3، Sonnet 4.5 بود. کاملاً این چالش را زد.

راند آزمایش 2: شروع تازه

برای اطمینان از اینکه نتایج صفحه فرود تحت تأثیر دیدن کار یکدیگر توسط مدل‌ها نیست، یک چت کاملاً تازه شروع کردم و از Sonnet 4.5 خواستم به جای آن صفحه فرودی برای آژانس‌های تبلیغات Facebook بسازد.

نتایج دوباره تأثیرگذار بودند. Sonnet 4.5 سازگاری قوی در طراحی نشان داد، به طور کلی اشتباهات کمتری مرتکب شد و الزامات بهینه‌سازی تبدیل را به خوبی فهمید.

بله، در ابتدا برخی انتخاب‌های رنگی را خراب کرد که متن را غیرقابل خواندن کرد. و بله، 3-4 دور بازخورد برای درست کردن همه چیز طول کشید. اما خروجی نهایی واقعاً خوب بود.

ساختار، سلسله‌مراتب بصری، انتخاب استفاده از کلمات کمتر اما معنادار کردن هر کدام - همه چیز به صورت منسجم با هم کار کرد.

چیزی که یاد گرفتم: هیچ مدل هوش مصنوعی "بهترین" وجود ندارد

این نظر صادقانه من بعد از صرف ساعت‌ها آزمایش این مدل‌هاست:

Claude Opus 4.1 در این‌ها برتری دارد:

حل مسئله خلاقانه
توسعه بازی و منطق پیچیده
کنار آمدن با پرامپت‌های مبهم یا ناقص
درست انجام دادن کارها از اولین بار

Claude Sonnet 4.5 در این‌ها برتری دارد:

وظایف طراحی ساختارمند
سازگاری و توجه به جزئیات
صفحات فرود و طراحی وب
پیروی از الگوهای تثبیت‌شده

ChatGPT-5 در این‌ها برتری دارد:

خب... هنوز دارم براساس این آزمایش‌ها سعی می‌کنم بفهمم

ادعای اینکه Sonnet 4.5 "بهترین مدل کدنویسی در جهان" است هم درست و هم گمراه‌کننده است. کاملاً بستگی به آنچه می‌سازی دارد.

برای طراحی وب، صفحات فرود و وظایفی که نیاز به پایبندی سختگیرانه به سیستم‌های طراحی دارند، Sonnet 4.5 عالی است. برای حل مسئله خلاقانه، توسعه بازی و وظایفی که نیاز به شهود با دستورالعمل‌های ناقص دارند، Opus 4.1 هنوز قهرمان است.

فاکتور کیفیت پرامپت

یک الگویی که متوجه شدم: به نظر می‌رسد Sonnet 4.5 برای عملکرد در اوج خود به پرامپت‌های خاص‌تر و دقیق‌تری نیاز دارد. وقتی دستورالعمل‌های دقیق و ارجاعات واضحی به آن دادم، نتایج برجسته‌ای ارائه کرد.

از طرف دیگر، Opus 4.1 حتی با پرامپت‌های ابتدایی تا حدودی مبهم من خوب عمل کرد. شکاف‌ها را هوشمندانه پر کرد و حدس‌های خوبی درباره آنچه می‌خواستم زد.

این لزوماً نقطه ضعف Sonnet 4.5 نیست. ممکن است فقط به معنای بهینه‌سازی متفاوت آن باشد. اگر حاضری زمان صرف ساخت پرامپت‌های دقیق کنی، Sonnet 4.5 می‌تواند خروجی فوق‌العاده سازگار تحویل دهد.

بقیه آپدیت‌ها چطور؟

Claude همچنین برخی آپدیت‌های جالب دیگر را در کنار Sonnet 4.5 منتشر کرد که به تفصیل پوشش ندادم:

Claude Agent SDK – این برای ساخت سیستم‌های ایجنت خودمختار امیدوارکننده به نظر می‌رسد. کنجکاوم ببینم چگونه با چیزی که می‌توانی با ابزارهایی مثل N8N بسازی مقایسه می‌شود.

Imagine With Claude – این به نظر پاسخ Claude به پلتفرم‌هایی مثل Lovable، Bolt و V0 است. اساساً یک سازنده اپلیکیشن مبتنی بر هوش مصنوعی است. قصد دارم این را در یک مقایسه آینده آزمایش کنم.

پدیده ChatGPT-5

یادت هست وقتی ChatGPT-5 اول راه‌اندازی شد و همه شکایت می‌کردند که آنطور که انتظار می‌رفت خوب نیست؟ بعد دو هفته بعد، واقعاً خیلی خوب کار می‌کرد؟

فکر می‌کنم ممکن است چیز مشابهی را با Sonnet 4.5 ببینیم. مدل ممکن است نیاز به زمان برای استقرار داشته باشد، یا شاید همه ما نیاز به زمان داریم تا یاد بگیریم چگونه به طور مؤثر پرامپت‌اش کنیم.

قطعاً زمان بیشتری با Sonnet 4.5 می‌گذرانم تا ببینم آیا نتایجم با یادگیری نقاط قوت و ضعفش بهبود می‌یابد.

حکم نهایی

اگر مرا مجبور کنی یک مدل برای تمام وظایف کدنویسی‌ام انتخاب کنم، هنوز Opus 4.1 را انتخاب می‌کنم. همه‌کاره‌ترین است و گستره‌ای وسیع از وظایف را به خوبی انجام می‌دهد.

اما برای موارد استفاده خاص مثل طراحی صفحه فرود، Sonnet 4.5 اکنون انتخاب من است. سازگاری و توجه به جزئیات طراحی آن را برای آن وظایف خاص ارزشمند می‌کند.

در مورد ChatGPT-5، نیاز دارم آن را بیشتر در سناریوهای مختلف آزمایش کنم. این چالش‌های خاص به نقاط قوتش، هر چه که هستند، بازی نکردند.

تجربه تو چیه؟

کنجکاوم از دیگرانی که این مدل‌ها را آزمایش کرده‌اند بشنوم. نتایج مشابهی می‌بینی؟ موارد استفاده‌ای پیدا کردی که Sonnet 4.5 واقعاً در آن‌ها می‌درخشد؟

نظراتت را در کامنت‌های ویدیو بگذار و به من بگو بعدی دوست داری چه چیزی را آزمایش‌شده ببینی.

کل فرآیند آزمایش را اینجا تماشا کن: https://youtu.be/TAGUl0Xj7xg

ویدیو هر تلاش، هر شکست و تمام تکرارها را به صورت لحظه‌ای نشان می‌دهد. اگر در حال تصمیم‌گیری هستی که از کدام دستیار کدنویسی هوش مصنوعی برای پروژه‌هایت استفاده کنی، ارزش دیدن کل آن را دارد.

آماده‌ای جریان کاری هوش مصنوعی‌ات را ارتقا بدی؟ برای مقایسه‌های عمیق‌تر ابزارهای هوش مصنوعی و آزمایش‌های دنیای واقعی سابسکرایب کن.

به‌روزرسانی شده: October 1, 2025

برچسب‌ها: ai claude chatgpt opus coding programming webdev comparison testing automation