من Claude Sonnet 4.5 در مقابل ChatGPT-5 و Opus 4.1 را آزمایش کردم: نتایج شگفتانگیز است
9 دقیقه مطالعه

Loading youtube content...
فهرست مطالب
وقتی Claude (Anthropic) مدل Sonnet 4.5 را با این ادعای جسورانه که "بهترین مدل کدنویسی در جهان" است منتشر کرد، میدانستم که باید این ادعا را آزمایش کنم.
بالاخره، ChatGPT-5 تازه منتشر شده بود و در جامعه هوش مصنوعی موج زده بود. و Opus 4.1 ماهها بود که پادشاه محبوب هوش مصنوعی کدنویسی بود. آیا واقعاً این مدل جدید Sonnet میتواند هر دوی آنها را شکست دهد؟
تصمیم گرفتم هر سه مدل را با چالشهای کدنویسی یکسان امتحان کنم تا ببینم کدام یک در سناریوهای واقعی بهتر عمل میکند. آنچه کشف کردم دیدگاه من را درباره "بهترین" دستیار هوش مصنوعی کدنویسی تغییر داد.
روششناسی آزمایش
برای عادلانه نگه داشتن، به هر مدل دقیقاً همان پرامپتها و چالشها را دادم. بدون کمک، بدون تنظیمات بین تلاشها (حداقل در ابتدا). فقط عملکرد خام.
این چیزی بود که آزمایش کردم:
چالش 1: توسعه بازی
از هر مدل خواستم یک بازی Angry Birds کاملاً کاربردی که در مرورگر کار میکند بسازد. الزامات ساده بود: سرگرمکنندهاش کن، انیمیشن اضافه کن، مطمئن شو که واقعاً کار میکند، و بصری جذاباش کن.
چالش 2: طراحی صفحه فرود
از هر مدل خواستم یک صفحه فرود حرفهای برای آژانسهای ایمیل مارکتینگ بسازد. هدف طراحی متمرکز بر تبدیل با کپیرایتینگ مناسب، جذابیت بصری و رعایت دستورالعملهای برند موجود بود.
مدلها به مطالب مرجع دسترسی داشتند و میتوانستند سؤالات بعدی بپرسند. میخواستم ببینم چگونه با وظایف پیچیده دنیای واقعی که توسعهدهندگان و طراحان روزانه با آن روبرو میشوند، کنار میآیند.
راند 1: چالش Angry Birds
Claude Sonnet 4.5: شیطان سرعت که کرش کرد
Sonnet 4.5 اول تمام شد. ما در مورد یک دقیقه یا بیشتر در مقایسه با 5-10 دقیقه برای بقیه صحبت میکنیم. تأثیرگذار، نه؟
نه اینقدر سریع.
وقتی بازی را باز کردم، در نگاه اول بصری جذاب به نظر میرسید. گرافیک خوب، چیدمان قشنگ. اما لحظهای که سعی کردم بازی کنم، همه چیز از هم پاشید.
مکانیک تیرکمان کاملاً خراب بود. نمیتوانستم درست عقب بکشم. پرنده به سختی پرواز میکرد. و وقتی اجتنابناپذیر باختم، بازی کاملاً کرش کرد. هیچ راهی برای ریستارت بدون رفرش کردن کل صفحه وجود نداشت.
اساساً غیرقابل بازی بود.
حکم: زیبا اما خراب.
Claude Opus 4.1: قهرمان غیرمنتظره
Opus 4.1 زمان بیشتری برای تولید کد گرفت، اما تفاوت در کیفیت خروجی مثل شب و روز بود.
ابتدا، یک صفحه ورود واقعی با دستورالعملهایی درباره نحوه بازی به من داد. لمس خوبی بود.
وقتی روی "بازی کن" کلیک کردم، مکانیکها کاملاً کار کردند. تیرکمان به آرامی پاسخ میداد. فیزیک درست احساس میشد. تشخیص برخورد دقیق بود. مهمتر از همه، واقعاً بازی کردن سرگرمکننده بود.
خودم را یافتم که از چندین مرحله عبور میکنم و واقعاً از تجربه لذت میبرم. برای اولین تلاش در ساخت یک بازی از یک پرامپت ساده، این بسیار خوب بود.
حکم: Opus این چالش را له کرد.
ChatGPT-5: آشفتگی گیجکننده
ChatGPT-5 بیشترین زمان را برای تولید کد گرفت. وقتی بالاخره تمام شد، چیزی که "Slingbirds" نامیده بود را باز کردم.
صادقانه نمیتوانستم بفهمم قرار است چه کار کنم. رابط کاربری گیجکننده بود. به نظر میرسید نوعی مکانیک شبیه بولینگ وجود داشت؟ پرندهها حتی قابل مشاهده نبودند. در اطراف کلیک کردم و سعی کردم معنیاش را بفهمم، اما بازی اساساً غیرکاربردی بود.
حکم: حتی در رقابت هم نبود.
راند 2: شانسهای دوم
من از آن نوع افرادی نیستم که براساس یک تلاش واحد قضاوت کنند. شاید Sonnet 4.5 فقط یک روز بد داشت. با پرامپتهای کمی اصلاحشده به همه مدلها شانس دیگری دادم.
Sonnet 4.5: هنوز در حال تقلا
تلاش دوم Sonnet 4.5 حاشیهای بهتر بود. بازی لود شد و میتوانستم برخی بهبودها در رابط کاربری را ببینم. اما فیزیک هنوز اساساً خراب بود. حرکت پرنده اشتباه احساس میشد و تجربه گیمپلی ناامیدکننده بود به جای سرگرمکننده.
ChatGPT-5: حتی بدتر
به نوعی، تلاش دوم ChatGPT-5 حتی گیجکنندهتر از اولی بود. خروجی به اندازه کافی بد بود که تصمیم گرفتم وقت بیشتری روی آن تلف نکنم.
Opus 4.1: تعالی پایدار
حتی زحمت آزمایش دوباره Opus 4.1 را برای بازی ندادم. قبلاً کاملاً کار میکرد.
آزمایش فکر فوقالعاده
مدلهای Claude یک ویژگی به نام "تفکر گسترده" یا حالت "ultra think" دارند. تصمیم گرفتم با این ویژگی فعال به Sonnet 4.5 یک شانس نهایی بدهم، فکر میکردم شاید فقط نیاز به زمان پردازش بیشتری دارد تا واقعاً چالش را انجام دهد.
نتیجه؟ تقریباً به همان بدی تلاش اول.
این باعث شد فکر کنم: شاید Sonnet 4.5 به پرامپتهای بسیار خاص و خوبساخته نیاز دارد تا خوب عمل کند. در عین حال، به نظر میرسد Opus 4.1 با دستورالعملهای مبهمتر کنار میآید و هنوز نتایج با کیفیت تحویل میدهد.
چالش 2: طراحی صفحه فرود
اینجا بود که چیزها جالب شدند.
از هر سه مدل خواستم یک صفحه فرود متمرکز بر تبدیل برای آژانسهای ایمیل مارکتینگ بسازند. آنها به وبسایت موجود شرکت من، دستورالعملهای برند و مستندات دسترسی داشتند. هدف ساخت چیزی بود که حرفهای به نظر برسد، با سیستم طراحی ما مطابقت داشته باشد و واقعاً بازدیدکنندگان را به لیدها تبدیل کند.
نتایج شگفتانگیز بودند
بدون اینکه ابتدا فاش کنم کدام مدل کدام صفحه را ساخته (میخواستم آنها را کورکورانه ارزیابی کنم)، اینها چیزهایی بودند که یافتم:
صفحه 1: تمیز اما عمومی
این صفحه فرود حرفهای به نظر میرسید اما کمی قالبی احساس میشد. کپی مناسب بود، اما هیچ چیز ویژهای. تمام نکات اساسی را پوشش داد اما فاقد شخصیت بود. طراحی بصری امن بود.
صفحه 2: ناسازگار اما جاهطلبانه
این صفحه سعی کرد کارهای زیادی انجام دهد. برخی بخشها عالی بودند، بقیه خارج از برند احساس میشدند. انتخاب رنگها در برخی جاها مشکوک بود و برخی متنها را سخت خوانا میکرد. نیاز به چندین دور تکرار برای رفع مشکلات خوانایی داشت.
صفحه 3: سازگار و متمرکز بر تبدیل
این صفحه فوراً به خاطر سازگاری طراحیاش برجسته شد. استانداردهای برند ما را در سراسر حفظ کرد، از فضای سفید به طور مؤثر استفاده کرد و کپیرایتینگ تیز بود. بخش FAQ دقیقاً سؤالات درستی را که مشتریان بالقوه میپرسیدند، مطرح میکرد. ساختار کلی از منظر تبدیل منطقی بود.
افشای بزرگ
- صفحه 1، ChatGPT-5 بود. محکم، اما هیچ چیز تماشایی نبود.
- صفحه 2، Opus 4.1 بود. جاهطلبانه اما نیاز به کار داشت.
- صفحه 3، Sonnet 4.5 بود. کاملاً این چالش را زد.
راند آزمایش 2: شروع تازه
برای اطمینان از اینکه نتایج صفحه فرود تحت تأثیر دیدن کار یکدیگر توسط مدلها نیست، یک چت کاملاً تازه شروع کردم و از Sonnet 4.5 خواستم به جای آن صفحه فرودی برای آژانسهای تبلیغات Facebook بسازد.
نتایج دوباره تأثیرگذار بودند. Sonnet 4.5 سازگاری قوی در طراحی نشان داد، به طور کلی اشتباهات کمتری مرتکب شد و الزامات بهینهسازی تبدیل را به خوبی فهمید.
بله، در ابتدا برخی انتخابهای رنگی را خراب کرد که متن را غیرقابل خواندن کرد. و بله، 3-4 دور بازخورد برای درست کردن همه چیز طول کشید. اما خروجی نهایی واقعاً خوب بود.
ساختار، سلسلهمراتب بصری، انتخاب استفاده از کلمات کمتر اما معنادار کردن هر کدام - همه چیز به صورت منسجم با هم کار کرد.
چیزی که یاد گرفتم: هیچ مدل هوش مصنوعی "بهترین" وجود ندارد
این نظر صادقانه من بعد از صرف ساعتها آزمایش این مدلهاست:
Claude Opus 4.1 در اینها برتری دارد:
- حل مسئله خلاقانه
- توسعه بازی و منطق پیچیده
- کنار آمدن با پرامپتهای مبهم یا ناقص
- درست انجام دادن کارها از اولین بار
Claude Sonnet 4.5 در اینها برتری دارد:
- وظایف طراحی ساختارمند
- سازگاری و توجه به جزئیات
- صفحات فرود و طراحی وب
- پیروی از الگوهای تثبیتشده
ChatGPT-5 در اینها برتری دارد:
- خب... هنوز دارم براساس این آزمایشها سعی میکنم بفهمم
ادعای اینکه Sonnet 4.5 "بهترین مدل کدنویسی در جهان" است هم درست و هم گمراهکننده است. کاملاً بستگی به آنچه میسازی دارد.
برای طراحی وب، صفحات فرود و وظایفی که نیاز به پایبندی سختگیرانه به سیستمهای طراحی دارند، Sonnet 4.5 عالی است. برای حل مسئله خلاقانه، توسعه بازی و وظایفی که نیاز به شهود با دستورالعملهای ناقص دارند، Opus 4.1 هنوز قهرمان است.
فاکتور کیفیت پرامپت
یک الگویی که متوجه شدم: به نظر میرسد Sonnet 4.5 برای عملکرد در اوج خود به پرامپتهای خاصتر و دقیقتری نیاز دارد. وقتی دستورالعملهای دقیق و ارجاعات واضحی به آن دادم، نتایج برجستهای ارائه کرد.
از طرف دیگر، Opus 4.1 حتی با پرامپتهای ابتدایی تا حدودی مبهم من خوب عمل کرد. شکافها را هوشمندانه پر کرد و حدسهای خوبی درباره آنچه میخواستم زد.
این لزوماً نقطه ضعف Sonnet 4.5 نیست. ممکن است فقط به معنای بهینهسازی متفاوت آن باشد. اگر حاضری زمان صرف ساخت پرامپتهای دقیق کنی، Sonnet 4.5 میتواند خروجی فوقالعاده سازگار تحویل دهد.
بقیه آپدیتها چطور؟
Claude همچنین برخی آپدیتهای جالب دیگر را در کنار Sonnet 4.5 منتشر کرد که به تفصیل پوشش ندادم:
Claude Agent SDK – این برای ساخت سیستمهای ایجنت خودمختار امیدوارکننده به نظر میرسد. کنجکاوم ببینم چگونه با چیزی که میتوانی با ابزارهایی مثل N8N بسازی مقایسه میشود.
Imagine With Claude – این به نظر پاسخ Claude به پلتفرمهایی مثل Lovable، Bolt و V0 است. اساساً یک سازنده اپلیکیشن مبتنی بر هوش مصنوعی است. قصد دارم این را در یک مقایسه آینده آزمایش کنم.
پدیده ChatGPT-5
یادت هست وقتی ChatGPT-5 اول راهاندازی شد و همه شکایت میکردند که آنطور که انتظار میرفت خوب نیست؟ بعد دو هفته بعد، واقعاً خیلی خوب کار میکرد؟
فکر میکنم ممکن است چیز مشابهی را با Sonnet 4.5 ببینیم. مدل ممکن است نیاز به زمان برای استقرار داشته باشد، یا شاید همه ما نیاز به زمان داریم تا یاد بگیریم چگونه به طور مؤثر پرامپتاش کنیم.
قطعاً زمان بیشتری با Sonnet 4.5 میگذرانم تا ببینم آیا نتایجم با یادگیری نقاط قوت و ضعفش بهبود مییابد.
حکم نهایی
اگر مرا مجبور کنی یک مدل برای تمام وظایف کدنویسیام انتخاب کنم، هنوز Opus 4.1 را انتخاب میکنم. همهکارهترین است و گسترهای وسیع از وظایف را به خوبی انجام میدهد.
اما برای موارد استفاده خاص مثل طراحی صفحه فرود، Sonnet 4.5 اکنون انتخاب من است. سازگاری و توجه به جزئیات طراحی آن را برای آن وظایف خاص ارزشمند میکند.
در مورد ChatGPT-5، نیاز دارم آن را بیشتر در سناریوهای مختلف آزمایش کنم. این چالشهای خاص به نقاط قوتش، هر چه که هستند، بازی نکردند.
تجربه تو چیه؟
کنجکاوم از دیگرانی که این مدلها را آزمایش کردهاند بشنوم. نتایج مشابهی میبینی؟ موارد استفادهای پیدا کردی که Sonnet 4.5 واقعاً در آنها میدرخشد؟
نظراتت را در کامنتهای ویدیو بگذار و به من بگو بعدی دوست داری چه چیزی را آزمایششده ببینی.
کل فرآیند آزمایش را اینجا تماشا کن: https://youtu.be/TAGUl0Xj7xg
ویدیو هر تلاش، هر شکست و تمام تکرارها را به صورت لحظهای نشان میدهد. اگر در حال تصمیمگیری هستی که از کدام دستیار کدنویسی هوش مصنوعی برای پروژههایت استفاده کنی، ارزش دیدن کل آن را دارد.
آمادهای جریان کاری هوش مصنوعیات را ارتقا بدی؟ برای مقایسههای عمیقتر ابزارهای هوش مصنوعی و آزمایشهای دنیای واقعی سابسکرایب کن.