skip to content
@CKDML

اختبرت Claude Sonnet 4.5 مقابل ChatGPT-5 و Opus 4.1: النتائج ستفاجئك

8 دقيقة قراءة
Claude Sonnet 4.5 vs ChatGPT-5 vs Opus 4.1 Comparison

Loading youtube content...

جدول المحتويات

عندما أطلقت Claude (Anthropic) نموذج Sonnet 4.5 مع الادعاء الجريء بأنه "أفضل نموذج للبرمجة في العالم"، كنت أعلم أنني يجب أن أختبر هذا التصريح.

بعد كل شيء، ChatGPT-5 صدر للتو وأحدث ضجة في مجتمع الذكاء الاصطناعي. و Opus 4.1 كان الملك المحبوب للذكاء الاصطناعي البرمجي لأشهر. هل يمكن لنموذج Sonnet الجديد هذا أن يخلع كليهما حقاً؟

قررت إجراء نفس تحديات البرمجة على النماذج الثلاثة لمعرفة أيها يؤدي بشكل أفضل في السيناريوهات الواقعية. ما اكتشفته غير منظوري حول كيفية التفكير في "أفضل" مساعد ذكاء اصطناعي للبرمجة.

منهجية الاختبار

للحفاظ على العدالة، أعطيت كل نموذج نفس المطالبات والتحديات بالضبط. لا مساعدة، ولا تعديلات بين المحاولات (على الأقل في البداية). مجرد أداء خام.

إليك ما اختبرته:

التحدي 1: تطوير الألعاب

طلبت من كل نموذج إنشاء لعبة Angry Birds فعالة بالكامل تعمل في المتصفح. كانت المتطلبات بسيطة: اجعلها ممتعة، أضف رسوماً متحركة، تأكد من أنها تعمل فعلياً، واجعلها جذابة بصرياً.

التحدي 2: تصميم صفحة هبوط

كلفت كل نموذج بإنشاء صفحة هبوط احترافية لوكالات التسويق عبر البريد الإلكتروني. كان الهدف هو تصميم يركز على التحويل مع كتابة نصوص مناسبة، وجاذبية بصرية، والالتزام بإرشادات العلامة التجارية الموجودة.

كانت للنماذج إمكانية الوصول إلى المواد المرجعية ويمكنها طرح أسئلة متابعة. أردت أن أرى كيف تتعامل مع المهام المعقدة في العالم الحقيقي التي يواجهها المطورون والمصممون يومياً.

الجولة 1: تحدي Angry Birds

Claude Sonnet 4.5: شيطان السرعة الذي انهار

أنهى Sonnet 4.5 أولاً. نتحدث عن دقيقة أو نحو ذلك مقارنة بـ 5-10 دقائق للآخرين. مثير للإعجاب، أليس كذلك؟

ليس بهذه السرعة.

عندما فتحت اللعبة، بدت جذابة بصرياً للوهلة الأولى. رسومات جيدة، تخطيط جميل. لكن في اللحظة التي حاولت فيها اللعب، انهار كل شيء.

كانت آليات المقلاع مكسورة تماماً. لم أستطع السحب للخلف بشكل صحيح. بالكاد طار الطائر. وعندما خسرت حتماً، تعطلت اللعبة بالكامل. لم تكن هناك طريقة لإعادة التشغيل دون تحديث الصفحة بأكملها.

كانت غير قابلة للعب أساساً.

الحكم: جميلة لكن مكسورة.

Claude Opus 4.1: البطل غير المتوقع

استغرق Opus 4.1 وقتاً أطول لإنشاء الكود، لكن الفرق في جودة الإخراج كان كالليل والنهار.

أولاً، أعطاني شاشة دخول حقيقية مع تعليمات حول كيفية اللعب. لمسة جميلة.

عندما نقرت على "ابدأ اللعبة"، عملت الآليات بشكل مثالي. استجاب المقلاع بسلاسة. شعرت الفيزياء صحيحة. كان اكتشاف التصادم دقيقاً. والأهم من ذلك، كان اللعب ممتعاً فعلياً.

وجدت نفسي أمر عبر مستويات متعددة، أستمتع بالتجربة حقاً. بالنسبة لمحاولة أولى لإنشاء لعبة من مطالبة بسيطة، كان هذا جيداً بشكل ملحوظ.

الحكم: سحق Opus هذا التحدي.

ChatGPT-5: الفوضى المربكة

استغرق ChatGPT-5 أطول وقت لإنشاء الكود. عندما انتهى أخيراً، فتحت ما أسماه "Slingbirds".

بصراحة لم أستطع معرفة ما كان من المفترض أن أفعله. كانت الواجهة محيرة. بدا أن هناك بعض آليات شبيهة بالبولينغ؟ لم تكن الطيور مرئية حتى. نقرت في كل مكان محاولاً أن أفهم، لكن اللعبة كانت غير وظيفية أساساً.

الحكم: حتى ليست في السباق.

الجولة 2: الفرص الثانية

لست من النوع الذي يحكم بناءً على محاولة واحدة. ربما كان Sonnet 4.5 يمر بيوم سيء فقط. أعطيت جميع النماذج فرصة أخرى مع مطالبات محسنة قليلاً.

Sonnet 4.5: لا يزال يكافح

كانت المحاولة الثانية من Sonnet 4.5 أفضل قليلاً. تم تحميل اللعبة، ويمكنني رؤية بعض التحسينات في الواجهة. لكن الفيزياء كانت لا تزال مكسورة بشكل أساسي. شعرت حركة الطائر خاطئة، وكانت تجربة اللعب محبطة بدلاً من أن تكون ممتعة.

ChatGPT-5: أسوأ من ذلك

بطريقة ما، كانت المحاولة الثانية لـ ChatGPT-5 أكثر إرباكاً من الأولى. كان الإخراج سيئاً بما فيه الكفاية لدرجة أنني قررت عدم إضاعة المزيد من الوقت عليه.

Opus 4.1: التميز المتسق

لم أكلف نفسي عناء اختبار Opus 4.1 مرة أخرى للعبة. كانت تعمل بشكل مثالي بالفعل.

تجربة التفكير الفائق

تحتوي نماذج Claude على ميزة تسمى "التفكير الموسع" أو وضع "ultra think". قررت إعطاء Sonnet 4.5 فرصة أخيرة مع تمكين هذه الميزة، معتقداً أنه ربما يحتاج فقط إلى مزيد من وقت المعالجة ليتقن التحدي حقاً.

النتيجة؟ سيئة تقريباً بنفس القدر كالمحاولة الأولى.

جعلني هذا أفكر: ربما يتطلب Sonnet 4.5 مطالبات محددة للغاية ومصاغة بعناية للأداء الجيد. في هذه الأثناء، يبدو أن Opus 4.1 يتعامل مع التعليمات الأكثر غموضاً ولا يزال يقدم نتائج عالية الجودة.

التحدي 2: تصميم صفحة الهبوط

هنا أصبحت الأمور مثيرة للاهتمام.

طلبت من النماذج الثلاثة إنشاء صفحة هبوط تركز على التحويل لوكالات التسويق عبر البريد الإلكتروني. كان لديهم إمكانية الوصول إلى موقع شركتي الحالي وإرشادات العلامة التجارية والوثائق. كان الهدف هو إنشاء شيء يبدو احترافياً، ويتطابق مع نظام التصميم الخاص بنا، وسيحول الزوار فعلياً إلى عملاء محتملين.

النتائج كانت مفاجئة

دون الكشف عن أي نموذج أنشأ أي صفحة في البداية (أردت تقييمها بشكل أعمى)، إليك ما وجدته:

الصفحة 1: نظيفة لكن عامة
بدت صفحة الهبوط هذه احترافية لكنها شعرت بأنها قالب جاهز قليلاً. كان النص لائقاً، لكن لا شيء مميز. لقد تطرقت إلى جميع النقاط الأساسية لكنها افتقرت إلى الشخصية. كان التصميم المرئي آمناً.

الصفحة 2: غير متسقة لكن طموحة
حاولت هذه الصفحة أن تفعل الكثير. كانت بعض الأقسام ممتازة، وشعر البعض الآخر بأنه خارج عن العلامة التجارية. كانت اختيارات الألوان مشكوكاً فيها في أماكن، مما جعل بعض النصوص صعبة القراءة. احتاجت إلى عدة جولات من التكرار لإصلاح مشاكل القراءة.

الصفحة 3: متسقة وتركز على التحويل
تميزت هذه الصفحة على الفور بتناسق تصميمها. حافظت على معايير علامتنا التجارية طوال الوقت، واستخدمت المساحة البيضاء بفعالية، وكانت كتابة النصوص حادة. طرح قسم الأسئلة الشائعة الأسئلة الصحيحة بالضبط التي سيطرحها العملاء المحتملون. كان الهيكل العام منطقياً من منظور التحويل.

الكشف الكبير

  • الصفحة 1 كانت ChatGPT-5. قوية، لكن لا شيء مذهل.
  • الصفحة 2 كانت Opus 4.1. طموحة لكن تحتاج إلى عمل.
  • الصفحة 3 كانت Sonnet 4.5. نجحت في هذا التحدي تماماً.

جولة الاختبار 2: بداية جديدة

للتأكد من أن نتائج صفحة الهبوط لم تتأثر بالنماذج التي تنظر إلى عمل بعضها البعض، بدأت محادثة جديدة تماماً وطلبت من Sonnet 4.5 إنشاء صفحة هبوط لوكالات إعلانات Facebook بدلاً من ذلك.

كانت النتائج مثيرة للإعجاب مرة أخرى. أظهر Sonnet 4.5 تناسقاً قوياً في التصميم، وارتكب أخطاء أقل بشكل عام، وفهم متطلبات تحسين التحويل جيداً.

نعم، أفسد بعض اختيارات الألوان في البداية التي جعلت النص غير قابل للقراءة. ونعم، استغرق الأمر 3-4 جولات من التعليقات لإنجاز كل شيء بشكل صحيح. لكن المخرج النهائي كان جيداً حقاً.

الهيكل، التسلسل الهرمي المرئي، اختيار استخدام كلمات أقل لكن جعل كل واحدة ذات أهمية - كل شيء عمل معاً بشكل متماسك.

ما تعلمته: لا يوجد نموذج ذكاء اصطناعي "أفضل"

إليك رأيي الصادق بعد قضاء ساعات في اختبار هذه النماذج:

Claude Opus 4.1 يتفوق في:

  • حل المشاكل بشكل إبداعي
  • تطوير الألعاب والمنطق المعقد
  • التعامل مع المطالبات الغامضة أو غير الكاملة
  • إنجاز الأمور بشكل صحيح من المحاولة الأولى

Claude Sonnet 4.5 يتفوق في:

  • مهام التصميم المنظمة
  • الاتساق والاهتمام بالتفاصيل
  • صفحات الهبوط وتصميم الويب
  • اتباع الأنماط المعمول بها

ChatGPT-5 يتفوق في:

  • حسناً... لا أزال أحاول معرفة ذلك بناءً على هذه الاختبارات

الادعاء بأن Sonnet 4.5 هو "أفضل نموذج برمجة في العالم" صحيح ومضلل في نفس الوقت. يعتمد الأمر تماماً على ما تبنيه.

لتصميم الويب، وصفحات الهبوط، والمهام التي تتطلب التزاماً صارماً بأنظمة التصميم، Sonnet 4.5 ممتاز. لحل المشاكل الإبداعي، وتطوير الألعاب، والمهام التي تحتاج إلى حدس مع تعليمات غير مثالية، لا يزال Opus 4.1 هو البطل.

عامل جودة المطالبة

نمط واحد لاحظته: يبدو أن Sonnet 4.5 يتطلب مطالبات أكثر تحديداً وتفصيلاً للأداء بأقصى طاقته. عندما أعطيته تعليمات دقيقة ومراجع واضحة، قدم نتائج متميزة.

من ناحية أخرى، أدى Opus 4.1 أداءً جيداً حتى مع مطالباتي الأولية الغامضة إلى حد ما. ملأ الفجوات بذكاء وافترض افتراضات جيدة حول ما أريده.

هذه ليست بالضرورة نقطة ضعف في Sonnet 4.5. قد يعني فقط أنه محسّن بشكل مختلف. إذا كنت على استعداد لاستثمار الوقت في صياغة مطالبات مفصلة، يمكن لـ Sonnet 4.5 تقديم مخرجات متسقة بشكل ملحوظ.

ماذا عن التحديثات الأخرى؟

أطلقت Claude أيضاً بعض التحديثات الأخرى المثيرة للاهتمام إلى جانب Sonnet 4.5 والتي لم أغطيها بالتفصيل:

Claude Agent SDK – يبدو هذا واعداً لبناء أنظمة العوامل المستقلة. أنا فضولي لمعرفة كيف يقارن بما يمكنك بناؤه باستخدام أدوات مثل N8N.

Imagine With Claude – يبدو أن هذا هو إجابة Claude على منصات مثل Lovable و Bolt و V0. إنه في الأساس منشئ تطبيقات مدعوم بالذكاء الاصطناعي. أخطط لاختبار هذا في مقارنة مستقبلية.

ظاهرة ChatGPT-5

تذكر عندما تم إطلاق ChatGPT-5 لأول مرة واشتكى الجميع من أنه ليس جيداً كما كان متوقعاً؟ ثم بعد أسبوعين، كان يؤدي جيداً بالفعل؟

أعتقد أننا قد نشهد شيئاً مشابهاً مع Sonnet 4.5. قد يحتاج النموذج إلى وقت للاستقرار، أو ربما نحتاج جميعاً إلى وقت لتعلم كيفية مطالبته بفعالية.

سأقضي بالتأكيد المزيد من الوقت مع Sonnet 4.5 لمعرفة ما إذا كانت نتائجي تتحسن مع تعلمي لنقاط قوته وضعفه.

الحكم النهائي

إذا أجبرتني على اختيار نموذج واحد لجميع مهام البرمجة الخاصة بي، سأظل أذهب مع Opus 4.1. إنه الأكثر تنوعاً ويتعامل مع أوسع مجموعة من المهام بشكل جيد.

لكن لحالات استخدام محددة مثل تصميم صفحات الهبوط، أصبح Sonnet 4.5 الآن خياري المفضل. الاتساق والاهتمام بتفاصيل التصميم يجعله يستحق الاستخدام لتلك المهام المحددة.

أما بالنسبة لـ ChatGPT-5، أحتاج إلى اختباره أكثر في سيناريوهات مختلفة. لم تلعب هذه التحديات المحددة لنقاط قوته، مهما كانت تلك النقاط.

ما هي تجربتك؟

أنا فضولي لسماع آراء الآخرين الذين اختبروا هذه النماذج. هل ترى نتائج مشابهة؟ هل وجدت حالات استخدام حيث يتألق Sonnet 4.5 حقاً؟

اترك أفكارك في التعليقات على الفيديو، وأخبرني بما تريد رؤيته يُختبر بعد ذلك.

شاهد عملية الاختبار الكاملة هنا: https://youtu.be/TAGUl0Xj7xg

يظهر الفيديو كل محاولة، وكل فشل، وجميع التكرارات في الوقت الفعلي. إذا كنت تتخذ قرارات حول أي مساعد ذكاء اصطناعي للبرمجة تستخدمه لمشاريعك، فإن الأمر يستحق مشاهدة كل شيء.


مستعد لترقية سير عمل الذكاء الاصطناعي الخاص بك؟ اشترك للحصول على المزيد من مقارنات أدوات الذكاء الاصطناعي المتعمقة والاختبارات في العالم الحقيقي.