تفوق شات جي بي تي على جيميني في 3 مجالات رئيسية
في ظل الانتشار الهائل لتطبيقات الذكاء الاصطناعي، باتت المقارنة بين الأنظمة الكبرى مثل شات جي بي تي من OpenAI وجيميني من غوغل أمرًا معقدًا. وأكدت التقارير أن التسارع الكبير في وتيرة التطوير زاد من صعوبة هذه المقارنات.
في ديسمبر 2025، سادت تكهنات حول تراجع OpenAI في سباق الذكاء الاصطناعي، قبل أن تعيد الشركة المعادلة بإطلاق ChatGPT-5.2 الذي أعادها إلى صدارة معظم التصنيفات. ومع تقارب قدرات النماذج اللغوية الضخمة، لم تعد المقارنات السطحية المبنية على إجابة واحدة لسؤال واحد كافية أو دقيقة.
أوضحت التقارير أن الردود بطبيعتها عشوائية جزئيًا، كما أن أسلوب المحادثة يمكن تخصيصه بسهولة. لذلك، يبقى الاحتكام إلى الاختبارات المعيارية (Benchmarks) هو الطريق الأكثر موضوعية لتقييم الأداء الحقيقي، بحسب تقرير نشره موقع slashgear.
معايير تفوق شات جي بي تي
وفيما يلي ثلاثة معايير رئيسية يظهر فيها تفوق شات جي بي تي على جيميني، وفق أحدث النتائج المتاحة. أول هذه المعايير هو اختبار GPQA Diamond، المصمم لقياس قدرات التفكير العلمي على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء.
يشتهر هذا الاختبار بأسئلته المحصنة ضد غوغل، إذ لا يمكن حلها عبر البحث السريع، بل تتطلب ربط مفاهيم متعددة وتجنب الافتراضات الخاطئة. وفي هذا الاختبار، سجل ChatGPT-5.2 نسبة 92.4%، متقدمًا بفارق طفيف على Gemini 3 Pro الذي حقق 91.9%.
للمقارنة، يُتوقع من حملة الدكتوراه تحقيق نحو 65% فقط، بينما لا يتجاوز متوسط غير المتخصصين 34%. ما يبرز المستوى العالي لكلا النموذجين، مع أفضلية بسيطة لشات جي بي تي.
القدرة على حل المشكلات البرمجية
المعيار الثاني هو SWE-Bench Pro الذي يقيس قدرة الذكاء الاصطناعي على حل مشكلات برمجية حقيقية مأخوذة من بلاغات فعلية على منصة GitHub. ويتطلب هذا الاختبار فهم قاعدة كود غير مألوفة وتحليل وصف المشكلة، ثم تقديم حل عملي قابل للتنفيذ.
وفق النتائج، نجح ChatGPT-5.2 في حل نحو 24% من المشكلات، بينما حقق جيميني 18% فقط. ورغم أن هذه النسب تبدو متواضعة، فإن هذا الاختبار يُعد من الأصعب في مجاله، بينما ما زال البشر يتفوقون بحل 100% من هذه التحديات.
يشير ذلك إلى أن الذكاء الاصطناعي لا يزال بعيدًا عن مستوى مهندسي البرمجيات المحترفين.
تفوق شات جي بي تي في التفكير التجريدي
أما المعيار الثالث فهو ARC-AGI-2، المخصص لقياس التفكير التجريدي والقدرة على استنتاج الأنماط من أمثلة محدودة، وهو مجال يتفوق فيه البشر تقليديًا على الآلات. في هذا الاختبار، حقق ChatGPT-5.2 Pro نسبة 54.2%، متقدمًا على معظم إصدارات جيميني.
سجل Gemini 3 Pro 31.1% فقط، بينما وصلت نسخة Gemini 3 Deep Think الأعلى تكلفة إلى 45.1%. ويُعد هذا المجال أحد أبرز نقاط قوة شات جي بي تي مقارنةً ليس فقط بجيميني، بل بمعظم منافسيه الآخرين.
تعتمد نتائج اختبارات الذكاء الاصطناعي على إصدارات سريعة التغير، لذا جرى التركيز على أحدث النماذج المدفوعة: ChatGPT-5.2 وGemini 3.







