عنوان فرعي:
مقياس بحثي جديد يضم أكثر من 10 آلاف سؤال في القرآن والحديث والفقه، ويكشف تفاوتًا لافتًا بين النماذج العالمية والعربية المتخصصة.
ملخص افتتاحي:
دخل تقييم النماذج اللغوية في المجال الإسلامي مرحلة أكثر تخصّصًا مع الإعلان عن IslamicMMLU Leaderboard، وهي لوحة ترتيب عامة تستند إلى معيار بحثي صُمّم لقياس أداء النماذج في ثلاثة من أكثر الحقول حساسية وتعقيدًا: القرآن الكريم، والحديث النبوي، والفقه الإسلامي. وتأتي هذه الخطوة في وقت يتزايد فيه الاعتماد على النماذج اللغوية في الإجابة عن الأسئلة الدينية، بما يفرض الحاجة إلى معايير أدقّ من الاختبارات العامة الشائعة. (Google Groups)
في تطور لافت داخل مجتمع المعالجة الآلية للغة العربية، أعلن البروفيسور وليد مجدي، من جامعة إدنبرة، إطلاق لوحة IslamicMMLU على منصة Hugging Face، بوصفها مبادرة تهدف إلى قياس قدرة النماذج اللغوية الكبيرة على التعامل مع المعرفة الإسلامية على نحو منهجي ومفتوح للمراجعة والتوسّع. وقد جاء الإعلان عبر مجموعة SIGARAB المتخصصة في العربية وتقنياتها اللغوية، حيث قُدّمت اللوحة باعتبارها نقطة انطلاق لمجتمع بحثي أوسع، لا مشروعًا مغلقًا أو نسخة نهائية مكتملة. (Google Groups)
ويستند هذا المعيار إلى 10,013 سؤالًا متعدد الاختيارات، موزعة على ثلاثة مسارات رئيسة: 2,013 سؤالًا في القرآن الكريم، و4,000 في الحديث، و4,000 في الفقه. وتوضح الورقة العلمية المصاحبة أن تصميم الأسئلة لا يقتصر على استدعاء المعلومات المباشرة، بل يختبر كذلك أنماطًا متعددة من الفهم والتعامل مع المادة الإسلامية، بما يجعل المعيار أقرب إلى أداة فحص معرفي متخصصة منه إلى اختبار عام للثقافة أو اللغة. (arXiv)
أهمية المشروع لا تكمن في حجم البيانات فحسب، بل في طبيعته النوعية أيضًا. فإلى جانب قياس الدقة في الإجابات، يتضمن مسار الفقه مهمة إضافية لرصد الميول المذهبية في مخرجات النماذج، عبر تتبع انحياز الإجابة أو قربها من أحد المذاهب السنية الأربعة: الشافعي والحنفي والحنبلي والمالكي. وهذا البعد يمنح اللوحة قيمة خاصة، لأن تقييم النماذج في المجال الديني لا يتوقف عند نسبة الإجابات الصحيحة، بل يمتد إلى فحص الخلفية المنهجية التي قد تنعكس في اختيار الجواب وتوجيهه. (Google Groups)
النتائج الأولية التي عرضتها الورقة تكشف فجوة واضحة بين النماذج الرائدة عالميًا والنماذج العربية المتخصصة؛ إذ اختبر المشروع 26 نموذجًا، وتراوحت متوسطات الدقة بين 39.8% و93.8%، مع تصدّر Gemini 3 Flash النتائج المعلنة في النسخة البحثية الحالية. كما تشير الورقة إلى أن مسار القرآن أظهر أوسع نطاق تفاوت في الأداء بين النماذج، وهو ما يعكس تفاوتًا كبيرًا في القدرة على التعامل مع هذا النوع من المعرفة الدقيقة. (arXiv)
وفي عرض مختصر لملامح الترتيب، أوضح الإعلان أن أفضل عشرة نماذج في اللوحة تنتمي جميعها إلى النماذج العالمية المتقدمة، وأن عائلة Gemini جاءت في الصدارة، تلتها نماذج من GPT ثم Claude. أما في فئة النماذج العربية، فقد جاء Fanar-Sadiq بوصفه أفضل نموذج عربي في الترتيب، يليه Fanar ثم Jais ثم Allam ثم Fanar C-2، وهو ما يمنح النماذج العربية حضورًا معتبرًا، لكنه يبرز في الوقت نفسه استمرار الفجوة أمام النماذج العالمية الأوسع موارد وتدريبًا. (Google Groups)
ويحمل حضور Fanar-Sadiq دلالة إضافية بعد أن أشار الباحث فيروج عالم، في متابعة لاحقة داخل نقاش SIGARAB نفسه، إلى أن الورقة التقنية الخاصة بالنظام قد قُبلت في مسار الصناعة في ACL 2026، مع نشرها على arXiv. وتعرض هذه الورقة بنية متعددة الوكلاء لمساعد إسلامي ثنائي اللغة، قائم على التوجيه حسب نوع السؤال والاسترجاع الموثّق والتحقق من الاستشهادات، مع استخدام أدوات حاسمة في مسائل مثل الزكاة والمواريث. (Google Groups)
وعلى مستوى الفريق العلمي، تُظهر الورقة أن المشروع ثمرة تعاون داخل جامعة إدنبرة، بمشاركة علي عبد العال ومحمد نادر الحفار ومحمود فوزي إلى جانب وليد مجدي. كما أشار الإعلان إلى مساهمة من معهد قطر لبحوث الحوسبة QCRI في ربط الفريق بأستاذ في الفقه المقارن بجامعة الأزهر لمراجعة عينات من الأسئلة والتحقق من دقتها، في خطوة توحي بمحاولة الجمع بين البناء التقني والمراجعة العلمية المتخصصة. (Google Groups)
وربما تكمن الرسالة الأهم في أن القائمين على المشروع لا يتعاملون مع IslamicMMLU بوصفه منتجًا نهائيًا، بل بوصفه بداية مفتوحة. فقد دعا الإعلان الباحثين والمهتمين إلى الإسهام بإضافة نماذج جديدة، وصياغة أسئلة في مجالات أخرى مثل السيرة والتاريخ والعقيدة، وتوسيع التغطية لتشمل مدارس فقهية إضافية، بما فيها المذاهب الشيعية. وهذه الدعوة تجعل من اللوحة مشروعًا قابلًا للنمو والتراكم، لا مجرد قائمة ترتيب عابرة. (Google Groups)
ومن زاوية أوسع، يبدو هذا التطور مؤشرًا على انتقال تقييم النماذج اللغوية من منطق الاختبارات العامة إلى منطق المعايير المتخصصة الحساسة للسياق المعرفي والثقافي. وهذا استنتاج تحليلي تدعمه بنية المعيار نفسه وطبيعة الأسئلة والانحيازات التي يسعى إلى رصدها. فحين يتعلق الأمر بالمجال الديني، لا تكفي الطلاقة اللغوية وحدها، ولا حتى ارتفاع الدقة في صورتها المجردة، بل يصبح مطلوبًا أيضًا فهم الخلفيات العلمية والمذهبية وحدود الثقة فيما تنتجه النماذج. (arXiv)
وبهذا المعنى، لا يقدّم IslamicMMLU مجرد لوحة ترتيب جديدة، بل يطرح سؤالًا أكبر على مجتمع تقنيات اللغة: كيف يمكن بناء أدوات تقييم عادلة ودقيقة حين تدخل النماذج إلى مجالات تتطلب مسؤولية معرفية عالية؟ وحتى الآن، يبدو أن هذه المبادرة تمثل واحدة من أكثر المحاولات تنظيمًا للإجابة عن هذا السؤال داخل المجال الإسلامي. (Google Groups)
عنوان SEO مقترح:
IslamicMMLU: معيار جديد لتقييم النماذج اللغوية في القرآن والحديث والفقه
وصف ميتا SEO مقترح:
تعرف على IslamicMMLU، لوحة ترتيب بحثية جديدة لتقييم النماذج اللغوية في المعرفة الإسلامية عبر أكثر من 10 آلاف سؤال تشمل القرآن والحديث والفقه، مع رصد الميول المذهبية في الإجابات. (Google Groups)
وسوم مقترحة:
المعالجة الآلية للغة العربية، IslamicMMLU، النماذج اللغوية الكبيرة، المعرفة الإسلامية، القرآن الكريم، الحديث النبوي، الفقه الإسلامي، SIGARAB، جامعة إدنبرة، Fanar-Sadiq


