هل ما زالت المؤشرات المعيارية (Benchmarks) قادرة على مواكبة سرعة تطور النماذج اللغوية الكبرى (LLMs)؟

في السنوات الأخيرة غدت المؤشرات المعيارية أداة أساسية لتقييم النماذج اللغوية الكبرى (LLMs)، من خلال اختبارات منظمة تقيس أداء النموذج في مهام متعددة.لكن مع تسارع وتيرة تطوير النماذج، وتنوع اللغات والسياقات وصياغات الأوامر، ظهرت بشكل واضح محدودية هذه المؤشرات، وبرزت الحاجة إلى مراجعة عميقة وشاملة لها.مكامن القصور في المؤشرات الثابتة: 1) التقادم السريع (Rapid Obsolescence):تُظهر…