/

يونيو 7, 2026

11 دراسة حديثة تضع العربية في قلب سباق النماذج متعددة اللغات

من حماية اللهجات إلى تحسين الترجمة والرعاية الصحية.. أبحاث جديدة تكشف فرصًا واعدة وتحديات عميقة أمام معالجة اللغة العربية

تكشف مجموعة من الدراسات الحديثة عن انتقال معالجة اللغة العربية إلى مرحلة جديدة، لم تعد فيها الجهود البحثية مقتصرة على تحسين أداء الأدوات اللغوية التقليدية، بل اتسعت لتشمل حماية التنوع اللهجي، وقياس قدرات النماذج متعددة الوسائط، وتحسين الترجمة الآلية، وتطوير تطبيقات صحية تعتمد على الكلام، وخفض تكاليف تشغيل النماذج العربية. وفي الوقت نفسه، تثير هذه الدراسات أسئلة ملحّة حول العدالة اللغوية، ودقة التوصيات الطبية، وقدرة النماذج على التعامل المتوازن مع اللغات المختلفة.

سلّط موجز بحثي نشره موقع SciPaperMill الضوء على إحدى عشرة ورقة حديثة تتصل بمعالجة اللغة العربية والنماذج متعددة اللغات، كاشفًا عن تنوع لافت في مسارات البحث والتطوير. وبينما تركز بعض الأوراق على بناء موارد لغوية ومعايير تقييم جديدة، تتجه أوراق أخرى إلى معالجة مشكلات تطبيقية تتصل بالصحة الرقمية، والترجمة، والتعرف الآلي على الكلام، وكفاءة النماذج الصغيرة.

وتشير الصورة العامة التي ترسمها هذه الأبحاث إلى أن العربية لم تعد مجرد لغة تضاف إلى اختبارات النماذج العالمية بعد تطويرها، بل أصبحت ميدانًا حقيقيًا لقياس قدرة هذه النماذج على التعميم، والتعامل مع التنوع، وتقديم خدمات متقاربة الجودة لمستخدمي اللغات المختلفة.

مفارقة «التوليد والمحو»: هل تهدد النماذج التنوع اللهجي؟

من أبرز الدراسات التي استعرضها الموجز ورقة للباحث وجدي الزغواني من جامعة نورث وسترن في قطر، تناولت ما سمّاه الباحث «مفارقة التوليد والمحو» في بناء الموارد اللهجية بمساعدة النماذج اللغوية الكبيرة.

وتنطلق الدراسة من ملاحظة أساسية مفادها أن النماذج الحديثة يمكن أن تسرّع بناء المعاجم والمدونات والموارد الخاصة باللهجات، لكنها قد تؤدي في الوقت نفسه إلى طمس السمات المميزة لبعض اللهجات، إذا مالت إلى تفضيل الصيغ الأكثر شيوعًا أو اللهجات الأعلى حضورًا في البيانات الرقمية.

وتزداد أهمية هذه المسألة في الحالة العربية بسبب الازدواجية اللغوية، وتعدد اللهجات، وغياب معايير إملائية موحدة لعدد كبير منها. وتقترح الدراسة اثني عشر توجيهًا لبناء الموارد اللهجية بصورة أكثر مسؤولية، من بينها إشراك المجتمعات اللغوية المعنية، والحفاظ على التنوع الكتابي، وتوثيق مصادر البيانات، وتجنب الاعتماد المفرط على النصوص المصطنعة.

معايير جديدة تكشف الفجوة بين العربية والإنجليزية

وفي مجال تقييم قدرات النماذج، قدم فريق بحثي معيارًا ثنائي اللغة يحمل اسم Almieyar-Oryx-BloomBench، يختبر النماذج التي تتعامل مع الصور والنصوص باللغتين العربية والإنجليزية.

ويعتمد المعيار على تصنيف بلوم للمستويات المعرفية، بدءًا من التذكر والفهم، وصولًا إلى التحليل والتقييم والإبداع. وتكشف النتائج الأولية عن تفاوت واضح بين قدرات النماذج في المهام المختلفة؛ إذ تبدو أكثر نجاحًا في الفهم الدلالي العام، لكنها تواجه صعوبات أكبر في استرجاع المعلومات الدقيقة وتوليد الإجابات التي تحتاج إلى قدرات تركيبية وإبداعية.

كما تشير الدراسة إلى وجود فجوة في الأداء بين العربية والإنجليزية، بما يعكس استمرار التحديات التي تواجه التعميم بين اللغات، حتى لدى النماذج المتقدمة متعددة الوسائط.

الأمثال والتعبيرات الاصطلاحية أمام اختبار جديد

وتتجه دراسة أخرى إلى أحد أكثر جوانب اللغة تعقيدًا، وهو فهم التعبيرات الاصطلاحية التي لا يمكن استنتاج معانيها دائمًا من المعاني المباشرة للكلمات المكونة لها.

وقدّم الباحثان أيمن علي شرارة وهانا أبي عقل موردًا بحثيًا يحمل اسم IdiomX، يضم أكثر من 190 ألف مثال سياقي، تغطي ما يزيد على 12 ألف تعبير اصطلاحي باللغات العربية والإنجليزية والفرنسية.

ولا يقتصر المعيار على اكتشاف التعبير الاصطلاحي داخل النص، بل يشمل استرجاع التعبير المناسب، والربط بين التعبيرات المتقاربة عبر اللغات، وتفسير المعنى المقصود في السياق. وتبرز أهمية هذا المسار في تطوير أدوات الترجمة ومحركات البحث والتطبيقات التعليمية، التي تحتاج إلى تجاوز المعنى الحرفي للنصوص.

الترجمة الآلية لا تنقل مستوى النص دائمًا

وفي سياق متصل، بحثت دراسة ComplexityMT العلاقة بين مستوى تعقيد النص وجودة الترجمة الآلية، من خلال تحليل نصوص بست لغات، من بينها العربية.

وأظهرت النتائج أن ارتفاع مستوى النص يزيد صعوبة الترجمة، وأن بعض أنظمة الترجمة قد تغيّر المستوى اللغوي للنص المترجم مقارنة بالنص الأصلي، فتميل أحيانًا إلى تبسيطه أو إعادة صياغته بدرجة تؤثر في خصائصه التعليمية أو الأسلوبية.

وتكتسب هذه النتيجة أهمية خاصة عند استخدام الترجمة الآلية في إنتاج المحتوى التعليمي، إذ لا يكفي أن تكون الترجمة صحيحة في معناها العام، بل ينبغي أن تحافظ أيضًا على درجة الصعوبة المناسبة للفئة المستهدفة.

تطبيقات صحية واعدة.. وأسئلة صعبة حول العدالة

وتكشف الأبحاث الحديثة عن حضور متزايد للعربية في التطبيقات الصحية القائمة على تحليل الكلام والنصوص.

فقد عرضت إحدى الدراسات نموذجًا للكشف عن مؤشرات مرض ألزهايمر اعتمادًا على الكلام بأربع لغات: العربية، والإنجليزية، والصينية، والهندية. وأفاد الباحثون بتحقيق درجة بلغت 82% وفق مقياس F1، مع زمن استجابة يقارب نصف ثانية، بما يفتح الباب أمام تطوير أدوات مساعدة للفحص الأولي متعدد اللغات.

كما قدم فريق من جامعة كامبريدج موردًا يحمل اسم HEALTHDIAL، يضم ستة آلاف حوار صوتي في مجال طلب المعلومات الصحية، موزعة على العربية والصينية والإنجليزية والإسبانية، بإجمالي 163 ساعة من التسجيلات الصوتية المستندة إلى محتوى صادر عن منظمة الصحة العالمية.

لكن الوجه الآخر لهذه التطبيقات ظهر في دراسة اختبرت توصيات أحد النماذج في حالات الفرز الطبي الأولي. ووجد الباحث أن النموذج قد يقدم توصيات مختلفة لأعراض متطابقة باختلاف لغة السؤال وحدها، رغم تقارب تقييمه لدرجة خطورة الحالة.

وتثير هذه النتيجة الأولية مخاوف بشأن احتمال استخدام اللغة مؤشرًا غير مباشر على الموقع الجغرافي أو السياق الاجتماعي، وهو ما قد يؤدي إلى تفاوت غير مبرر في التوصيات المقدمة للمستخدمين.

نماذج عربية أصغر وأقل تكلفة

وعلى مستوى الكفاءة التشغيلية، قدم الباحثان جابر جابر وأسامة جابر نموذجًا عربيًا مفتوحًا يحمل اسم RightNow-Arabic-0.5B-Turbo، يضم نحو 518 مليون مُعامِل فقط.

واعتمد المشروع على إضافة مفردات عربية جديدة إلى النموذج الأساسي، بما أسهم، وفقًا للورقة، في تقليل عدد الوحدات النصية اللازمة لمعالجة النص العربي بنسبة 17.3%. وتعني هذه النتيجة إمكانية خفض تكلفة التشغيل وزيادة سرعة الاستجابة، خصوصًا في التطبيقات التي تعمل على أجهزة محدودة الموارد أو تحتاج إلى معالجة عدد كبير من الطلبات.

وفي اتجاه قريب، قدمت دراسة أخرى طريقة لإعادة صياغة تعليمات البرمجة المكتوبة بلغات مختلفة قبل إرسالها إلى الأدوات السحابية، بهدف تقليل عدد الوحدات النصية المستهلكة. وأظهرت التجارب خفضًا يتراوح بين 34% و47% في حجم التعليمات، مع الحفاظ على مستوى الأداء أو تحسينه في بعض الحالات.

مشكلة خفية في البحث بين اللغات

كما تناولت إحدى الدراسات مشكلة تقنية تواجه أنظمة البحث الدلالي متعددة اللغات. فعند استخدام تمثيلات رياضية للنصوص، قد تتحول بعض العناصر إلى نقاط جذب تسترجعها الأنظمة مرارًا بوصفها أقرب النتائج، حتى عندما لا تكون الأكثر دقة.

واختبرت الدراسة هذه الظاهرة باستخدام 6518 تعبيرًا اصطلاحيًا ومثلًا باللغات العربية والإنجليزية والبنغالية والهندية. واقترح الباحثون تعديل طريقة حساب التشابه بين النصوص للحد من تأثير هذه المشكلة، بما قد يحسن أداء محركات البحث وأنظمة استرجاع المعلومات والتطبيقات المعتمدة على توليد الإجابات بالاستناد إلى مصادر خارجية.

العربية بوصفها اختبارًا لجودة النماذج العالمية

تكشف هذه الأوراق، على اختلاف مجالاتها، عن تحول مهم في موقع العربية داخل خريطة البحث التقني. فالتحدي لم يعد مقتصرًا على توفير مزيد من البيانات، على أهميته، بل يشمل أيضًا ضمان التنوع، وقياس العدالة بين اللغات، وتطوير معايير تقييم دقيقة، وبناء نماذج أصغر وأكثر كفاءة، وربط التطوير التقني بالاحتياجات الفعلية للمستخدمين.

وتوضح الدراسات كذلك أن تحسين أداء العربية لا ينفصل عن تحسين النماذج متعددة اللغات عمومًا؛ لأن المشكلات التي تظهر بوضوح عند التعامل مع العربية — مثل التنوع اللهجي، وتعقيد البنية اللغوية، وكفاءة التجزئة النصية، والتفاوت بين اللغات — تكشف مواطن ضعف قد لا تظهر عند الاقتصار على الإنجليزية.

وبين الوعود التقنية والأسئلة الأخلاقية، يبدو مستقبل معالجة اللغة العربية مرهونًا بقدرة الباحثين والمؤسسات على بناء موارد موثوقة، وإجراء تقييمات مستقلة، وإشراك الخبراء اللغويين، وتحويل نتائج الأبحاث إلى أدوات عملية تخدم المستخدم العربي دون أن تختزل لغته أو تهمش تنوعها.

المصدر: موقع SciPaperMill، تقرير: Arabic NLP & Multilingual AI: Bridging Gaps and Boosting Performance، منشور بتاريخ 6 يونيو 2026.

الكلمات المفتاحية: معالجة اللغة العربية، النماذج اللغوية العربية، الذكاء الاصطناعي متعدد اللغات، اللهجات العربية، الترجمة الآلية، الموارد اللغوية العربية، معالجة اللغات الطبيعية، النماذج اللغوية الكبيرة.

الوسوم: معالجة اللغة العربية، اللسانيات الحاسوبية، النماذج اللغوية، الموارد اللغوية، الترجمة الآلية، اللهجات العربية، تقنيات اللغة.