/

أغسطس 11, 2025

بين القواعد والبيانات: ما دور اللغوي اليوم؟

بين القواعد والبيانات: ما دور اللغوي اليوم؟

شهد حقل اللسانيات الحاسوبية تحوّلات جذرية خلال العقود الأخيرة، من اعتمادٍ شبه كلي على منهج القواعد (rule-based) إلى انفجار في استخدام النماذج المعتمدة على البيانات (data-driven models)، وعلى رأسها نماذج التعلم العميق (Deep Learning).
وقد فرض هذا التحوّل تحديات أساسية على دور اللغوي، ليس من حيث الأدوات فقط، بل من حيث طبيعة تدخّله في بناء الأنظمة اللغوية.
في هذه المقالة نحاول إعادة توصيف موقع اللغوي بين منهجين:
(أ) المنهج القاعدي الذي يتعامل مع اللغة بوصفها نظامًا منطقيًّا داخليًّا.
(ب) المنهج المعتمد على البيانات الذي يتعامل مع اللغة بوصفها ظاهرة إحصائية قابلة للتعلُّم من البيانات.
وتجدر الإشارة إلى أن “المنهج المعتمد على البيانات” يشمل طيفًا واسعًا من النماذج، بدءًا من النماذج الإحصائية التقليدية إلى نماذج الشبكات العصبونية. هذه النماذج جميعًا تعتمد على البيانات في التعلُّم، لكنها تختلف في عمق التمثيل، والمنهج الرياضي، ومتطلبات حجم البيانات، مما يُبرز أهمية تدخل اللغوي في كل مرحلة.

أولًا: اللغوي في المنهج القاعدي

في النموذج التقليدي كان اللغوي هو “مُهندس اللغة”. كانت مهمته أن يصوغ القواعد النحوية والصرفية والإملائية بدقة عالية، ثم يبرمجها (أو يصفها ليبرمجها غيره) لتعمل بوصفها نظامًا إنتاجيا أو تحليليا. وقد مثّل هذا المنهج عقلية “الخبير”، حيث تُبنى الأنظمة على الحدس اللغوي البشري المنضبط.

مثال: في مشروع تحليل صرفي للفعل العربي، يُحدّد اللغوي أنه: “إذا كان الفعل ثلاثيًّا أجوف، وأُسند إلى ضمير الرفع المتحرك، فإن حرف العلة يُردّ إلى أصله أو يُحذف وفق قاعدة كذا…”، ثم تُبرمج هذه القاعدة ضمن النظام.

ثانيًا: اللغوي في المنهج المعتمد على البيانات

مع ظهور نماذج مثل LSTM، BERT، وGPT، تغيّر المشهد. لم يعُد اللغوي يكتب القاعدة، بل يُطلب منه تجهيز البيانات، وتصميم المهمات، وتحليل المخرجات. ومن ثم تغيرت مهام اللغوي إلى:

– تصميم الـCorpus/المدونة/الذخيرة بعناية: فلا يكفي أن تكون البيانات كبيرة، بل يجب أن تكون مُمثِّلة للظواهر المستهدفة.

– تصميم نظام التصنيفات (Labeling Schema): فمثلا هل نعلّم النموذج على الشكل الظاهري فقط؟ أم نطلب تفسير الظاهرة الصرفية؟

– توليد بيانات اصطناعية: برمجة قواعد تولّد مدونة اصطناعية تغطي حالات الإسناد أو التغير الصرفي.

– تحليل الخطأ: التمييز بين الأخطاء الناتجة عن الفجوات السياقية أو النمذجة أو الندرة الصرفية.

ثالثًا: تكامل المنهجين

قد يبدو لأول وهلة أن المنهجين متنافران: أحدهما لغوي محكوم بقواعد هندسية صارمة، والآخر إحصائي مرن. لكن الواقع يشير إلى إمكانية الدمج بينهما في أفق جديد. إذ يمكن للغوي أن يستفيد من قواعد اللغة لبناء بيانات صناعية تغذي النماذج، كما يمكن له أن يستخدم مخرجات النماذج لتعديل فرضياته اللسانية نفسها، فضلًا عن إمكانية تحوّل اللغوي إلى مهندس معرفي لغوي في فرق تطوير الذكاء اللغوي.

إن الباحث اللغوي اليوم ليس مجرد ناقل للتراث القاعدي إلى الآلة، ولا هو فحسب مستخدم لنماذج جاهزة. بل هو في مركز التفاعل بين اللغة باعتبارها نظامًا قائمًا على القواعد، واللغة باعتبارها بيانات تُغذي النماذج. وإذا أُحسن تحديد دوره، وتمكن من أدوات التحليل والبرمجة، صار مشاركًا في تشكيل “الحدس الآلي” الذي نطمح أن يقترب يومًا من “الحدس البشري”.

المصادر
Google: Rule Based Approach in NLP
Google: Chapter 4 – Data privacy for machine learning and statistics