2.1 مرحلة التدريب المسبق على اللغة الأولى
يتم تدريب نموذج لغوي مقنع (مثل النماذج القائمة على معماريات BERT) من الصفر على مدونة نصية أحادية اللغة للغة الأولى المختارة. تؤسس هذه المرحلة الكفاءة اللغوية "الأصلية" الأولية للنموذج.
يتناول هذا العمل اكتساب اللغة الثانية (L2) للنماذج اللغوية العصبية (LMs)، محولاً التركيز من الدراسة النمطية لاكتسابها للغة الأولى (L1). السؤال البحثي الأساسي هو: كيف يؤثر اكتساب النموذج اللغوي العصبي للغة الأولى على كفاءة وطبيعة اكتسابه اللاحق للقواعد النحوية في اللغة الثانية؟ تصمم الدراسة سيناريو تعلم للغة الثانية يشبه تعلم الإنسان للنماذج اللغوية ثنائية اللغة، حيث يتم تدريبها مسبقاً على لغة أولى (الفرنسية، الألمانية، الروسية، اليابانية) قبل تعريضها للغة الإنجليزية كلغة ثانية. الهدف هو تحليل الانتقال عبر اللغات من منظور لغوي، باستخدام اختبارات الحكم النحوي لتقييم التعميم النحوي، متجاوزاً المقاييس الشمولية مثل الحيرة (perplexity).
يمثل خط التجربة محاكاة لمسار تعلم الإنسان للغة الثانية مع تحكم في كمية البيانات المعروضة.
يتم تدريب نموذج لغوي مقنع (مثل النماذج القائمة على معماريات BERT) من الصفر على مدونة نصية أحادية اللغة للغة الأولى المختارة. تؤسس هذه المرحلة الكفاءة اللغوية "الأصلية" الأولية للنموذج.
يتم بعد ذلك تدريب النموذج المُدرَّب مسبقاً على اللغة الأولى (ضبط دقيق) على مدونة إنجليزية (لغة ثانية) محدودة. تستكشف الدراسة ظروف بيانات مختلفة: نصوص أحادية اللغة للغة الثانية فقط، أو مزيج من أزواج الترجمة المتوازية بين اللغة الأولى والثانية، مع تقييد حجم بيانات التدريب لمحاكاة المدخلات الواقعية للإنسان لتعلم اللغة الثانية.
يتم استكشاف المعرفة اللغوية للنموذج في اللغة الثانية باستخدام معيار BLiMP (معيار أزواج الحد الأدنى اللغوية). يختبر BLiMP ظواهر نحوية محددة (مثل مطابقة الفاعل والفعل، تبعيات الفجوة-الحشو) من خلال جعل النموذج يختار بين زوج من الجملة النحوية وغير النحوية، مما يوفر تحليلاً دقيقاً للتعميم النحوي.
قارنت التجارب الأولية كيف تؤثر تكوينات بيانات تدريب اللغة الثانية المختلفة على سرعة وجودة الاكتساب.
أدى التدريب فقط على النصوص أحادية اللغة للغة الثانية كل دورتين تدريبيتين إلى اكتساب أسرع لقواعد اللغة الثانية مقارنة بالإعدادات الأكثر تعقيداً.
ومن المثير للاهتمام، أن تغذية النموذج اللغوي بأزواج الترجمة المتوازية بين اللغة الأولى والثانية أثناء تدريب اللغة الثانية أبطأت اكتساب المعرفة النحوية للغة الثانية. يشير هذا إلى أن المحاذاة المتوازية الصريحة قد تقدم ضوضاء أو إشارة تعلم متضاربة للتعميم النحوي الخالص في المراحل المبكرة من تعلم اللغة الثانية للنماذج اللغوية.
تكشف النتائج الأساسية عن تأثيرات كبيرة للغة الأولى على اكتساب اللغة الثانية في النماذج اللغوية العصبية.
حققت النماذج ذات التدريب المسبق على اللغة الأولى أداءً أفضل في معيار BLiMP الإنجليزي بعد التعرض للغة الثانية مقارنة بالنماذج التي تم تدريبها على الإنجليزية من الصفر ببيانات مكافئة. يشير هذا إلى أن المعرفة اللغوية السابقة، حتى من لغة مختلفة، توفر تحيزاً استقرائياً مفيداً لتعلم هياكل نحوية جديدة.
تفاوتت فعالية الانتقال حسب اللغة الأولى. أظهرت النماذج التي كانت الفرنسية أو الألمانية لغتها الأولى تعميماً أقوى في اللغة الثانية (الإنجليزية) من تلك التي كانت الروسية أو اليابانية لغتها الأولى. يتوافق هذا مع ترتيبات صعوبة تعلم اللغة لدى الإنسان (مثل Chiswick & Miller, 2004)، حيث تسهّل القرابة اللغوية (مثل الجذور الجرمانية المشتركة للإنجليزية/الألمانية) عملية الانتقال.
كانت الدفعة من التدريب المسبق على اللغة الأولى أكثر وضوحاً بالنسبة للعناصر الصرفية (مثل تصريف الأفعال) والنحوية (مثل ترتيب الكلمات). كانت المكاسب أصغر بالنسبة للعناصر الدلالية البحتة أو تلك التي تتطلب تكاملاً بين النحو والدلالة. يشير هذا إلى أن معرفة اللغة الأولى تساعد بشكل أساسي في اكتساب القواعد الهيكلية الرسمية للغة الثانية.
وجد أن اكتساب معرفة اللغة الثانية كان غير كفء في استخدام البيانات. تحسن الأداء بشكل ملحوظ فقط بعد تعرض النموذج لمجموعة بيانات اللغة الثانية المحدودة بأكملها عدة مرات (مثل 50-100 دورة تدريبية)، على عكس الإنسان الذي يمكنه التعميم من أمثلة أقل.
خلال تدريب اللغة الثانية، تدهور أداء النموذج في المهام الأصلية للغة الأولى. تُبرز هذه الظاهرة، المشابهة لـ "النسيان الكارثي" في التعلم المستمر، فرقاً رئيسياً عن ثنائية اللغة المتوازنة لدى الإنسان وتشير إلى الحاجة لتقنيات للحفاظ على توازن المعرفة اللغوية.
جوهر النموذج اللغوي العصبي قائم على معمارية المحول (Transformer) وهدف نمذجة اللغة المقنعة (MLM). أثناء التدريب المسبق على اللغة الأولى، يتعلم النموذج من خلال التنبؤ بالرموز المقنعة عشوائياً $w_t$ في تسلسل $\mathbf{x} = (w_1, ..., w_T)$ بناءً على سياقها. الهدف هو تعظيم الاحتمال اللوغاريتمي:
$$\mathcal{L}_{MLM} = \mathbb{E}_{\mathbf{x} \sim \mathcal{D}} \sum_{t \in M} \log P(w_t | \mathbf{x}_{\backslash t}; \theta)$$
حيث $M$ هي مجموعة المواضع المقنعة، $\mathcal{D}$ هي مدونة اللغة الأولى، و $\theta$ هي معلمات النموذج. أثناء اكتساب اللغة الثانية، يتم تطبيق هذا الهدف على مدونة اللغة الثانية $\mathcal{D}_{L2}$، بدءاً من المعلمات $\theta_{L1}$ المعدلة بدقة إلى $\theta_{L1+L2}$. يستخدم الحكم النحوي على BLiMP درجات الاحتمال النسبية للنموذج لزوج الحد الأدنى $(s_{grammatical}, s_{ungrammatical})$:
$$P(s_{grammatical}) > P(s_{ungrammatical})$$
حيث $P(s) = \prod_{t=1}^{T} P(w_t | w_{
الشكل 1 (مخطط الإجراء التجريبي): يوضح المخطط المرئي خط الأنابيب ذو المراحل الثلاث. من اليسار إلى اليمين: 1) صناديق متعددة تحمل تسمية "LM في الفرنسية"، "LM في الألمانية"، إلخ، تمثل نماذج اللغة الأولى المختلفة بعد التدريب المسبق. 2) سهم يحمل تسمية "التعرض للغة الثانية (الإنجليزية)" يشير من هذه النماذج إلى صندوق مركزي يحتوي على نص "مدونة" وأيقونة معيار BLiMP. 3) سهم آخر يحمل تسمية "اختبار معرفة اللغة الثانية" يشير من الصندوق المركزي إلى صندوق نهائي يظهر نتيجة التقييم "Aa" (على الأرجح تمثل درجات الدقة). ينقل المخطط بشكل فعال الإعداد المقارن حيث تخضع النماذج ذات القواعد المختلفة للغة الأولى لنظام تعلم وتقييم موحد للغة الثانية.
تصور النتيجة الرئيسية (ضمني): على الرغم من عدم رسمها بيانياً بشكل صريح في النص المقدم، عادة ما يتم عرض النتائج في مخططات شريطية أو خطية توضح: 1) درجات دقة BLiMP للغة الإنجليزية (L2) على المحور الصادي، مجمعة حسب اللغة الأولى للنموذج (الفرنسية، الألمانية، الروسية، اليابانية) على المحور السيني، موضحة بوضوح ميزة الفرنسية/الألمانية. 2) مخطط خطي يظهر دقة اللغة الثانية (المحور الصادي) عبر الدورات/التكرارات التدريبية (المحور السيني) للنماذج المختلفة للغة الأولى، موضحاً منحنى التعلم البطيء وغير الكفء في استخدام البيانات. 3) مخطط شريطي مجمع يظهر مكاسب الدقة من التدريب المسبق على اللغة الأولى لفئات فرعية مختلفة من BLiMP (الصرف، النحو، الدلالة، إلخ)، مسلطاً الضوء على المكاسب الأكبر للظواهر النحوية الرسمية.
دراسة حالة: تحليل الانتقال من اللغة الأولى إلى الثانية لمطابقة الفاعل والفعل
1. الظاهرة: تتطلب الإنجليزية تصريف الفعل ليتوافق مع عدد الفاعل (مثال: "The dog runs" مقابل "The dogs run").
2. فرضية تأثير اللغة الأولى: قد يكون للنموذج اللغوي العصبي المُدرَّب مسبقاً على الفرنسية (التي تتمتع بمطابقة غنية بين الفاعل والفعل) تمثيل كامن أقوى لمفهوم "المطابقة" بين عناصر الجملة مقارنة بنموذج مُدرَّب مسبقاً على اليابانية (التي تفتقر إلى تصريف الفعل للعدد). يمكن أن يسهل هذا التحيز الهيكلي المجرد تعلم التحقيق المحدد لهذه القاعدة في الإنجليزية.
3. الاختبار باستخدام BLiMP: يُعرض على النموذج أزواج الحد الأدنى مثل:
نحوي: The key to the cabinets *is* on the table.
غير نحوي: The key to the cabinets *are* on the table.
يجب على النموذج تعيين احتمال أعلى للجملة النحوية.
4. النتيجة المتوقعة: من المتوقع أن يحقق النموذج ذو اللغة الأولى الفرنسية دقة أعلى في هذه المجموعة الفرعية من BLiMP في وقت أبكر من تدريب اللغة الثانية مقارنة بالنموذج ذو اللغة الأولى اليابانية، مما يوضح الانتقال الإيجابي لمفهوم نحوي مجرد.
5. تطبيق الإطار: يمكن صياغة هذه الحالة من خلال استكشاف التمثيلات الداخلية للنموذج (مثل استخدام المصنفات التشخيصية) بعد تدريب اللغة الأولى لمعرفة ما إذا كان يمكن تدريب كاشف "مطابقة العدد" بسهولة أكبر من تضمينات النموذج ذو اللغة الأولى الفرنسية. ثم، تتبع منحنى الأداء على مطابقة الإنجليزية أثناء تدريب اللغة الثانية يقيس فائدة الانتقال.
الرؤية الأساسية
هذه الورقة ليست مجرد دراسة أخرى تدريجية في معالجة اللغات الطبيعية؛ إنها تحول جريء وضروري من التعامل مع النماذج اللغوية العصبية كمعالجات "لغوية" أحادية إلى اعتبارها أنظمة معرفية محاكاة ذات مسار تطوري. الرؤية الأساسية هي أن "اللغة الأم" للنموذج اللغوي العصبي تشكل تحيزات تعلمه بشكل أساسي، مما يجعل الانتقال عبر اللغات ليس مكافأة مجانية بل عملية منظمة، قابلة للتنبؤ، وغير متساوية. إن اكتشاف أن البيانات المتوازية يمكن أن تعيق اكتساب النحو هو صاعقة للعقيدة التدريبية متعددة اللغات القياسية، مما يشير إلى أن تعلم اللغة الثانية في المراحل المبكرة لدى الآلات، كما هو الحال لدى الإنسان، قد يستفيد أكثر من التعرض الأحادي اللغة الغامر بدلاً من تمارين الترجمة الصريحة.
التدفق المنطقي
منطق المؤلفين نظيف بشكل يُحمد عليه: 1) عزل المتغير (هوية اللغة الأولى) مع التحكم في المعمارية وبيانات اللغة الثانية. 2) استخدام تقييم قائم على أسس لغوية (BLiMP) بدلاً من الضبط الدقيق الخاص بالمهمة، الذي غالباً ما يخلط بين المعرفة اللغوية والاستدلالات الخاصة بالمهمة. 3) المقارنة مع المعايير البشرية (ترتيبات صعوبة اللغة)، مما يوفر نقطة تحقق خارجية حاسمة غالباً ما تكون مفقودة في أبحاث التعلم الآلي البحتة. تسمح هذه الدقة المنهجية لهم بالانتقال من الارتباط (اللغة الأولى تؤثر على أداء اللغة الثانية) نحو فرضية ميكانيكية (المعرفة الهيكلية المجردة تنتقل).
نقاط القوة والضعف
نقاط القوة: القوة الأساسية للدراسة هي بناء الجسور بين التخصصات. من خلال صياغة المشكلة بمصطلحات نظرية اكتساب اللغة الثانية، تولد فرضيات جديدة في معالجة اللغات الطبيعية (مثل اختبار الانتقال التفاضلي عبر الظواهر النحوية). الإعداد المتحكم به للبيانات على نطاق بشري هو نقيض منعش لنموذج "المزيد من البيانات أفضل دائماً"، مما يجبر النماذج على التعميم، وليس الحفظ.
نقاط الضعف الحرجة: الفيل في الغرفة هو المقياس. أجريت التجارب بنماذج لغوية عصبية صغيرة نسبياً. كما سلطت عليه أبحاث "قوانين التحجيم" من OpenAI وغيرها، يمكن أن يتغير سلوك النموذج بشكل كبير مع الحجم. هل تظل ميزة اللغة الأولى الفرنسية قائمة لنموذج ذي 500 مليار معلمة، أم أن السعة الهائلة تطغى على التحيز الاستقرائي؟ علاوة على ذلك، فإن التركيز على النحو عبر BLiMP، رغم دقته، يتجاهل المساحة الشاسعة للانتقال الدلالي والتداولي، والتي تعتبر بنفس الأهمية للطلاقة. يشير النسيان الكارثي الملحوظ للغة الأولى أيضاً إلى قيود معمارية أساسية مقارنة باللدونة العصبية للدماغ البشري.
رؤى قابلة للتنفيذ
للممارسين، تقدم هذه الأبحاث مخططاً للتدريب المسبق الاستراتيجي. لا تتدرب مسبقاً على خليط عشوائي من اللغات. إذا كان الهدف هو أداء عالٍ في اللغة X، فقم أولاً بالتدريب المسبق على أقرب أقربائها اللغويين لبدء تعلم الهيكل. بالنسبة للباحثين، فإن الأجندة واضحة: 1) تكبير نطاق التجارب إلى أحجام النماذج اللغوية الكبيرة الحديثة لاختبار متانة هذه النتائج. 2) دمج تقنيات التعلم المستمر من البداية لمكافحة تدهور اللغة الأولى—لم تعد هذه مشكلة هامشية بل أصبحت مركزية لبناء وكلاء متعددي اللغات مستقرين. 3) تطوير معايير لغوية أكثر شمولاً تتجاوز أزواج الحد الأدنى لتشمل تماسك الخطاب والملاءمة التداولية، ربما بالاستفادة من أطر مثل الإطار الأوروبي المرجعي المشترك للغات (CEFR). في النهاية، يحول هذا العمل الهدف من بناء نماذج تعرف اللغات إلى بناء نماذج تتعلمها بطريقة تشبه الإنسان—مسعى أكثر طموحاً وغنىً فكرياً.