SLABERT: نمذجة اكتساب اللغة الثانية باستخدام BERT

جدول المحتويات

1. المقدمة
2. الأعمال ذات الصلة
3. المنهجية
4. التجارب
- 4.1 إعداد التجربة
- 4.2 نتائج التجربة
5. التحليل
- 5.1 النقل الإيجابي والنقل السلبي
- 5.2 المسافة بين العائلات اللغوية
6. الاستنتاج
7. التحليل الأصلي
8. التفاصيل التقنية
9. النتائج التجريبية
10. دراسة الحالة
11. الاتجاهات المستقبلية
12. المراجع

1. المقدمة

تناولت دراسات اكتساب اللغة الثانية على نطاق واسع ظاهرة النقل عبر اللغوي، أي تأثير البنى اللغوية للغة الأم للمتحدث على نجاحه في اكتساب لغة أجنبية. يمكن أن يكون هذا التأثير إيجابياً (تعزيز الاكتساب) أو سلبياً (إعاقة الاكتساب). نجد أن أدبيات معالجة اللغة الطبيعية لا تولي اهتماماً كافياً لظاهرة النقل السلبي. لفهم أنماط النقل الإيجابي والسلبي بين اللغة الأم واللغة الثانية، قمنا بمحاكاة عملية اكتساب اللغة الثانية المتسلسلة في النماذج اللغوية. بالإضافة إلى ذلك، قمنا ببناء مجموعة بيانات CHILDES متعددة اللغات مرتبة حسب العمر، تحتوي على خمس لغات مختلفة نمطياً، وهي الألمانية والفرنسية والبولندية والإندونيسية واليابانية، وذلك لفهم مدى قدرة اللغة الأم الموجهة للأطفال على تعزيز أو إعاقة اكتساب اللغة الإنجليزية.

2. الأعمال ذات الصلة

حظي النقل عبر اللغوي باهتمام واسع في أبحاث معالجة اللغة الطبيعية. تركز معظم الدراسات على الجانب التطبيقي العملي، مثل أي أداة تجزئة يمكنها تعظيم تأثير النقل عبر اللغوي، دون الاهتمام بعلاقات النقل المتسلسلة التي تظهر في اكتساب اللغة الثانية لدى البشر. تركز طرق مثل اختبار الاستقراء القائم على نقل النماذج اللغوية على دراسة النقل الإيجابي باستخدام أزواج مجموعات تدريبية متباينة (مثل موسيقى MIDI واللغة الإسبانية)، وذلك للكشف عن أنواع البيانات التي يمكنها استحضار سمات هيكلية قابلة للتعميم ومشتركة بين البيانات اللغوية وغير اللغوية.

3. المنهجية

3.1 بناء مجموعة البيانات

قمنا ببناء مجموعة بيانات MAO-CHILDES من قاعدة بيانات CHILDES، واخترنا لغات موجهة للأطفال من خمس لغات: الألمانية (الجرمانية)، والفرنسية (الرومانسية)، والبولندية (السلافية)، والإندونيسية (الأسترونيزية)، واليابانية (اليابانية). تم ترتيب مجموعة البيانات حسب العمر لمحاكاة التسلسل في اكتساب اللغة. تحتوي كل مجموعة فرعية لغوية على حوالي 50 ألف جملة من كلام مقدمي الرعاية للأطفال الذين تتراوح أعمارهم بين 2 و5 سنوات.

3.2 بنية النموذج

يعتمد إطار SLABERT الخاص بنا على بنية BERT-base، والتي تتضمن 12 طبقة محول (Transformer)، و768 بُعدًا مخفيًا، و12 رأس انتباه. نعتمد عملية تدريب على مرحلتين: أولاً، يتم تدريب النموذج مسبقًا على بيانات اللغة الأم الموجهة للأطفال، ثم يتم ضبطه بدقة على بيانات اللغة الثانية (الإنجليزية) الموجهة للأطفال. يحاكي هذا التدريب المتسلسل عملية اكتساب اللغة الثانية لدى البشر، حيث يتم اكتساب اللغة الأم أولاً ثم اللغة الثانية.

3.3 عملية التدريب

تتبع عملية التدريب نهج التعلم عبر اللغات القائم على TILT. يتم تدريب النموذج أولاً على بيانات اللغة الأم باستخدام هدف نمذجة اللغة المقنعة، بمعدل إخفاء 15%. بعد ذلك، يتم ضبط النموذج بدقة على بيانات اللغة الإنجليزية الموجهة للأطفال باستخدام نفس هدف نمذجة اللغة المقنعة. يتم تعريف دالة الخسارة على النحو التالي:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

حيث $\mathcal{M}$ هي مجموعة المواضع المقنعة، و $x_{\backslash \mathcal{M}}$ تمثل الرموز غير المقنعة.

4. التجارب

4.1 إعداد التجربة

نقوم بتقييم نموذجنا على مجموعة اختبار القواعد النحوية الإنجليزية BLiMP، والتي تحتوي على 67 ظاهرة نحوية مقسمة إلى 13 فئة. نقارن النماذج المدربة بلغات أم مختلفة مع النموذج الأساسي المدرب فقط على بيانات اللغة الإنجليزية الموجهة للأطفال. مقياس التقييم هو الدقة على مجموعة اختبار BLiMP.

4.2 نتائج التجربة

يوضح الجدول 1 دقة BLiMP للنماذج المدربة باستخدام لغات أم مختلفة. أظهرت اللغة الألمانية الأم أعلى نقل إيجابي (85.2%)، بينما أظهرت اللغة اليابانية الأم أدنى نقل إيجابي (72.1%)، وهو ما يتوافق مع توقعات المسافة بين العائلات اللغوية. أظهرت اللغتان الفرنسية والبولندية نتائج متوسطة (81.3% و78.6% على التوالي). أظهرت اللغة الإندونيسية دقة بلغت 76.4%.

5. التحليل

5.1 النقل الإيجابي والنقل السلبي

لاحظنا أن اللغات التي تنتمي إلى نفس العائلة اللغوية (الجرمانية) مثل اللغة الإنجليزية أظهرت بشكل أساسي نقلاً إيجابياً، بينما أظهرت اللغات من عائلات لغوية بعيدة (اليابانية) نقلاً سلبياً ملحوظاً. يتوافق هذا مع استنتاج دراسات اكتساب اللغة الثانية البشرية بأن المسافة التصنيفية تتنبأ بتأثير النقل.

5.2 المسافة بين العائلات اللغوية

我们使用系统发育距离度量来量化语系距离。语系距离与负迁移之间的相关性具有统计学显著性（Pearson's r = -0.89, p < 0.05）。这表明SLABERT框架可以作为研究类型学关系的计算模型。

6. الاستنتاج

نجح إطار SLABERT الخاص بنا في نمذجة تأثيرات الانتقال الإيجابي والسلبي في اكتساب اللغة الثانية. وجدنا أن المسافة بين العائلات اللغوية يمكنها التنبؤ بالانتقال السلبي، وأن بيانات اللغة الحوارية تعزز اكتساب اللغة أكثر من بيانات اللغة النصية. تدعو نتائجنا إلى إجراء المزيد من الأبحاث حول نماذج اكتساب اللغة الثانية القائمة على Transformer، وقد قمنا بنشر الكود والبيانات والنماذج لتسهيل الأبحاث ذات الصلة.

7. التحليل الأصلي

الرؤى الأساسية: SLABERT هي محاولة جريئة لربط اللغويات الحاسوبية بأبحاث اكتساب اللغة الثانية، لكنها تعاني من قيد أساسي: فهي تساوي بين التدريب المسبق لنماذج اللغة واكتساب اللغة البشرية، متجاهلة الأبعاد الجسدية والاجتماعية والمعرفية في اكتساب اللغة الثانية. المساهمة الرئيسية للورقة تكمن في إثبات أن BERT يمكنه محاكاة تأثيرات الانتقال عبر اللغات، لكن هذا مجرد انتصار ضيق.

المسار المنطقي: ينطلق المؤلف من مفهوم النقل عبر اللغات الناضج في اكتساب اللغة الثانية، ويبني إطارًا حسابيًا لنمذجته. منطقه معقول: إذا كانت نماذج اللغة قادرة على تعلم البنى اللغوية من البيانات، فإن التدريب المتسلسل على اللغة الأم واللغة الثانية يجب أن يكشف عن تأثيرات النقل. بناء مجموعة بيانات MAO-CHILDES هو ابتكار عملي، حيث يوفر بيانات لغوية موجهة للأطفال ذات صلاحية بيئية عالية. استخدام BLiMP للتقييم مناسب لأنه يختبر المعرفة النحوية.

المزايا والعيوب: الميزة الرئيسية تكمن في التطبيق المبتكر للتعلم بالنقل القائم على TILT في اكتساب اللغة الثانية، مما يفتح اتجاهًا بحثيًا جديدًا. اكتشاف أن مسافة العائلة اللغوية تتنبأ بالنقل السلبي مقنع ويتوافق مع الدراسات البشرية. ومع ذلك، تعاني الورقة من عيوب ملحوظة. أولاً، حجم العينة المكون من خمس لغات صغير جدًا لاستخلاص استنتاجات تصنيفية قوية. ثانيًا، لا يأخذ النموذج في الاعتبار تأثير سن الاكتساب، وهو أمر بالغ الأهمية في اكتساب اللغة الثانية لدى البشر. ثالثًا، يقتصر التقييم على قواعد اللغة الإنجليزية؛ ولا نعرف ما إذا كان النموذج يمكنه التعميم على لغات ثانية أخرى. رابعًا، تفتقر الورقة إلى المقارنة مع نماذج تقليدية لاكتساب اللغة الثانية مثل النموذج التنافسي.

رؤى قابلة للتنفيذ: بالنسبة للباحثين، يُظهر هذا العمل أن النماذج القائمة على Transformer يمكن أن تكون أداة مفيدة لأبحاث اكتساب اللغة الثانية، ولكن يجب دمجها مع النماذج المعرفية. بالنسبة للممارسين، فإن اكتشاف أن بيانات اللغة الحوارية أكثر فعالية من البيانات النصية له آثار على مواد تعليم اللغة. يجب أن يعمل العمل المستقبلي على توسيع عينة اللغات، وإدراج سن الاكتساب كمتغير، والاختبار على لغات ثانية متعددة. نشر الورقة للكود والبيانات جدير بالثناء، ويجب أن يساعد في إعادة الإنتاج والتوسع لاحقًا.

8. التفاصيل التقنية

يستخدم نموذج SLABERT بنية BERT-base التي تحتوي على 110 مليون معلمة. معلمات التدريب الفائقة هي: معدل التعلم 2e-5، حجم الدفعة 32، الحد الأقصى لطول التسلسل 128، التدريب المسبق على اللغة الأم لمدة 10 عصور، والضبط الدقيق للغة الثانية لمدة 5 عصور. يستخدم التحسين AdamW مع انحلال الوزن بقيمة 0.01. هدف نمذجة اللغة المقنعة يقوم بإخفاء 15% من الرموز، حيث يتم استبدال 80% منها بـ [MASK]، و10% برموز عشوائية، و10% تبقى دون تغيير.

الصيغة الرياضية لهدف التعلم النقلي هي:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

حيث $\lambda$ هو عامل القياس، وقد تم ضبطه على 0.5 في تجاربنا.

9. النتائج التجريبية

يوضح الشكل 1 (غير معروض) رسمًا بيانيًا شريطيًا يقارن دقة BLiMP عبر لغات أم مختلفة. حقق النموذج الأساسي (الإنجليزية فقط) دقة بلغت 83.5%. أظهرت اللغة الأم الألمانية أكبر تحسن (+1.7%)، بينما أظهرت اللغة الأم اليابانية أكبر انخفاض (-11.4%). وأظهرت اللغتان الفرنسية والبولندية تأثيرات متوسطة. تؤكد النتائج أن المسافة التصنيفية ترتبط بالنقل السلبي.

الجدول 1: دقة BLiMP للغات أم مختلفة

اللغة الأم	دقة (٪)	التغيير مقارنة بالخط الأساسي
الإنجليزية (الخط الأساسي)	83.5	-
الألمانية	85.2	+1.7
الفرنسية	81.3	-2.2
البولندية	78.6	-4.9
الإندونيسية	76.4	-7.1
اليابانية	72.1	-11.4

10. دراسة الحالة

تأمل ظاهرة التوافق بين الفاعل والفعل في قواعد اللغة الإنجليزية. في اللغة الألمانية التي تمتلك نمط توافق مشابه، أظهر النموذج دقة عالية (92%). بينما في اللغة اليابانية التي تفتقر إلى التوافق من حيث الشخص والعدد، أظهر النموذج دقة منخفضة (65%). وهذا يثبت النقل السلبي: حيث تتداخل قواعد اللغة الأم مع اكتساب اللغة الثانية. زوج من الجمل المثال من BLiMP:

جملة صحيحة نحوياً: "The dogs run fast."

جملة غير صحيحة نحوياً: "The dogs runs fast."

تبلغ نسبة نجاح النموذج الألماني الأصلي في التعرف الصحيح على الجمل النحوية 92%، بينما تبلغ نسبة النموذج الياباني الأصلي 65% فقط.

11. الاتجاهات المستقبلية

يفتح إطار SLABERT عدة مسارات للبحث المستقبلي. أولاً، توسيع عينة اللغات لتشمل لغات أكثر تنوعًا من الناحية التصنيفية (مثل العربية والماندرين والسواحيلية) سيعزز نتائج الدراسة. ثانيًا، إدراج عمر الاكتساب كمتغير يمكنه محاكاة تأثيرات الفترة الحرجة في اكتساب اللغة الثانية. ثالثًا، الاختبار على عدة لغات ثانية (مثل الإسبانية والفرنسية) يمكنه التحقق من قدرة الإطار على التعميم. رابعًا، دمج SLABERT مع نماذج معرفية مثل نموذج المنافسة يمكن أن يوفر محاكاة أكثر واقعية. خامسًا، تطبيق الإطار لدراسة تآكل اللغة (فقدان اللغة الأم بسبب هيمنة اللغة الثانية) هو امتداد طبيعي. أخيرًا، يمكن استخدام هذا الإطار لتطوير أدوات تعلم لغة مخصصة تتكيف مع اللغة الأم للمتعلم.

12. المراجع

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In وقائع EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In وقائع ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In وقائع EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In وقائع NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). التأثير عبر اللغوي في اللغة والإدراك. Routledge.
لينيبيرغ، إ. هـ. (1967). الأسس البيولوجية للغة. Wiley.
ماكويني، ب. (2005). نموذج موحد لاكتساب اللغة. في دليل ثنائية اللغة: مقاربات نفسية لغوية.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In وقائع EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. مجلة أبحاث الذكاء الاصطناعي, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. معاملات ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In وقائع EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.