فهرست مطالب
- 1. مقدمه
- 2. کارهای مرتبط
- 3. روششناسی
- 4. آزمایشها
- 5. تحلیل
- 6. نتیجهگیری
- 7. تحلیل اصلی
- 8. جزئیات فنی
- 9. نتایج آزمایشی
- 10. مطالعه موردی
- 11. جهتگیریهای آینده
- 12. مراجع
1. مقدمه
تحقیقات یادگیری زبان دوم (SLA) به طور گسترده به بررسی انتقال بینزبانی، یعنی تأثیر ساختار زبانی زبان مادری گوینده [L1] بر کسب موفقیتآمیز یک زبان خارجی [L2] پرداخته است. اثرات چنین انتقالی میتواند مثبت (تسهیلکننده یادگیری) یا منفی (ممانعتکننده از یادگیری) باشد. ما متوجه میشویم که ادبیات پردازش زبان طبیعی (NLP) توجه کافی به پدیده انتقال منفی نداشته است. برای درک الگوهای انتقال مثبت و منفی بین L1 و L2، ما یادگیری متوالی زبان دوم را در مدلهای زبانی (LM) مدلسازی میکنیم. علاوه بر این، ما یک مجموعه داده چندزبانه سنمحور CHILDES (MAO-CHILDES) متشکل از 5 زبان از نظر گونهشناختی متنوع، یعنی آلمانی، فرانسوی، لهستانی، اندونزیایی و ژاپنی، برای درک میزان کمک یا تضاد گفتار بومی خطاب به کودک (CDS) [L1] با یادگیری زبان انگلیسی [L2] میسازیم.
2. کارهای مرتبط
انتقال بینزبانی توجه قابل توجهی را در تحقیقات NLP به خود جلب کرده است (Wu and Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017). بیشتر این تحقیقات بر پیامدهای عملی مانند میزان بهینهسازی انتقال بینزبانی توسط توکنساز مناسب متمرکز بوده است و به نوع روابط انتقال متوالی که در یادگیری زبان دوم انسانی رخ میدهد، نپرداخته است. رویکردهایی مانند آزمون سوگیری استقرایی از طریق انتقال مدل زبانی (TILT) (Papadimitriou and Jurafsky, 2020) بر انتقال مثبت با جفتهای آموزشی واگرا، مانند موسیقی MIDI و اسپانیایی، تمرکز دارند تا مشخص کنند کدام نوع داده ویژگیهای ساختاری قابل تعمیم را القا میکند که دادههای زبانی و غیرزبانی مشترک هستند.
3. روششناسی
3.1 ساخت مجموعه داده
ما مجموعه داده MAO-CHILDES را از پایگاه داده CHILDES با انتخاب گفتار خطاب به کودک از پنج زبان: آلمانی (ژرمنی)، فرانسوی (رومی)، لهستانی (اسلاوی)، اندونزیایی (آسترونزیایی) و ژاپنی (ژاپنی) ساختیم. این مجموعه داده به صورت سنمحور مرتب شده است تا ماهیت متوالی یادگیری زبان را شبیهسازی کند. هر زیرمجموعه زبانی شامل تقریباً 50000 گفته از مراقبان خطاب به کودکان 2 تا 5 ساله است.
3.2 معماری مدل
چارچوب SLABERT ما بر اساس معماری BERT-base (Devlin et al., 2019) با 12 لایه ترانسفورمر، 768 بعد پنهان و 12 سر توجه است. ما از یک فرآیند آموزش دو مرحلهای استفاده میکنیم: ابتدا، مدل بر روی دادههای CDS زبان L1 پیشآموزش داده میشود، سپس بر روی دادههای CDS زبان L2 (انگلیسی) تنظیم دقیق میشود. این آموزش متوالی، فرآیند SLA انسانی را که در آن L1 قبل از L2 کسب میشود، منعکس میکند.
3.3 فرآیند آموزش
فرآیند آموزش از رویکرد یادگیری انتقالی مبتنی بر TILT پیروی میکند. مدل ابتدا بر روی دادههای L1 با استفاده از هدف مدلسازی زبان پوشیده (MLM) با نرخ پوشش 15٪ آموزش داده میشود. سپس، مدل بر روی دادههای CDS انگلیسی با همان هدف MLM تنظیم دقیق میشود. تابع ضرر به صورت زیر تعریف میشود:
$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$
که در آن $\mathcal{M}$ مجموعه موقعیتهای پوشیده شده و $x_{\backslash \mathcal{M}}$ نشاندهنده توکنهای پوشیده نشده است.
4. آزمایشها
4.1 تنظیمات آزمایشی
ما مدلهای خود را بر روی مجموعه آزمون دستور زبان BLiMP (محک جفتهای حداقلی زبانی برای انگلیسی) (Warstadt et al., 2020) ارزیابی میکنیم که شامل 67 پدیده دستوری سازمانیافته در 13 دسته است. ما مدلهای آموزشدیده بر روی زبانهای مختلف L1 را با یک مدل پایه که فقط بر روی دادههای CDS انگلیسی آموزش دیده است، مقایسه میکنیم. معیار ارزیابی دقت در مجموعه آزمون BLiMP است.
4.2 نتایج
جدول 1 دقت BLiMP را برای مدلهای آموزشدیده با زبانهای مختلف L1 نشان میدهد. L1 آلمانی بالاترین انتقال مثبت (85.2٪) را نشان میدهد، در حالی که L1 ژاپنی کمترین (72.1٪) را نشان میدهد که با پیشبینیهای فاصله خانواده زبانی مطابقت دارد. فرانسوی و لهستانی نتایج میانی (به ترتیب 81.3٪ و 78.6٪) را نشان میدهند. اندونزیایی دقت 76.4٪ را نشان میدهد.
5. تحلیل
5.1 انتقال مثبت در مقابل منفی
ما مشاهده میکنیم که زبانهای همخانواده (ژرمنی) با انگلیسی عمدتاً انتقال مثبت را نشان میدهند، در حالی که زبانهای خانوادههای دور (ژاپنی) انتقال منفی قابل توجهی را نشان میدهند. این با تحقیقات SLA انسانی که نشان میدهد فاصله گونهشناختی اثرات انتقال را پیشبینی میکند (Jarvis and Pavlenko, 2007)، همسو است.
5.2 فاصله خانواده زبانی
ما فاصله خانواده زبانی را با استفاده از معیارهای فاصله تبارشناختی کمّی میکنیم. همبستگی بین فاصله خانواده زبانی و انتقال منفی از نظر آماری معنیدار است (r پیرسون = -0.89، p < 0.05). این نشان میدهد که چارچوب SLABERT میتواند به عنوان یک مدل محاسباتی برای مطالعه روابط گونهشناختی عمل کند.
6. نتیجهگیری
چارچوب SLABERT ما با موفقیت اثرات انتقال مثبت و منفی بینزبانی را در یادگیری زبان دوم مدلسازی میکند. ما دریافتیم که فاصله خانواده زبانی انتقال منفی را پیشبینی میکند و دادههای گفتار مکالمهای تسهیل بیشتری برای یادگیری زبان نسبت به دادههای گفتار فیلمنامهنویسی شده نشان میدهد. یافتههای ما خواستار تحقیقات بیشتر با استفاده از مدلهای SLA مبتنی بر ترانسفورمر است و ما کد، داده و مدلهای خود را برای تشویق به این امر منتشر میکنیم.
7. تحلیل اصلی
بینش اصلی: SLABERT یک تلاش جسورانه برای پل زدن بین زبانشناسی محاسباتی و تحقیقات یادگیری زبان دوم است، اما از یک محدودیت اساسی رنج میبرد: پیشآموزش مدل زبانی را با یادگیری زبان انسانی برابر میداند و ابعاد تجسمیافته، اجتماعی و شناختی SLA را نادیده میگیرد. کمک اصلی مقاله نشان دادن این است که BERT میتواند اثرات انتقال بینزبانی را شبیهسازی کند، اما این یک پیروزی محدود است.
جریان منطقی: نویسندگان از مفهوم تثبیتشده SLA یعنی انتقال بینزبانی شروع میکنند، سپس یک چارچوب محاسباتی برای مدلسازی آن میسازند. منطق درست است: اگر LMها بتوانند ساختار زبانی را از دادهها یاد بگیرند، آنگاه آموزش متوالی بر روی L1 و سپس L2 باید اثرات انتقال را آشکار کند. ساخت مجموعه داده MAO-CHILDES یک نوآوری عملی است که دادههای گفتار خطاب به کودک از نظر زیستبومشناختی معتبر را فراهم میکند. استفاده از BLiMP برای ارزیابی مناسب است، زیرا دانش دستوری را آزمایش میکند.
نقاط قوت و ضعف: نقطه قوت اصلی، کاربرد جدید یادگیری انتقالی مبتنی بر TILT در SLA است که یک جهت تحقیقاتی جدید را باز میکند. یافته مبنی بر اینکه فاصله خانواده زبانی انتقال منفی را پیشبینی میکند، قانعکننده است و با مطالعات انسانی همسو است. با این حال، مقاله دارای نقاط ضعف قابل توجهی است. اول، حجم نمونه پنج زبان برای نتیجهگیریهای گونهشناختی قوی بسیار کم است. دوم، مدل اثرات سن کسب زبان را که در SLA انسانی حیاتی است (Lenneberg, 1967)، در نظر نمیگیرد. سوم، ارزیابی به دستور زبان انگلیسی محدود است؛ ما نمیدانیم که آیا مدل به L2های دیگر تعمیم مییابد یا خیر. چهارم، مقاله فاقد مقایسه با مدلهای سنتی SLA مانند مدل رقابت (MacWhinney, 2005) است.
بینشهای عملی: برای محققان، این کار نشان میدهد که مدلهای مبتنی بر ترانسفورمر میتوانند ابزارهای مفیدی برای تحقیقات SLA باشند، اما باید با مدلهای شناختی ترکیب شوند. برای دستاندرکاران، یافته مبنی بر اینکه دادههای گفتار مکالمهای مؤثرتر از دادههای فیلمنامهنویسی شده است، پیامدهایی برای مواد آموزشی زبان دارد. کارهای آینده باید نمونه زبان را گسترش دهند، سن کسب زبان را به عنوان یک متغیر شامل شوند و بر روی چندین L2 آزمایش کنند. انتشار کد و داده توسط مقاله قابل تحسین است و باید تسهیلکننده تکرار و گسترش باشد.
8. جزئیات فنی
مدل SLABERT از معماری BERT-base با 110 میلیون پارامتر استفاده میکند. فراپارامترهای آموزش عبارتند از: نرخ یادگیری 2e-5، اندازه دسته 32، حداکثر طول دنباله 128، و دورههای آموزشی 10 برای پیشآموزش L1 و 5 برای تنظیم دقیق L2. بهینهسازی از AdamW با کاهش وزن 0.01 استفاده میکند. هدف MLM 15٪ از توکنها را میپوشاند، که 80٪ با [MASK]، 10٪ با توکنهای تصادفی جایگزین میشوند و 10٪ بدون تغییر باقی میمانند.
فرمولبندی ریاضی هدف یادگیری انتقالی به صورت زیر است:
$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$
که در آن $\lambda$ یک عامل مقیاسدهی است که در آزمایشهای ما روی 0.5 تنظیم شده است.
9. نتایج آزمایشی
شکل 1 (نشان داده نشده است) یک نمودار میلهای را ارائه میدهد که دقت BLiMP را در بین زبانهای L1 مقایسه میکند. خط پایه (فقط انگلیسی) به دقت 83.5٪ دست مییابد. L1 آلمانی بالاترین بهبود (+1.7٪) را نشان میدهد، در حالی که L1 ژاپنی بزرگترین کاهش (-11.4٪) را نشان میدهد. فرانسوی و لهستانی اثرات میانی را نشان میدهند. نتایج تأیید میکند که فاصله گونهشناختی با انتقال منفی همبستگی دارد.
جدول 1: دقت BLiMP بر اساس زبان L1
| زبان L1 | دقت (%) | تغییر از خط پایه |
|---|---|---|
| انگلیسی (خط پایه) | 83.5 | - |
| آلمانی | 85.2 | +1.7 |
| فرانسوی | 81.3 | -2.2 |
| لهستانی | 78.6 | -4.9 |
| اندونزیایی | 76.4 | -7.1 |
| ژاپنی | 72.1 | -11.4 |
10. مطالعه موردی
پدیده دستوری انگلیسی توافق فاعل-فعل را در نظر بگیرید. در آلمانی، که الگوهای توافق مشابهی دارد، مدل دقت بالایی (92٪) نشان میدهد. در ژاپنی، که فاقد توافق شخص-شمار است، مدل دقت پایینی (65٪) نشان میدهد. این انتقال منفی را نشان میدهد: دستور زبان L1 در کسب L2 اختلال ایجاد میکند. یک جفت جمله نمونه از BLiMP:
دستوری: "The dogs run fast."
غیردستوری: "The dogs runs fast."
مدل L1 آلمانی جمله دستوری را در 92٪ موارد به درستی شناسایی میکند، در حالی که مدل L1 ژاپنی فقط در 65٪ موارد.
11. جهتگیریهای آینده
چارچوب SLABERT چندین راه را برای تحقیقات آینده باز میکند. اول، گسترش نمونه زبان برای شامل شدن زبانهای متنوعتر از نظر گونهشناختی (مانند عربی، ماندارین، سواحیلی) یافتهها را تقویت میکند. دوم، گنجاندن سن کسب زبان به عنوان یک متغیر میتواند اثرات دوره بحرانی را در SLA مدلسازی کند (Lenneberg, 1967). سوم، آزمایش بر روی چندین L2 (مانند اسپانیایی، فرانسوی) تعمیمپذیری چارچوب را آزمایش میکند. چهارم، ترکیب SLABERT با مدلهای شناختی مانند مدل رقابت (MacWhinney, 2005) میتواند شبیهسازیهای واقعگرایانهتری ارائه دهد. پنجم، به کارگیری چارچوب برای مطالعه تحلیل زبانی (از دست دادن L1 به دلیل تسلط L2) یک گسترش طبیعی است. در نهایت، این چارچوب میتواند برای توسعه ابزارهای یادگیری زبان شخصیسازی شده که با L1 یادگیرنده سازگار میشوند، استفاده شود.
12. مراجع
- Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
- Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In Proceedings of EMNLP.
- Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In Proceedings of ICLR.
- Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In Proceedings of EMNLP.
- Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT.
- Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
- Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
- MacWhinney, B. (2005). A unified model of language acquisition. In Handbook of Bilingualism: Psycholinguistic Approaches.
- Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In Proceedings of EMNLP.
- Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
- Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
- Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In Proceedings of EMNLP.
- Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.