SLABERT: مدل‌سازی یادگیری زبان دوم با BERT

فهرست مطالب

1. مقدمه
2. کارهای مرتبط
3. روش‌شناسی
4. آزمایش‌ها
- 4.1 تنظیمات آزمایشی
- 4.2 نتایج
5. تحلیل
- 5.1 انتقال مثبت در مقابل منفی
- 5.2 فاصله خانواده زبانی
6. نتیجه‌گیری
7. تحلیل اصلی
8. جزئیات فنی
9. نتایج آزمایشی
10. مطالعه موردی
11. جهت‌گیری‌های آینده
12. مراجع

1. مقدمه

تحقیقات یادگیری زبان دوم (SLA) به طور گسترده به بررسی انتقال بین‌زبانی، یعنی تأثیر ساختار زبانی زبان مادری گوینده [L1] بر کسب موفقیت‌آمیز یک زبان خارجی [L2] پرداخته است. اثرات چنین انتقالی می‌تواند مثبت (تسهیل‌کننده یادگیری) یا منفی (ممانعت‌کننده از یادگیری) باشد. ما متوجه می‌شویم که ادبیات پردازش زبان طبیعی (NLP) توجه کافی به پدیده انتقال منفی نداشته است. برای درک الگوهای انتقال مثبت و منفی بین L1 و L2، ما یادگیری متوالی زبان دوم را در مدل‌های زبانی (LM) مدل‌سازی می‌کنیم. علاوه بر این، ما یک مجموعه داده چندزبانه سن‌محور CHILDES (MAO-CHILDES) متشکل از 5 زبان از نظر گونه‌شناختی متنوع، یعنی آلمانی، فرانسوی، لهستانی، اندونزیایی و ژاپنی، برای درک میزان کمک یا تضاد گفتار بومی خطاب به کودک (CDS) [L1] با یادگیری زبان انگلیسی [L2] می‌سازیم.

2. کارهای مرتبط

انتقال بین‌زبانی توجه قابل توجهی را در تحقیقات NLP به خود جلب کرده است (Wu and Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017). بیشتر این تحقیقات بر پیامدهای عملی مانند میزان بهینه‌سازی انتقال بین‌زبانی توسط توکن‌ساز مناسب متمرکز بوده است و به نوع روابط انتقال متوالی که در یادگیری زبان دوم انسانی رخ می‌دهد، نپرداخته است. رویکردهایی مانند آزمون سوگیری استقرایی از طریق انتقال مدل زبانی (TILT) (Papadimitriou and Jurafsky, 2020) بر انتقال مثبت با جفت‌های آموزشی واگرا، مانند موسیقی MIDI و اسپانیایی، تمرکز دارند تا مشخص کنند کدام نوع داده ویژگی‌های ساختاری قابل تعمیم را القا می‌کند که داده‌های زبانی و غیرزبانی مشترک هستند.

3. روش‌شناسی

3.1 ساخت مجموعه داده

ما مجموعه داده MAO-CHILDES را از پایگاه داده CHILDES با انتخاب گفتار خطاب به کودک از پنج زبان: آلمانی (ژرمنی)، فرانسوی (رومی)، لهستانی (اسلاوی)، اندونزیایی (آسترونزیایی) و ژاپنی (ژاپنی) ساختیم. این مجموعه داده به صورت سن‌محور مرتب شده است تا ماهیت متوالی یادگیری زبان را شبیه‌سازی کند. هر زیرمجموعه زبانی شامل تقریباً 50000 گفته از مراقبان خطاب به کودکان 2 تا 5 ساله است.

3.2 معماری مدل

چارچوب SLABERT ما بر اساس معماری BERT-base (Devlin et al., 2019) با 12 لایه ترانسفورمر، 768 بعد پنهان و 12 سر توجه است. ما از یک فرآیند آموزش دو مرحله‌ای استفاده می‌کنیم: ابتدا، مدل بر روی داده‌های CDS زبان L1 پیش‌آموزش داده می‌شود، سپس بر روی داده‌های CDS زبان L2 (انگلیسی) تنظیم دقیق می‌شود. این آموزش متوالی، فرآیند SLA انسانی را که در آن L1 قبل از L2 کسب می‌شود، منعکس می‌کند.

3.3 فرآیند آموزش

فرآیند آموزش از رویکرد یادگیری انتقالی مبتنی بر TILT پیروی می‌کند. مدل ابتدا بر روی داده‌های L1 با استفاده از هدف مدل‌سازی زبان پوشیده (MLM) با نرخ پوشش 15٪ آموزش داده می‌شود. سپس، مدل بر روی داده‌های CDS انگلیسی با همان هدف MLM تنظیم دقیق می‌شود. تابع ضرر به صورت زیر تعریف می‌شود:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

که در آن $\mathcal{M}$ مجموعه موقعیت‌های پوشیده شده و $x_{\backslash \mathcal{M}}$ نشان‌دهنده توکن‌های پوشیده نشده است.

4. آزمایش‌ها

4.1 تنظیمات آزمایشی

ما مدل‌های خود را بر روی مجموعه آزمون دستور زبان BLiMP (محک جفت‌های حداقلی زبانی برای انگلیسی) (Warstadt et al., 2020) ارزیابی می‌کنیم که شامل 67 پدیده دستوری سازمان‌یافته در 13 دسته است. ما مدل‌های آموزش‌دیده بر روی زبان‌های مختلف L1 را با یک مدل پایه که فقط بر روی داده‌های CDS انگلیسی آموزش دیده است، مقایسه می‌کنیم. معیار ارزیابی دقت در مجموعه آزمون BLiMP است.

4.2 نتایج

جدول 1 دقت BLiMP را برای مدل‌های آموزش‌دیده با زبان‌های مختلف L1 نشان می‌دهد. L1 آلمانی بالاترین انتقال مثبت (85.2٪) را نشان می‌دهد، در حالی که L1 ژاپنی کمترین (72.1٪) را نشان می‌دهد که با پیش‌بینی‌های فاصله خانواده زبانی مطابقت دارد. فرانسوی و لهستانی نتایج میانی (به ترتیب 81.3٪ و 78.6٪) را نشان می‌دهند. اندونزیایی دقت 76.4٪ را نشان می‌دهد.

5. تحلیل

5.1 انتقال مثبت در مقابل منفی

ما مشاهده می‌کنیم که زبان‌های هم‌خانواده (ژرمنی) با انگلیسی عمدتاً انتقال مثبت را نشان می‌دهند، در حالی که زبان‌های خانواده‌های دور (ژاپنی) انتقال منفی قابل توجهی را نشان می‌دهند. این با تحقیقات SLA انسانی که نشان می‌دهد فاصله گونه‌شناختی اثرات انتقال را پیش‌بینی می‌کند (Jarvis and Pavlenko, 2007)، همسو است.

5.2 فاصله خانواده زبانی

ما فاصله خانواده زبانی را با استفاده از معیارهای فاصله تبارشناختی کمّی می‌کنیم. همبستگی بین فاصله خانواده زبانی و انتقال منفی از نظر آماری معنی‌دار است (r پیرسون = -0.89، p < 0.05). این نشان می‌دهد که چارچوب SLABERT می‌تواند به عنوان یک مدل محاسباتی برای مطالعه روابط گونه‌شناختی عمل کند.

6. نتیجه‌گیری

چارچوب SLABERT ما با موفقیت اثرات انتقال مثبت و منفی بین‌زبانی را در یادگیری زبان دوم مدل‌سازی می‌کند. ما دریافتیم که فاصله خانواده زبانی انتقال منفی را پیش‌بینی می‌کند و داده‌های گفتار مکالمه‌ای تسهیل بیشتری برای یادگیری زبان نسبت به داده‌های گفتار فیلمنامه‌نویسی شده نشان می‌دهد. یافته‌های ما خواستار تحقیقات بیشتر با استفاده از مدل‌های SLA مبتنی بر ترانسفورمر است و ما کد، داده و مدل‌های خود را برای تشویق به این امر منتشر می‌کنیم.

7. تحلیل اصلی

بینش اصلی: SLABERT یک تلاش جسورانه برای پل زدن بین زبان‌شناسی محاسباتی و تحقیقات یادگیری زبان دوم است، اما از یک محدودیت اساسی رنج می‌برد: پیش‌آموزش مدل زبانی را با یادگیری زبان انسانی برابر می‌داند و ابعاد تجسم‌یافته، اجتماعی و شناختی SLA را نادیده می‌گیرد. کمک اصلی مقاله نشان دادن این است که BERT می‌تواند اثرات انتقال بین‌زبانی را شبیه‌سازی کند، اما این یک پیروزی محدود است.

جریان منطقی: نویسندگان از مفهوم تثبیت‌شده SLA یعنی انتقال بین‌زبانی شروع می‌کنند، سپس یک چارچوب محاسباتی برای مدل‌سازی آن می‌سازند. منطق درست است: اگر LMها بتوانند ساختار زبانی را از داده‌ها یاد بگیرند، آنگاه آموزش متوالی بر روی L1 و سپس L2 باید اثرات انتقال را آشکار کند. ساخت مجموعه داده MAO-CHILDES یک نوآوری عملی است که داده‌های گفتار خطاب به کودک از نظر زیست‌بوم‌شناختی معتبر را فراهم می‌کند. استفاده از BLiMP برای ارزیابی مناسب است، زیرا دانش دستوری را آزمایش می‌کند.

نقاط قوت و ضعف: نقطه قوت اصلی، کاربرد جدید یادگیری انتقالی مبتنی بر TILT در SLA است که یک جهت تحقیقاتی جدید را باز می‌کند. یافته مبنی بر اینکه فاصله خانواده زبانی انتقال منفی را پیش‌بینی می‌کند، قانع‌کننده است و با مطالعات انسانی همسو است. با این حال، مقاله دارای نقاط ضعف قابل توجهی است. اول، حجم نمونه پنج زبان برای نتیجه‌گیری‌های گونه‌شناختی قوی بسیار کم است. دوم، مدل اثرات سن کسب زبان را که در SLA انسانی حیاتی است (Lenneberg, 1967)، در نظر نمی‌گیرد. سوم، ارزیابی به دستور زبان انگلیسی محدود است؛ ما نمی‌دانیم که آیا مدل به L2های دیگر تعمیم می‌یابد یا خیر. چهارم، مقاله فاقد مقایسه با مدل‌های سنتی SLA مانند مدل رقابت (MacWhinney, 2005) است.

بینش‌های عملی: برای محققان، این کار نشان می‌دهد که مدل‌های مبتنی بر ترانسفورمر می‌توانند ابزارهای مفیدی برای تحقیقات SLA باشند، اما باید با مدل‌های شناختی ترکیب شوند. برای دست‌اندرکاران، یافته مبنی بر اینکه داده‌های گفتار مکالمه‌ای مؤثرتر از داده‌های فیلمنامه‌نویسی شده است، پیامدهایی برای مواد آموزشی زبان دارد. کارهای آینده باید نمونه زبان را گسترش دهند، سن کسب زبان را به عنوان یک متغیر شامل شوند و بر روی چندین L2 آزمایش کنند. انتشار کد و داده توسط مقاله قابل تحسین است و باید تسهیل‌کننده تکرار و گسترش باشد.

8. جزئیات فنی

مدل SLABERT از معماری BERT-base با 110 میلیون پارامتر استفاده می‌کند. فراپارامترهای آموزش عبارتند از: نرخ یادگیری 2e-5، اندازه دسته 32، حداکثر طول دنباله 128، و دوره‌های آموزشی 10 برای پیش‌آموزش L1 و 5 برای تنظیم دقیق L2. بهینه‌سازی از AdamW با کاهش وزن 0.01 استفاده می‌کند. هدف MLM 15٪ از توکن‌ها را می‌پوشاند، که 80٪ با [MASK]، 10٪ با توکن‌های تصادفی جایگزین می‌شوند و 10٪ بدون تغییر باقی می‌مانند.

فرمول‌بندی ریاضی هدف یادگیری انتقالی به صورت زیر است:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

که در آن $\lambda$ یک عامل مقیاس‌دهی است که در آزمایش‌های ما روی 0.5 تنظیم شده است.

9. نتایج آزمایشی

شکل 1 (نشان داده نشده است) یک نمودار میله‌ای را ارائه می‌دهد که دقت BLiMP را در بین زبان‌های L1 مقایسه می‌کند. خط پایه (فقط انگلیسی) به دقت 83.5٪ دست می‌یابد. L1 آلمانی بالاترین بهبود (+1.7٪) را نشان می‌دهد، در حالی که L1 ژاپنی بزرگترین کاهش (-11.4٪) را نشان می‌دهد. فرانسوی و لهستانی اثرات میانی را نشان می‌دهند. نتایج تأیید می‌کند که فاصله گونه‌شناختی با انتقال منفی همبستگی دارد.

جدول 1: دقت BLiMP بر اساس زبان L1

زبان L1	دقت (%)	تغییر از خط پایه
انگلیسی (خط پایه)	83.5	-
آلمانی	85.2	+1.7
فرانسوی	81.3	-2.2
لهستانی	78.6	-4.9
اندونزیایی	76.4	-7.1
ژاپنی	72.1	-11.4

10. مطالعه موردی

پدیده دستوری انگلیسی توافق فاعل-فعل را در نظر بگیرید. در آلمانی، که الگوهای توافق مشابهی دارد، مدل دقت بالایی (92٪) نشان می‌دهد. در ژاپنی، که فاقد توافق شخص-شمار است، مدل دقت پایینی (65٪) نشان می‌دهد. این انتقال منفی را نشان می‌دهد: دستور زبان L1 در کسب L2 اختلال ایجاد می‌کند. یک جفت جمله نمونه از BLiMP:

دستوری: "The dogs run fast."

غیردستوری: "The dogs runs fast."

مدل L1 آلمانی جمله دستوری را در 92٪ موارد به درستی شناسایی می‌کند، در حالی که مدل L1 ژاپنی فقط در 65٪ موارد.

11. جهت‌گیری‌های آینده

چارچوب SLABERT چندین راه را برای تحقیقات آینده باز می‌کند. اول، گسترش نمونه زبان برای شامل شدن زبان‌های متنوع‌تر از نظر گونه‌شناختی (مانند عربی، ماندارین، سواحیلی) یافته‌ها را تقویت می‌کند. دوم، گنجاندن سن کسب زبان به عنوان یک متغیر می‌تواند اثرات دوره بحرانی را در SLA مدل‌سازی کند (Lenneberg, 1967). سوم، آزمایش بر روی چندین L2 (مانند اسپانیایی، فرانسوی) تعمیم‌پذیری چارچوب را آزمایش می‌کند. چهارم، ترکیب SLABERT با مدل‌های شناختی مانند مدل رقابت (MacWhinney, 2005) می‌تواند شبیه‌سازی‌های واقع‌گرایانه‌تری ارائه دهد. پنجم، به کارگیری چارچوب برای مطالعه تحلیل زبانی (از دست دادن L1 به دلیل تسلط L2) یک گسترش طبیعی است. در نهایت، این چارچوب می‌تواند برای توسعه ابزارهای یادگیری زبان شخصی‌سازی شده که با L1 یادگیرنده سازگار می‌شوند، استفاده شود.

12. مراجع

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In Proceedings of EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In Proceedings of ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In Proceedings of EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. In Handbook of Bilingualism: Psycholinguistic Approaches.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In Proceedings of EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In Proceedings of EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.