SLABERT: مدلسازی فراگیری زبان دوم با BERT

1. مقدمه

این مقاله به شکاف مهمی در پژوهش پردازش زبان طبیعی (NLP) می‌پردازد: مدلسازی نظام‌مند انتقال بین‌زبانی منفی در فراگیری زبان دوم (SLA). در حالی که NLP به‌طور گسترده انتقال مثبت را برای وظایفی مانند پیش‌آموزش مدل‌های چندزبانه مطالعه کرده است، تأثیرات زیانبار زبان مادری (L1) گوینده بر یادگیری یک زبان خارجی (L2) همچنان کمتر بررسی شده است. نویسندگان SLABERT (Second Language Acquisition BERT) را معرفی می‌کنند، یک چارچوب نوین که یادگیری زبانی متوالی را برای بررسی همزمان اثرات انتقال تسهیل‌کننده و تداخلی مدل می‌کند و از داده‌های معتبر بوم‌شناختی گفتار کودک‌محور (CDS) استفاده می‌نماید.

2. پیشینه و کارهای مرتبط

2.1 انتقال بین‌زبانی در فراگیری زبان دوم

در فراگیری زبان دوم انسانی، انتقال بین‌زبانی به تأثیر ساختارهای زبانی L1 بر عملکرد L2 اشاره دارد. انتقال مثبت زمانی رخ می‌دهد که ساختارهای مشابه یادگیری را تسهیل کنند (مانند کمک واژگان هم‌ریشه اسپانیایی به یادگیری واژگان فرانسوی). انتقال منفی (یا تداخل) زمانی اتفاق می‌افتد که تفاوت‌ها باعث خطا می‌شوند (مانند حذف حروف تعریف توسط گویشوران ژاپنی در انگلیسی). میزان انتقال اغلب با فاصله گونه‌شناختی بین زبان‌ها مرتبط است.

2.2 پردازش زبان طبیعی و انتقال مدل زبانی

کارهای قبلی NLP (مانند mBERT، XLM-R) بر استفاده از داده‌های چندزبانه برای انتقال مثبت در یادگیری صفر-نمونه یا کم-نمونه متمرکز بوده‌اند. رویکردهایی مانند TILT (آزمون سوگیری استقرایی از طریق انتقال مدل زبانی) بررسی می‌کنند که چه داده‌هایی ویژگی‌های قابل تعمیم را القا می‌کنند. با این حال، این مدل‌ها فرآیند یادگیری متوالی و مرتب‌شده بر اساس سن فراگیری زبان دوم انسانی را شبیه‌سازی نمی‌کنند و همچنین به‌طور کافی تضاد و تداخل ذاتی در انتقال منفی را مدل نمی‌کنند.

3. چارچوب SLABERT

3.1 مدلسازی فراگیری زبان دوم به صورت متوالی

SLABERT توالی یادگیری انسانی را مدل می‌کند: ابتدا پیش‌آموزش بر روی داده‌های L1 (زبان مادری)، سپس تنظیم دقیق بر روی داده‌های L2 (زبان هدف، انگلیسی). این تنظیم متوالی برای مشاهده چگونگی تأثیر دانش ریشه‌دار L1 بر اکتساب L2 حیاتی است و به مدل اجازه می‌دهد تا هم اثرات انتقال مثبت و هم منفی را نشان دهد.

3.2 مجموعه داده MAO-CHILDES

یک دستاورد کلیدی، مجموعه داده Multilingual Age-Ordered CHILDES (MAO-CHILDES) است. این مجموعه شامل گفتار کودک‌محور از پنج زبان گونه‌شناختی متنوع است: آلمانی، فرانسوی، لهستانی، اندونزیایی و ژاپنی. استفاده از CDS در مقایسه با متن‌های گردآوری شده از وب، شبیه‌سازی طبیعی‌تر و معتبرتر بوم‌شناختی از ورودی زبانی اولیه کودک ارائه می‌دهد.

3.3 روش‌شناسی مبتنی بر TILT

چارچوب، روش‌شناسی TILT را اقتباس می‌کند. مدل‌ها ابتدا بر روی CDS زبان L1 از MAO-CHILDES پیش‌آموزش می‌بینند. سپس بر روی داده‌های انگلیسی تنظیم دقیق می‌شوند. عملکرد بر روی معیار سنجش BLiMP، مجموعه‌ای از قضاوت‌های دستوری، ارزیابی می‌شود. تفاوت عملکرد بین مدل‌های دارای پیش‌آموزش L1 مختلف و یک خط پایه فقط انگلیسی، اثرات انتقال را کمّی می‌کند.

4. تنظیمات آزمایشی و نتایج

یافته‌های کلیدی آزمایشی

زبان‌های مورد مطالعه: ۵ (آلمانی، فرانسوی، لهستانی، اندونزیایی، ژاپنی)
متریک اصلی: عملکرد در BLiMP (۶۷ زیروظیفه)
مقایسه اصلی: مدل‌های دارای پیش‌آموزش L1 در مقابل خط پایه فقط انگلیسی

4.1 فاصله خانواده زبانی و انتقال

نتایج به شدت از فرضیه SLA پشتیبانی می‌کند: فاصله گونه‌شناختی بیشتر، انتقال منفی بیشتری را پیش‌بینی می‌کند. برای مثال، مدل‌های پیش‌آموزش دیده بر روی ژاپنی (زبانی دور از انگلیسی) تداخل بیشتری نشان دادند و عملکرد دستوری نهایی انگلیسی پایین‌تری داشتند نسبت به مدل‌های پیش‌آموزش دیده بر روی آلمانی (خویشاوند نزدیک‌تر). این موضوع دشواری‌ای را که یادگیرندگان انسانی تجربه می‌کنند، بازتاب می‌دهد.

4.2 گفتار مکالمه‌ای در مقابل گفتار از پیش نوشته شده

این مطالعه دریافت که داده‌های گفتار مکالمه‌ای (CDS) اکتساب L2 را بیش از داده‌های گفتار از پیش نوشته شده تسهیل می‌کنند. این امر نشان می‌دهد که ماهیت طبیعی، تکراری و ساده‌شده CDS، سوگیری استقرایی بهتری برای یادگیری ساختارهای زبانی هسته‌ای فراهم می‌کند که به صورت مثبت به یک زبان جدید منتقل می‌شوند.

4.3 عملکرد در معیار سنجش BLiMP

عملکرد در معیار سنجش BLiMP برای کمّی‌سازی دانش دستوری استفاده شد. الگوی نتایج در ۶۷ پدیده زبانی، دیدی دقیق از انتقال ارائه داد. برخی ساختارهای دستوری خاص (مانند مطابقت فاعل-فعل، جزایر نحوی) حساسیت آشکاری به تداخل L1 نشان دادند، در حالی که دیگران (مانند ترتیب کلمات پایه) مقاومت بیشتری نشان دادند یا حتی از L1‌های مرتبط تسهیل دریافت کردند.

توضیح نمودار (تصوری): یک نمودار میله‌ای نمرات دقت BLiMP را روی محور y برای شرایط مختلف مدل روی محور x نشان می‌دهد: «خط پایه فقط انگلیسی»، «L1=آلمانی»، «L1=فرانسوی»، «L1=لهستانی»، «L1=اندونزیایی»، «L1=ژاپنی». یک روند نزولی واضح از آلمانی به ژاپنی به صورت بصری اثر فاصله زبانی را نشان می‌دهد. یک نمودار خطی دوم می‌تواند شاخص فاصله گونه‌شناختی برای هر L1 را روی آن ترسیم کند و همبستگی منفی قوی با دقت نهایی را نشان دهد.

5. تحلیل فنی و بینش‌های کلیدی

5.1 بینش کلیدی

بمب این مقاله، کمّی‌سازی موفقیت‌آمیز یک نظریه دیرینه زبان‌شناسی در یک مدل ترنسفورمر است: انتقال منفی یک اشکال نیست، بلکه یک ویژگی قابل پیش‌بینی از یادگیری متوالی است. با قرار دادن تداخل L1 به عنوان یک نتیجه قابل اندازه‌گیری به جای نویزی که باید حذف شود، SLABERT هدف NLP چندزبانه را بازتعریف می‌کند. این فقط ساختن مدل‌هایی نیست که به زبان‌های زیادی صحبت می‌کنند، بلکه درک هزینه شناختی مسیر بین آن‌هاست. این امر تمرکز را از چندزبانه‌گرایی ایستا و موازی به اکتساب پویا و متوالی تغییر می‌دهد - آنالوگی بسیار نزدیک‌تر به تجربه انسانی.

5.2 جریان منطقی

استدلال به زیبایی ساخته شده است. با شناسایی یک غفلت آشکار در NLP (بی‌توجهی به انتقال منفی) آغاز می‌شود، سپس فرض می‌کند که آموزش متوالی بر روی داده‌های معتبر بوم‌شناختی (CDS) کلید مدلسازی آن است. مجموعه داده MAO-CHILDES و روش‌شناسی TILT ابزارها را فراهم می‌کنند. آزمایش تمیز است: L1 را تغییر دهید، L2 را ثابت نگه دارید و خروجی را در یک آزمون دستوری کنترل‌شده اندازه‌گیری کنید. نتایج به وضوح فرضیه اولیه (فاصله → تداخل) را تأیید می‌کنند و یک بینش ثانویه و عملی (CDS > از پیش نوشته شده) به دست می‌دهند. منطق، از نقد به ساخت و سپس اعتبارسنجی حرکت می‌کند و بدون نقص است.

5.3 نقاط قوت و ضعف

نقاط قوت: چارچوب مفهومی درخشان است و یک خلأ واقعی را پر می‌کند. استفاده از CDS الهام‌بخش است و فراتر از داده‌های استاندارد Common Crawl حرکت می‌کند. طراحی آزمایشی قوی است و نتایج قانع‌کننده هستند. انتشار کد و داده ستودنی است و پژوهش را تشویق خواهد کرد.

نقاط ضعف: دامنه محدود است. پنج زبان یک شروع است، اما برای ساختن یک نقشه گونه‌شناختی جامع کافی نیست. ارزیابی صرفاً دستوری است (BLiMP) و واج‌شناسی، کاربردشناسی و انتقال واژگان را نادیده می‌گیرد. مدل یک نماینده ساده‌شده است؛ فاقد «دوره حساس» یا عوامل اجتماعی/انگیزشی یادگیری انسانی است. همانطور که نویسندگان مقاله بنیادین Attention is All You Need خاطرنشان کردند، مقیاس‌پذیری کلید توانایی‌های نوظهور است؛ مشخص نیست که آیا این اثرات در مقیاس ۱۰۰ میلیارد پارامتر نیز پابرجا می‌مانند یا خیر.

5.4 بینش‌های عملیاتی

برای شرکت‌های فناوری آموزشی (EdTech): این پژوهش یک نقشه راه برای مربیان هوش مصنوعی فراهم می‌کند که الگوهای خطای خاص L1 را تشخیص می‌دهند. به جای درس‌های دستوری عمومی، یک پلتفرم می‌تواند پیش‌بینی کند که یک یادگیرنده ژاپنی با حروف تعریف و یک یادگیرنده روسی با زمان‌های فعل دست‌وپنجه نرم خواهد کرد و تمرینات هدفمند ارائه دهد.

برای پژوهشگران هوش مصنوعی: هنگام ساختن مدل‌های چندزبانه یا بین‌زبانی، فقط داده‌ها را مخلوط نکنید. ترتیب یادگیری را در نظر بگیرید. پیش‌آموزش بر روی یک زبان مرتبط ممکن است شروع بهتری نسبت به پیش‌آموزش بر روی یک زبان دور بدهد، حتی اگر زبان دور داده بیشتری داشته باشد. انتخاب داده پیش‌آموزش یک ابرپارامتر با پیامدهای شناختی است.

برای زبان‌شناسان: این یک ابزار قدرتمند جدید برای آزمون نظریه‌های SLA است. اکنون می‌توانید آزمایش‌های کنترل‌شده و در مقیاس بزرگ «یادگیرنده مجازی» را اجرا کنید که به دلیل محدودیت‌های زمانی و اخلاقی با سوژه‌های انسانی غیرممکن است.

6. جزئیات فنی و فرمول‌بندی ریاضی

هسته روش‌شناسی TILT/SLABERT شامل اندازه‌گیری اثر انتقال است. فرض کنید $M_{L1}$ مدلی باشد که بر روی زبان L1 پیش‌آموزش دیده و سپس بر روی انگلیسی (L2) تنظیم دقیق شده است. فرض کنید $M_{\emptyset}$ مدلی باشد که فقط بر روی انگلیسی آموزش دیده است (خط پایه). فرض کنید $\mathcal{B}$ مجموعه ارزیابی BLiMP را نشان دهد و $\text{Score}(M, \mathcal{B})$ میانگین دقت مدل بر روی آن باشد.

اثر انتقال $\Delta_{L1}$ به صورت زیر محاسبه می‌شود:

$$\Delta_{L1} = \text{Score}(M_{L1}, \mathcal{B}) - \text{Score}(M_{\emptyset}, \mathcal{B})$$

مقدار مثبت $\Delta_{L1}$ نشان‌دهنده انتقال مثبت (تسهیل) است، در حالی که مقدار منفی $\Delta_{L1}$ نشان‌دهنده انتقال منفی (تداخل) است. ادعای مرکزی مقاله این است که $\Delta_{L1}$ تابعی از فاصله گونه‌شناختی $d(L1, L2)$ است:

$$\Delta_{L1} \approx f(d(L1, L2)) \quad \text{که در آن} \quad \frac{\partial f}{\partial d} < 0$$

این رابطه به صورت تجربی با استفاده از متریک‌های فاصله از پایگاه‌های داده زبان‌شناسی مانند WALS (اطلس جهانی ساختارهای زبانی) اعتبارسنجی شده است.

7. چارچوب تحلیل: نمونه موردی

مطالعه موردی: پیش‌بینی خطاهای حرف تعریف برای یادگیرندگان با L1 ژاپنی

گام ۱ - تحلیل L1: زبان ژاپنی فاقد حروف تعریف اجباری («یک»، «the») است. موضوع و معین بودن را از طریق روش‌های دیگر (مانند نشانه «wa») مشخص می‌کند.

گام ۲ - شبیه‌سازی SLABERT: یک مدل BERT بر روی CDS ژاپنی (MAO-CHILDES-JP) پیش‌آموزش می‌بیند و یاد می‌گیرد که معین بودن با کلمات اختصاصی قبل از اسمها نشان داده نمی‌شود. سپس بر روی متن انگلیسی تنظیم دقیق می‌شود.

گام ۳ - پیش‌بینی: در طول تنظیم دقیق انگلیسی، مدل باید سوگیری اولیه خود را بازنویسی کند. چارچوب SLABERT پیش‌بینی می‌کند که این کار دشوار خواهد بود و منجر به انتقال منفی می‌شود. هنگام ارزیابی بر روی زیرآزمون‌های BLiMP برای استفاده از حروف تعریف (مانند مطابقت حرف تعریف-اسم)، $M_{Japanese}$ عملکرد به مراتب بدتری نسبت به $M_{\emptyset}$ خواهد داشت.

گام ۴ - همبستگی انسانی: این موضوع مستقیماً خطای رایجی را بازتاب می‌دهد که در آن یادگیرندگان ژاپنی انگلیسی حروف تعریف را حذف می‌کنند (مانند «I went to *store»). نقطه شکست مدل، یک آسیب‌پذیری خاص و نظریه‌محور را شناسایی می‌کند.

این یک مورد «بدون کد» است که نشان می‌دهد چارچوب چگونه نظریه زبان‌شناسی (گام ۱) را به مسیر یادگیری مدل (گام ۲ و ۳) و سپس به یک پیش‌بینی قابل آزمون درباره الگوهای خطای شبه-انسانی (گام ۴) متصل می‌کند.

8. کاربردهای آتی و جهت‌های پژوهشی

هوش مصنوعی یادگیری زبان شخصی‌شده: توسعه مربیانی که چالش‌های خاص L1 یادگیرنده را از پیش تشخیص می‌دهند و برنامه درسی را به صورت بلادرنگ تطبیق می‌دهند، مشابه نحوه عملکرد آزمون‌های تطبیقی اما برای مسیرهای اکتساب زبان.
بهبود پیش‌آموزش مدل چندزبانه: اطلاع‌رسانی برنامه‌های ترکیب داده. به جای نمونه‌برداری یکنواخت، می‌توان یادگیری برنامه‌درسی را اعمال کرد: با زبان‌های گونه‌شناختی نزدیک به هدف شروع کنید، به تدریج زبان‌های دورتر را معرفی کنید تا تداخل فاجعه‌بار به حداقل برسد.
کشف گونه‌شناسی زبانی: استفاده از الگوهای انتقال منفی/مثبت در مدل‌ها در میان جفت زبان‌های زیاد برای استنباط ویژگی‌ها یا فواصل گونه‌شناختی نهفته، که به طور بالقوه می‌تواند روابطی را کشف کند که هنوز در منابعی مانند WALS فهرست نشده‌اند.
مدلسازی اکتساب غیرمعمول: گسترش چارچوب برای شبیه‌سازی اکتساب تحت شرایط مختلف، مانند اکتساب دو زبان اول همزمان یا اکتساب یک زبان سوم (L3)، که در آن انتقال می‌تواند هم از L1 و هم از L2 سرچشمه بگیرد.
ادغام با داده گفتار و چندوجهی: گنجاندن انتقال واجی با استفاده از CDS مبتنی بر گفتار، مدلسازی لهجه و تداخل تلفظ، که جزء اصلی فراگیری زبان دوم انسانی است و اغلب در NLP مبتنی بر متن نادیده گرفته می‌شود.

9. منابع

Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic influence in language and cognition. Routledge.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Conneau, A., et al. (2019). Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL).
Warstadt, A., et al. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the Association for Computational Linguistics.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems (NeurIPS). [منبع معتبر خارجی درباره معماری ترنسفورمر]
Berzak, Y., et al. (2014). How to train your language model: A study of the effect of input data on language model acquisition. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (ACL).
Dryer, M. S., & Haspelmath, M. (Eds.). (2013). The World Atlas of Language Structures Online. Max Planck Institute for Evolutionary Anthropology. [منبع معتبر خارجی برای فاصله گونه‌شناختی]

تحلیل اصلی: پل زدن بین مدل‌های محاسباتی و شناخت انسانی

مقاله SLABERT گامی محوری به سوی همسو کردن زبان‌شناسی محاسباتی با نظریه‌های شناختی اکتساب زبان است. برای مدت‌ها طولانی، رویکرد NLP به چندزبانه‌گرایی تحت سلطه پارادایم «پیکره موازی» بوده است - آموزش بر روی متن‌های عظیم و همزمان در چندین زبان برای دستیابی به شایستگی ایستا و همه‌زبانی. این با نحوه یادگیری زبان‌ها توسط انسان‌ها به شدت متفاوت است: به صورت متوالی، با اینکه زبان اول به طور عمیقی اکتساب زبان دوم را شکل می‌دهد، اغلب از طریق تضاد. همانطور که در ادبیات بنیادین SLA توسط پژوهشگرانی مانند جارویس و پاولنکو خاطرنشان شده است، این تضاد (انتقال منفی) صرفاً خطا نیست، بلکه پنجره‌ای به معماری شناختی زیربنایی است. نبوغ SLABERT در این است که یک مدل ترنسفورمر را مجبور می‌کند تا در این تنگنای متوالی شبه-انسانی قرار گیرد و شکاف‌های قابل پیش‌بینی که ظاهر می‌شوند را مشاهده کند.

از نظر فنی، دستاورد مقاله دوگانه است. اول، یک پدیده شناختی پیچیده را با استفاده از یک ابزار NLP تثبیت‌شده (TILT) عملیاتی می‌کند. فرمول‌بندی ریاضی اثر انتقال ($\Delta_{L1}$) ساده اما قدرتمند است و متریکی واضح برای مفهومی که قبلاً کیفی بود فراهم می‌کند. دوم، ایجاد مجموعه داده MAO-CHILDES به یک مسئله حیاتی اعتبار بوم‌شناختی می‌پردازد. آموزش بر روی متن‌های خزیده شده از وب، همانطور که برای مدل‌هایی مانند GPT-3 یا PaLM انجام می‌شود، سوگیری‌هایی به سمت زبان رسمی و ویرایش‌شده ایجاد می‌کند. CDS، همانطور که در اینجا استفاده شده است، «داده پیش‌آموزش» واقعی برای اکتساب زبان انسانی است - درهم‌برهم، تکراری و داربست‌بندی شده. این انتخاب، یافته‌های روانشناسی رشد را بازتاب می‌دهد و مسیر یادگیری مدل را از نظر شناختی معقول‌تر می‌سازد.

با این حال، مدل همچنان یک ساده‌سازی است. فاقد حلقه‌های تقویت تعامل اجتماعی و اثرات دوره حساس مشاهده‌شده در یادگیرندگان انسانی است. مقایسه آن با دیگر مدل‌های برجسته آموزنده است. در حالی که مدل‌های سبک CycleGAN با یافتن یک فضای نهان مشترک از طریق تابع زیان متخاصم ($\min_G \max_D V(D, G)$) یاد می‌گیرند تا بین حوزه‌ها ترجمه کنند، انتقال در SLABERT درباره ترجمه نیست، بلکه درباره سازگاری متوالی است، با زیانی که از تضاد معماری ناشی می‌شود نه از یک متمایزکننده. تداخل مشاهده‌شده بیشتر شبیه «فراموشی فاجعه‌بار» در یادگیری مداوم است، اما در اینجا سیگنال مطلوب است، نه مشکلی که باید حل شود.

جذاب‌ترین پیامد برای آینده آموزش کمک‌شده توسط هوش مصنوعی است. با نقشه‌برداری از «منظره تداخل» بین زبان‌ها، می‌توانیم فراتر از اپلیکیشن‌های زبانی یک‌اندازه-برای-همه حرکت کنیم. پلتفرمی را تصور کنید که با دانستن اینکه L1 شما ترکی است، از روز اول شما را به طور پیشگیرانه روی ترتیب کلمات انگلیسی و استفاده از حروف تعریف تمرین می‌دهد، زیرا مدل پیش‌بینی می‌کند که این‌ها نقاط درد اصلی شما خواهند بود. این پژوهش ستون فقرات محاسباتی برای چنین ابزارهای یادگیری نظریه‌محور و فوق‌شخصی‌شده را فراهم می‌کند. هدف را از ساختن هوش‌های مصنوعی چندزبانه به ساختن هوش‌های مصنوعی‌ای تغییر می‌دهد که سفر دشوار، غیرخطی و عمیقاً شخصی دوزبانه شدن را درک می‌کنند.