یادگیری زبان دوم در مدل‌های زبانی عصبی: یک تحلیل زبان‌شناختی

1. مقدمه و مرور کلی

این پژوهش به بررسی یادگیری زبان دوم در مدل‌های زبانی عصبی می‌پردازد و تمرکز را از مطالعه متعارف فراگیری زبان اول آن‌ها تغییر می‌دهد. پرسش پژوهشی اصلی این است: فراگیری زبان اول یک مدل زبانی چگونه بر کارایی و ماهیت فراگیری دستور زبان بعدی آن در زبان دوم تأثیر می‌گذارد؟ این مطالعه یک سناریوی یادگیری زبان دوم شبیه‌سازیشده به انسان را برای مدل‌های زبانی دو زبانه طراحی می‌کند، ابتدا آن‌ها را بر روی یک زبان اول (فرانسوی، آلمانی، روسی، ژاپنی) پیش‌آموزش می‌دهد و سپس آن‌ها را در معرض انگلیسی به عنوان زبان دوم قرار می‌دهد. هدف، تحلیل انتقال بین‌زبانی از منظر زبان‌شناختی است، با استفاده از آزمون‌های قضاوت دستوری برای ارزیابی تعمیم نحوی، فراتر از معیارهای کلی مانند پرپلکسیتی.

2. روش‌شناسی و رویه آزمایشی

خط‌مشی آزمایشی، مسیر یادگیری زبان دوم انسان را با مواجهه کنترل‌شده داده تقلید می‌کند.

2.1 مرحله پیش‌آموزش زبان اول

یک مدل زبانی پوشیده (مانند مدل‌های مبتنی بر معماری‌هایی مانند BERT) از پایه بر روی یک پیکره تک‌زبانه از زبان اول انتخاب‌شده پیش‌آموزش داده می‌شود. این مرحله، شایستگی زبانی «مادری» اولیه مدل را ایجاد می‌کند.

2.2 مرحله فراگیری زبان دوم

مدل پیش‌آموزش‌دیده با زبان اول، سپس بر روی یک پیکره محدود انگلیسی (زبان دوم) آموزش بیشتری می‌بیند (ریزتنظیم می‌شود). این مطالعه شرایط مختلف داده را بررسی می‌کند: فقط متون تک‌زبانه زبان دوم، یا ترکیبی از جفت‌های ترجمه موازی زبان اول-دوم، با محدود کردن حجم داده آموزشی برای شبیه‌سازی ورودی واقع‌بینانه زبان دوم انسان.

2.3 ارزیابی: آزمون قضاوت دستوری

دانش زبانی زبان دوم مدل با استفاده از معیار BLiMP (معیار جفت‌های کمینه زبان‌شناختی) مورد سنجش قرار می‌گیرد. BLiMP پدیده‌های دستوری خاص (مانند مطابقت فاعل-فعل، وابستگی‌های شکاف-پرکننده) را با وادار کردن مدل به انتخاب بین یک جفت جمله دستوری و غیردستوری آزمایش می‌کند و تحلیلی دقیق از تعمیم نحوی ارائه می‌دهد.

3. سوگیری‌های استقرایی و روش‌های آموزش زبان دوم

آزمایش‌های اولیه مقایسه کردند که چگونه پیکربندی‌های مختلف داده آموزش زبان دوم بر سرعت و کیفیت فراگیری تأثیر می‌گذارند.

3.1 تنظیمات داده تک‌زبانه در مقابل دو زبانه

آموزش صرفاً بر روی متون تک‌زبانه زبان دوم در هر دو دوره، منجر به فراگیری سریع‌تر دستور زبان دوم در مقایسه با تنظیمات پیچیده‌تر شد.

3.2 تأثیر متون موازی

جالب توجه است که تغذیه جفت‌های ترجمه زبان اول-دوم به مدل زبانی در حین آموزش زبان دوم، فراگیری دانش دستوری زبان دوم را کند کرد. این نشان می‌دهد که همترازی موازی صریح ممکن است در مراحل اولیه یادگیری زبان دوم برای مدل‌های زبانی، نویز یا سیگنال یادگیری متضادی برای تعمیم نحوی محض ایجاد کند.

4. نتایج و تحلیل اصلی آزمایش

یافته‌های اصلی، تأثیرات قابل توجه زبان اول بر فراگیری زبان دوم در مدل‌های زبانی را آشکار می‌کنند.

نکات کلیدی

انتقال مثبت: پیش‌آموزش زبان اول، تعمیم زبان‌شناختی در زبان دوم را تسریع و بهبود می‌بخشد.
وابستگی به زبان اول: انتخاب زبان اول به طور قابل توجهی بر عملکرد زبان دوم تأثیر می‌گذارد.
دستاوردهای خاص به دستور: مزایا در تمام پدیده‌های زبان‌شناختی یکسان نیست.

4.1 دانش زبان اول، تعمیم زبان دوم را تقویت می‌کند

مدل‌های دارای پیش‌آموزش زبان اول، پس از مواجهه با زبان دوم، در مقایسه با مدل‌های آموزش‌دیده از پایه بر روی انگلیسی با داده معادل، عملکرد بهتری در معیار انگلیسی BLiMP کسب کردند. این نشان می‌دهد که دانش زبانی قبلی، حتی از یک زبان متفاوت، یک سوگیری استقرایی مفید برای یادگیری ساختارهای دستوری جدید فراهم می‌کند.

4.2 تأثیرات متفاوت انتخاب زبان اول

کارایی انتقال بر اساس زبان اول متفاوت بود. مدل‌هایی با زبان اول فرانسوی یا آلمانی، تعمیم زبان دوم (انگلیسی) قوی‌تری نسبت به مدل‌هایی با زبان اول روسی یا ژاپنی نشان دادند. این با رتبه‌بندی‌های دشواری یادگیری زبان در انسان (مانند Chiswick & Miller, 2004) همسو است، جایی که مجاورت زبانی (مانند ریشه‌های ژرمنی مشترک برای انگلیسی/آلمانی) انتقال را تسهیل می‌کند.

4.3 تأثیرات انتقال خاص به دستور

تقویت حاصل از پیش‌آموزش زبان اول، برای موارد ریخت‌شناختی (مانند صرف فعل) و نحوی (مانند ترتیب کلمات) بیشترین نمود را داشت. دستاوردها برای موارد کاملاً معنایی یا مواردی که نیازمند یکپارچه‌سازی نحو و معناشناسی بودند، کوچک‌تر بود. این نشان می‌دهد که دانش زبان اول عمدتاً به فراگیری قواعد ساختاری صوری زبان دوم کمک می‌کند.

5. تحلیل فرآیند فراگیری زبان دوم

5.1 پیشرفت و ناکارآمدی داده

فراگیری دانش زبان دوم از نظر داده ناکارآمد تشخیص داده شد. عملکرد تنها پس از آنکه مدل بارها (مثلاً ۵۰-۱۰۰ دوره) در معرض کل مجموعه داده محدود زبان دوم قرار گرفت، به طور قابل توجهی بهبود یافت، برخلاف انسان‌ها که می‌توانند از مثال‌های کمتری تعمیم دهند.

5.2 زوال دانش زبان اول

در طول آموزش زبان دوم، عملکرد مدل در وظایف زبان اول اصلی آن تنزل یافت. این پدیده، مشابه «فراموشی فاجعه‌بار» در یادگیری مستمر، تفاوتی کلیدی با دوزبانگی متعادل انسان را برجسته می‌کند و نیاز به تکنیک‌هایی برای حفظ تعادل دانش زبانی را نشان می‌دهد.

6. جزئیات فنی و چارچوب ریاضی

هسته مدل زبانی بر اساس معماری ترنسفورمر و هدف مدل‌سازی زبان پوشیده است. در طول پیش‌آموزش زبان اول، مدل با پیش‌بینی توکن‌های تصادفی پوشیده $w_t$ در یک دنباله $\mathbf{x} = (w_1, ..., w_T)$ بر اساس بافت آن‌ها یاد می‌گیرد. هدف، بیشینه‌کردن درست‌نمایی لگاریتمی است: $$\mathcal{L}_{MLM} = \mathbb{E}_{\mathbf{x} \sim \mathcal{D}} \sum_{t \in M} \log P(w_t | \mathbf{x}_{\backslash t}; \theta)$$ که در آن $M$ مجموعه موقعیت‌های پوشیده است، $\mathcal{D}$ پیکره زبان اول است و $\theta$ پارامترهای مدل هستند. در طول فراگیری زبان دوم، این هدف بر روی پیکره زبان دوم $\mathcal{D}_{L2}$ اعمال می‌شود، که از پارامترهای $\theta_{L1}$ شروع شده و به $\theta_{L1+L2}$ ریزتنظیم می‌شود. قضاوت دستوری روی BLiMP از نمرات احتمال نسبی مدل برای یک جفت کمینه $(s_{grammatical}, s_{ungrammatical})$ استفاده می‌کند: $$P(s_{grammatical}) > P(s_{ungrammatical})$$ که در آن $P(s) = \prod_{t=1}^{T} P(w_t | w_{

7. نتایج و توصیف نمودار

شکل ۱ (نمودار رویه آزمایشی): نمودار به صورت بصری خط‌مشی سه مرحله‌ای را ترسیم می‌کند. از چپ به راست: ۱) چندین جعبه با برچسب «مدل زبانی به فرانسوی»، «مدل زبانی به آلمانی» و غیره، که نشان‌دهنده مدل‌های مختلف زبان اول پس از پیش‌آموزش هستند. ۲) یک پیکان با برچسب «مواجهه با زبان دوم (انگلیسی)» از این مدل‌ها به یک جعبه مرکزی حاوی متن «پیکره» و آیکون معیار BLiMP اشاره می‌کند. ۳) یک پیکان دیگر با برچسب «آزمون دانش زبان دوم» از جعبه مرکزی به یک جعبه نهایی که نتیجه ارزیابی «Aa» (احتمالاً نشان‌دهنده نمرات دقت) را نشان می‌دهد، اشاره می‌کند. نمودار به طور مؤثری تنظیمات مقایسه‌ای را انتقال می‌دهد که در آن مدل‌های با پایه زبان اول متفاوت، تحت یک رژیم یادگیری و ارزیابی زبان دوم یکسان قرار می‌گیرند.

نمایش بصری نتیجه کلیدی (ضمنی): اگرچه در متن ارائه‌شده به صراحت نموداربندی نشده است، نتایج معمولاً در نمودارهای میله‌ای یا خطی نشان داده می‌شوند که: ۱) نمرات دقت BLiMP برای انگلیسی (زبان دوم) روی محور y، گروه‌بندی شده بر اساس زبان اول مدل (فرانسوی، آلمانی، روسی، ژاپنی) روی محور x، که به وضوح مزیت فرانسوی/آلمانی را نشان می‌دهد. ۲) یک نمودار خطی که دقت زبان دوم (محور y) را در طول دوره‌ها/تکرارهای آموزش (محور x) برای مدل‌های مختلف زبان اول نشان می‌دهد، که منحنی یادگیری کند و ناکارآمد از نظر داده را نشان می‌دهد. ۳) یک نمودار میله‌ای گروه‌بندی‌شده که نشان‌دهنده دستاوردهای دقت از پیش‌آموزش زبان اول برای زیردسته‌های مختلف BLiMP (ریخت‌شناسی، نحو، معناشناسی و غیره) است، که دستاوردهای بزرگ‌تر برای پدیده‌های نحوی صوری را برجسته می‌کند.

8. چارچوب تحلیل: یک مورد نمونه

مطالعه موردی: تحلیل انتقال زبان اول-دوم برای مطابقت فاعل-فعل

۱. پدیده: انگلیسی نیازمند تصریف فعل برای مطابقت با شمار فاعل است (مثلاً «The dog runs» در مقابل «The dogs run»).

۲. فرضیه تأثیر زبان اول: یک مدل زبانی پیش‌آموزش‌دیده بر فرانسوی (که دارای مطابقت غنی فاعل-فعل است) ممکن است در مقایسه با مدلی پیش‌آموزش‌دیده بر ژاپنی (که فاقد تصریف فعل برای شمار است)، بازنمایی نهفته قوی‌تری برای مفهوم «مطابقت» بین عناصر جمله داشته باشد. این سوگیری ساختاری انتزاعی می‌تواند یادگیری تحقق خاص این قاعده در انگلیسی را تسهیل کند.

۳. آزمایش با BLiMP: مدل با جفت‌های کمینه مانند زیر مواجه می‌شود:
دستوری: The key to the cabinets *is* on the table.
غیردستوری: The key to the cabinets *are* on the table.
مدل باید احتمال بالاتری به جمله دستوری اختصاص دهد.

۴. نتیجه مورد انتظار: پیش‌بینی می‌شود که مدل با زبان اول فرانسوی، در اوایل آموزش زبان دوم، دقت بالاتری در این زیرمجموعه BLiMP نسبت به مدل با زبان اول ژاپنی کسب کند، که نشان‌دهنده انتقال مثبت یک مفهوم دستوری انتزاعی است.

۵. کاربرد چارچوب: این مورد را می‌توان با سنجش بازنمایی‌های داخلی مدل (مثلاً با استفاده از طبقه‌بندهای تشخیصی) پس از آموزش زبان اول صورتبندی کرد تا ببینیم آیا یک آشکارساز «مطابقت شمار» را می‌توان به راحتی بیشتر از تعبیه‌های مدل با زبان اول فرانسوی آموزش داد. سپس، ردیابی منحنی عملکرد روی مطابقت انگلیسی در طول آموزش زبان دوم، سود انتقال را کمّی می‌کند.

9. چشم‌انداز کاربردی و جهت‌های آینده

آموزش کارآمد مدل‌های چندزبانه: بینش‌ها می‌توانند راهبردهای یادگیری برنامه‌درسی را هدایت کنند—پیش‌آموزش بر روی زبان‌های «مجاور» از نظر زبانی قبل از هدف‌گیری زبان‌های دور، برای بهبود کارایی نمونه و عملکرد نهایی.
ابزارهای شخصی‌سازی‌شده یادگیری زبان: مربیان هوش مصنوعی می‌توانند محتوای آموزشی را بر اساس زبان مادری یادگیرنده تطبیق دهند، بر حوزه‌های دستوری که احتمال انتقال منفی در آن‌ها وجود دارد تأکید کنند (الهام‌گرفته از تحلیل تقابلی).
کاهش فراموشی فاجعه‌بار: کار آینده باید به مسئله زوال زبان اول در طول یادگیری زبان دوم بپردازد. تکنیک‌هایی از یادگیری مستمر (مانند تثبیت وزن الاستیک، بازپخش تجربه) می‌توانند ادغام شوند تا مدل‌هایی ایجاد شوند که شایستگی چندزبانه پایدار را حفظ کنند.
سنجه‌های زبان‌شناختی عمیق‌تر: گسترش تحلیل فراتر از نحو به کاربردشناسی، گفتمان و شایستگی جامعه‌شناختی زبانی در فراگیری زبان دوم مدل‌های زبانی.
فراگیری زبان دوم چندوجهی: بررسی چگونگی فراگیری یک «زبان دوم» توسط مدل‌های بینایی-زبان در یک بافت چندوجهی.

10. منابع

Oba, M., Kuribayashi, T., Ouchi, H., & Watanabe, T. (2023). Second Language Acquisition of Neural Language Models. arXiv preprint arXiv:2306.02920.
Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877-1901.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30.
Chiswick, B. R., & Miller, P. W. (2004). Linguistic Distance: A Quantitative Measure of the Distance Between English and Other Languages. Journal of Multilingual and Multicultural Development, 26(1), 1-11.
Warstadt, A., Singh, A., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs. Proceedings of the Society for Computation in Linguistics, 3(1), 217-229.
Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT 2019.
Kirkpatrick, J., et al. (2017). Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences, 114(13), 3521-3526.

11. تحلیل اصلی و تفسیر کارشناسی

بینش اصلی

این مقاله فقط یک مطالعه افزایشی دیگر در پردازش زبان طبیعی نیست؛ بلکه یک چرخش جسورانه و ضروری از نگاه به مدل‌های زبانی به عنوان پردازنده‌های یکپارچه «زبان» به دیدن آن‌ها به عنوان سیستم‌های شناختی شبیه‌سازی‌شده با یک مسیر تحولی است. بینش اصلی این است که «زبان مادری» یک مدل زبانی اساساً سوگیری‌های یادگیری آن را شکل می‌دهد، و انتقال بین‌زبانی را نه به عنوان یک امتیاز رایگان، بلکه به عنوان یک فرآیند ساختاریافته، قابل پیش‌بینی و ناهموار می‌سازد. یافته‌ای که داده موازی می‌تواند فراگیری نحوی را مختل کند، یک بمب برای دگم استاندارد آموزش چندزبانه است و نشان می‌دهد که یادگیری زبان دوم در مراحل اولیه در ماشین‌ها، مانند انسان‌ها، ممکن است بیشتر از مواجهه تک‌زبانه غوطه‌ورکننده سود ببرد تا از تمرینات ترجمه صریح.

جریان منطقی

منطق نویسندگان تحسین‌برانگیز است: ۱) جداسازی متغیر (هویت زبان اول) در حالی که معماری و داده زبان دوم کنترل می‌شود. ۲) استفاده از یک ارزیابی مبتنی بر زبان‌شناسی (BLiMP) به جای ریزتنظیم خاص وظیفه، که اغلب دانش زبانی را با اکتشافات خاص وظیفه درهم می‌آمیزد. ۳) مقایسه با معیارهای انسانی (رتبه‌بندی‌های دشواری زبان)، که یک نقطه اعتبارسنجی خارجی حیاتی را فراهم می‌کند که اغلب در تحقیقات محض یادگیری ماشین مفقود است. این دقت روش‌شناختی به آن‌ها اجازه می‌دهد از همبستگی (زبان اول بر عملکرد زبان دوم تأثیر می‌گذارد) به سمت یک فرضیه مکانیکی (انتقال دانش ساختاری انتزاعی) حرکت کنند.

نقاط قوت و ضعف

نقاط قوت: نقطه قوت اولیه مطالعه، پل‌سازی بین‌رشته‌ای آن است. با صورتبندی مسئله بر اساس نظریه یادگیری زبان دوم، فرضیه‌هایی تولید می‌کند که برای پردازش زبان طبیعی نوآورانه هستند (مانند آزمایش انتقال تفاضلی در پدیده‌های دستوری). تنظیم داده کنترل‌شده در مقیاس انسانی، یک نقطه مقابل طراوت‌بخش برای پارادایم «داده بیشتر همیشه بهتر است» است، که مدل‌ها را مجبور به تعمیم می‌کند، نه حفظ کردن.

نقاط ضعف انتقادی: فیل در اتاق، مقیاس است. آزمایش‌ها با مدل‌های زبانی نسبتاً کوچک انجام شده‌اند. همانطور که تحقیقات «قوانین مقیاس» از OpenAI و دیگران برجسته کرده‌اند، رفتار مدل می‌تواند با اندازه به طور چشمگیری تغییر کند. آیا مزیت زبان اول فرانسوی برای یک مدل ۵۰۰ میلیارد پارامتری حفظ می‌شود، یا ظرفیت محض، سوگیری استقرایی را تحت‌الشعاع قرار می‌دهد؟ علاوه بر این، تمرکز بر نحو از طریق BLiMP، اگرچه دقیق است، قلمرو وسیع انتقال معنایی و کاربردشناسی را نادیده می‌گیرد که برای روانی به همان اندازه حیاتی هستند. فراموشی فاجعه‌بار مشاهده‌شده زبان اول نیز به یک محدودیت معماری اساسی در مقایسه با انعطاف‌پذیری عصبی مغز انسان اشاره می‌کند.

بینش‌های عملی

برای متخصصان، این پژوهش یک الگوی راهنما برای پیش‌آموزش راهبردی ارائه می‌دهد. فقط بر روی یک سوپ تصادفی از زبان‌ها پیش‌آموزش ندهید. اگر هدف، عملکرد بالا در زبان X است، ابتدا بر روی نزدیک‌ترین خویشاوندان زبانی آن برای راه‌اندازی یادگیری ساختاری پیش‌آموزش دهید. برای پژوهشگران، دستور کار روشن است: ۱) مقیاس‌دادن آزمایش‌ها به اندازه مدل‌های زبانی بزرگ مدرن برای آزمایش استحکام این یافته‌ها. ۲) ادغام تکنیک‌های یادگیری مستمر از ابتدا برای مقابله با زوال زبان اول—این دیگر یک مسئله حاشیه‌ای نیست، بلکه برای ساخت عامل‌های چندزبانه پایدار مرکزی است. ۳) توسعه معیارهای زبان‌شناختی جامع‌تر که فراتر از جفت‌های کمینه می‌روند و انسجام گفتمان و تناسب کاربردشناسی را شامل می‌شوند، شاید از چارچوب‌هایی مانند چارچوب مرجع مشترک اروپایی برای زبان‌ها الهام بگیرند. در نهایت، این کار هدف را از ساختن مدل‌هایی که زبان‌ها را می‌دانند به سمت ساختن مدل‌هایی که آن‌ها را به روشی شبیه انسان می‌آموزند تغییر می‌دهد—یک جستجوی به مراتب بلندپروازانه‌تر و از نظر فکری غنی‌تر.