2.1 مرحله پیشآموزش زبان اول
یک مدل زبانی پوشیده (مانند مدلهای مبتنی بر معماریهایی مانند BERT) از پایه بر روی یک پیکره تکزبانه از زبان اول انتخابشده پیشآموزش داده میشود. این مرحله، شایستگی زبانی «مادری» اولیه مدل را ایجاد میکند.
این پژوهش به بررسی یادگیری زبان دوم در مدلهای زبانی عصبی میپردازد و تمرکز را از مطالعه متعارف فراگیری زبان اول آنها تغییر میدهد. پرسش پژوهشی اصلی این است: فراگیری زبان اول یک مدل زبانی چگونه بر کارایی و ماهیت فراگیری دستور زبان بعدی آن در زبان دوم تأثیر میگذارد؟ این مطالعه یک سناریوی یادگیری زبان دوم شبیهسازیشده به انسان را برای مدلهای زبانی دو زبانه طراحی میکند، ابتدا آنها را بر روی یک زبان اول (فرانسوی، آلمانی، روسی، ژاپنی) پیشآموزش میدهد و سپس آنها را در معرض انگلیسی به عنوان زبان دوم قرار میدهد. هدف، تحلیل انتقال بینزبانی از منظر زبانشناختی است، با استفاده از آزمونهای قضاوت دستوری برای ارزیابی تعمیم نحوی، فراتر از معیارهای کلی مانند پرپلکسیتی.
خطمشی آزمایشی، مسیر یادگیری زبان دوم انسان را با مواجهه کنترلشده داده تقلید میکند.
یک مدل زبانی پوشیده (مانند مدلهای مبتنی بر معماریهایی مانند BERT) از پایه بر روی یک پیکره تکزبانه از زبان اول انتخابشده پیشآموزش داده میشود. این مرحله، شایستگی زبانی «مادری» اولیه مدل را ایجاد میکند.
مدل پیشآموزشدیده با زبان اول، سپس بر روی یک پیکره محدود انگلیسی (زبان دوم) آموزش بیشتری میبیند (ریزتنظیم میشود). این مطالعه شرایط مختلف داده را بررسی میکند: فقط متون تکزبانه زبان دوم، یا ترکیبی از جفتهای ترجمه موازی زبان اول-دوم، با محدود کردن حجم داده آموزشی برای شبیهسازی ورودی واقعبینانه زبان دوم انسان.
دانش زبانی زبان دوم مدل با استفاده از معیار BLiMP (معیار جفتهای کمینه زبانشناختی) مورد سنجش قرار میگیرد. BLiMP پدیدههای دستوری خاص (مانند مطابقت فاعل-فعل، وابستگیهای شکاف-پرکننده) را با وادار کردن مدل به انتخاب بین یک جفت جمله دستوری و غیردستوری آزمایش میکند و تحلیلی دقیق از تعمیم نحوی ارائه میدهد.
آزمایشهای اولیه مقایسه کردند که چگونه پیکربندیهای مختلف داده آموزش زبان دوم بر سرعت و کیفیت فراگیری تأثیر میگذارند.
آموزش صرفاً بر روی متون تکزبانه زبان دوم در هر دو دوره، منجر به فراگیری سریعتر دستور زبان دوم در مقایسه با تنظیمات پیچیدهتر شد.
جالب توجه است که تغذیه جفتهای ترجمه زبان اول-دوم به مدل زبانی در حین آموزش زبان دوم، فراگیری دانش دستوری زبان دوم را کند کرد. این نشان میدهد که همترازی موازی صریح ممکن است در مراحل اولیه یادگیری زبان دوم برای مدلهای زبانی، نویز یا سیگنال یادگیری متضادی برای تعمیم نحوی محض ایجاد کند.
یافتههای اصلی، تأثیرات قابل توجه زبان اول بر فراگیری زبان دوم در مدلهای زبانی را آشکار میکنند.
مدلهای دارای پیشآموزش زبان اول، پس از مواجهه با زبان دوم، در مقایسه با مدلهای آموزشدیده از پایه بر روی انگلیسی با داده معادل، عملکرد بهتری در معیار انگلیسی BLiMP کسب کردند. این نشان میدهد که دانش زبانی قبلی، حتی از یک زبان متفاوت، یک سوگیری استقرایی مفید برای یادگیری ساختارهای دستوری جدید فراهم میکند.
کارایی انتقال بر اساس زبان اول متفاوت بود. مدلهایی با زبان اول فرانسوی یا آلمانی، تعمیم زبان دوم (انگلیسی) قویتری نسبت به مدلهایی با زبان اول روسی یا ژاپنی نشان دادند. این با رتبهبندیهای دشواری یادگیری زبان در انسان (مانند Chiswick & Miller, 2004) همسو است، جایی که مجاورت زبانی (مانند ریشههای ژرمنی مشترک برای انگلیسی/آلمانی) انتقال را تسهیل میکند.
تقویت حاصل از پیشآموزش زبان اول، برای موارد ریختشناختی (مانند صرف فعل) و نحوی (مانند ترتیب کلمات) بیشترین نمود را داشت. دستاوردها برای موارد کاملاً معنایی یا مواردی که نیازمند یکپارچهسازی نحو و معناشناسی بودند، کوچکتر بود. این نشان میدهد که دانش زبان اول عمدتاً به فراگیری قواعد ساختاری صوری زبان دوم کمک میکند.
فراگیری دانش زبان دوم از نظر داده ناکارآمد تشخیص داده شد. عملکرد تنها پس از آنکه مدل بارها (مثلاً ۵۰-۱۰۰ دوره) در معرض کل مجموعه داده محدود زبان دوم قرار گرفت، به طور قابل توجهی بهبود یافت، برخلاف انسانها که میتوانند از مثالهای کمتری تعمیم دهند.
در طول آموزش زبان دوم، عملکرد مدل در وظایف زبان اول اصلی آن تنزل یافت. این پدیده، مشابه «فراموشی فاجعهبار» در یادگیری مستمر، تفاوتی کلیدی با دوزبانگی متعادل انسان را برجسته میکند و نیاز به تکنیکهایی برای حفظ تعادل دانش زبانی را نشان میدهد.
هسته مدل زبانی بر اساس معماری ترنسفورمر و هدف مدلسازی زبان پوشیده است. در طول پیشآموزش زبان اول، مدل با پیشبینی توکنهای تصادفی پوشیده $w_t$ در یک دنباله $\mathbf{x} = (w_1, ..., w_T)$ بر اساس بافت آنها یاد میگیرد. هدف، بیشینهکردن درستنمایی لگاریتمی است:
$$\mathcal{L}_{MLM} = \mathbb{E}_{\mathbf{x} \sim \mathcal{D}} \sum_{t \in M} \log P(w_t | \mathbf{x}_{\backslash t}; \theta)$$
که در آن $M$ مجموعه موقعیتهای پوشیده است، $\mathcal{D}$ پیکره زبان اول است و $\theta$ پارامترهای مدل هستند. در طول فراگیری زبان دوم، این هدف بر روی پیکره زبان دوم $\mathcal{D}_{L2}$ اعمال میشود، که از پارامترهای $\theta_{L1}$ شروع شده و به $\theta_{L1+L2}$ ریزتنظیم میشود. قضاوت دستوری روی BLiMP از نمرات احتمال نسبی مدل برای یک جفت کمینه $(s_{grammatical}, s_{ungrammatical})$ استفاده میکند:
$$P(s_{grammatical}) > P(s_{ungrammatical})$$
که در آن $P(s) = \prod_{t=1}^{T} P(w_t | w_{
شکل ۱ (نمودار رویه آزمایشی): نمودار به صورت بصری خطمشی سه مرحلهای را ترسیم میکند. از چپ به راست: ۱) چندین جعبه با برچسب «مدل زبانی به فرانسوی»، «مدل زبانی به آلمانی» و غیره، که نشاندهنده مدلهای مختلف زبان اول پس از پیشآموزش هستند. ۲) یک پیکان با برچسب «مواجهه با زبان دوم (انگلیسی)» از این مدلها به یک جعبه مرکزی حاوی متن «پیکره» و آیکون معیار BLiMP اشاره میکند. ۳) یک پیکان دیگر با برچسب «آزمون دانش زبان دوم» از جعبه مرکزی به یک جعبه نهایی که نتیجه ارزیابی «Aa» (احتمالاً نشاندهنده نمرات دقت) را نشان میدهد، اشاره میکند. نمودار به طور مؤثری تنظیمات مقایسهای را انتقال میدهد که در آن مدلهای با پایه زبان اول متفاوت، تحت یک رژیم یادگیری و ارزیابی زبان دوم یکسان قرار میگیرند.
نمایش بصری نتیجه کلیدی (ضمنی): اگرچه در متن ارائهشده به صراحت نموداربندی نشده است، نتایج معمولاً در نمودارهای میلهای یا خطی نشان داده میشوند که: ۱) نمرات دقت BLiMP برای انگلیسی (زبان دوم) روی محور y، گروهبندی شده بر اساس زبان اول مدل (فرانسوی، آلمانی، روسی، ژاپنی) روی محور x، که به وضوح مزیت فرانسوی/آلمانی را نشان میدهد. ۲) یک نمودار خطی که دقت زبان دوم (محور y) را در طول دورهها/تکرارهای آموزش (محور x) برای مدلهای مختلف زبان اول نشان میدهد، که منحنی یادگیری کند و ناکارآمد از نظر داده را نشان میدهد. ۳) یک نمودار میلهای گروهبندیشده که نشاندهنده دستاوردهای دقت از پیشآموزش زبان اول برای زیردستههای مختلف BLiMP (ریختشناسی، نحو، معناشناسی و غیره) است، که دستاوردهای بزرگتر برای پدیدههای نحوی صوری را برجسته میکند.
مطالعه موردی: تحلیل انتقال زبان اول-دوم برای مطابقت فاعل-فعل
۱. پدیده: انگلیسی نیازمند تصریف فعل برای مطابقت با شمار فاعل است (مثلاً «The dog runs» در مقابل «The dogs run»).
۲. فرضیه تأثیر زبان اول: یک مدل زبانی پیشآموزشدیده بر فرانسوی (که دارای مطابقت غنی فاعل-فعل است) ممکن است در مقایسه با مدلی پیشآموزشدیده بر ژاپنی (که فاقد تصریف فعل برای شمار است)، بازنمایی نهفته قویتری برای مفهوم «مطابقت» بین عناصر جمله داشته باشد. این سوگیری ساختاری انتزاعی میتواند یادگیری تحقق خاص این قاعده در انگلیسی را تسهیل کند.
۳. آزمایش با BLiMP: مدل با جفتهای کمینه مانند زیر مواجه میشود:
دستوری: The key to the cabinets *is* on the table.
غیردستوری: The key to the cabinets *are* on the table.
مدل باید احتمال بالاتری به جمله دستوری اختصاص دهد.
۴. نتیجه مورد انتظار: پیشبینی میشود که مدل با زبان اول فرانسوی، در اوایل آموزش زبان دوم، دقت بالاتری در این زیرمجموعه BLiMP نسبت به مدل با زبان اول ژاپنی کسب کند، که نشاندهنده انتقال مثبت یک مفهوم دستوری انتزاعی است.
۵. کاربرد چارچوب: این مورد را میتوان با سنجش بازنماییهای داخلی مدل (مثلاً با استفاده از طبقهبندهای تشخیصی) پس از آموزش زبان اول صورتبندی کرد تا ببینیم آیا یک آشکارساز «مطابقت شمار» را میتوان به راحتی بیشتر از تعبیههای مدل با زبان اول فرانسوی آموزش داد. سپس، ردیابی منحنی عملکرد روی مطابقت انگلیسی در طول آموزش زبان دوم، سود انتقال را کمّی میکند.
بینش اصلی
این مقاله فقط یک مطالعه افزایشی دیگر در پردازش زبان طبیعی نیست؛ بلکه یک چرخش جسورانه و ضروری از نگاه به مدلهای زبانی به عنوان پردازندههای یکپارچه «زبان» به دیدن آنها به عنوان سیستمهای شناختی شبیهسازیشده با یک مسیر تحولی است. بینش اصلی این است که «زبان مادری» یک مدل زبانی اساساً سوگیریهای یادگیری آن را شکل میدهد، و انتقال بینزبانی را نه به عنوان یک امتیاز رایگان، بلکه به عنوان یک فرآیند ساختاریافته، قابل پیشبینی و ناهموار میسازد. یافتهای که داده موازی میتواند فراگیری نحوی را مختل کند، یک بمب برای دگم استاندارد آموزش چندزبانه است و نشان میدهد که یادگیری زبان دوم در مراحل اولیه در ماشینها، مانند انسانها، ممکن است بیشتر از مواجهه تکزبانه غوطهورکننده سود ببرد تا از تمرینات ترجمه صریح.
جریان منطقی
منطق نویسندگان تحسینبرانگیز است: ۱) جداسازی متغیر (هویت زبان اول) در حالی که معماری و داده زبان دوم کنترل میشود. ۲) استفاده از یک ارزیابی مبتنی بر زبانشناسی (BLiMP) به جای ریزتنظیم خاص وظیفه، که اغلب دانش زبانی را با اکتشافات خاص وظیفه درهم میآمیزد. ۳) مقایسه با معیارهای انسانی (رتبهبندیهای دشواری زبان)، که یک نقطه اعتبارسنجی خارجی حیاتی را فراهم میکند که اغلب در تحقیقات محض یادگیری ماشین مفقود است. این دقت روششناختی به آنها اجازه میدهد از همبستگی (زبان اول بر عملکرد زبان دوم تأثیر میگذارد) به سمت یک فرضیه مکانیکی (انتقال دانش ساختاری انتزاعی) حرکت کنند.
نقاط قوت و ضعف
نقاط قوت: نقطه قوت اولیه مطالعه، پلسازی بینرشتهای آن است. با صورتبندی مسئله بر اساس نظریه یادگیری زبان دوم، فرضیههایی تولید میکند که برای پردازش زبان طبیعی نوآورانه هستند (مانند آزمایش انتقال تفاضلی در پدیدههای دستوری). تنظیم داده کنترلشده در مقیاس انسانی، یک نقطه مقابل طراوتبخش برای پارادایم «داده بیشتر همیشه بهتر است» است، که مدلها را مجبور به تعمیم میکند، نه حفظ کردن.
نقاط ضعف انتقادی: فیل در اتاق، مقیاس است. آزمایشها با مدلهای زبانی نسبتاً کوچک انجام شدهاند. همانطور که تحقیقات «قوانین مقیاس» از OpenAI و دیگران برجسته کردهاند، رفتار مدل میتواند با اندازه به طور چشمگیری تغییر کند. آیا مزیت زبان اول فرانسوی برای یک مدل ۵۰۰ میلیارد پارامتری حفظ میشود، یا ظرفیت محض، سوگیری استقرایی را تحتالشعاع قرار میدهد؟ علاوه بر این، تمرکز بر نحو از طریق BLiMP، اگرچه دقیق است، قلمرو وسیع انتقال معنایی و کاربردشناسی را نادیده میگیرد که برای روانی به همان اندازه حیاتی هستند. فراموشی فاجعهبار مشاهدهشده زبان اول نیز به یک محدودیت معماری اساسی در مقایسه با انعطافپذیری عصبی مغز انسان اشاره میکند.
بینشهای عملی
برای متخصصان، این پژوهش یک الگوی راهنما برای پیشآموزش راهبردی ارائه میدهد. فقط بر روی یک سوپ تصادفی از زبانها پیشآموزش ندهید. اگر هدف، عملکرد بالا در زبان X است، ابتدا بر روی نزدیکترین خویشاوندان زبانی آن برای راهاندازی یادگیری ساختاری پیشآموزش دهید. برای پژوهشگران، دستور کار روشن است: ۱) مقیاسدادن آزمایشها به اندازه مدلهای زبانی بزرگ مدرن برای آزمایش استحکام این یافتهها. ۲) ادغام تکنیکهای یادگیری مستمر از ابتدا برای مقابله با زوال زبان اول—این دیگر یک مسئله حاشیهای نیست، بلکه برای ساخت عاملهای چندزبانه پایدار مرکزی است. ۳) توسعه معیارهای زبانشناختی جامعتر که فراتر از جفتهای کمینه میروند و انسجام گفتمان و تناسب کاربردشناسی را شامل میشوند، شاید از چارچوبهایی مانند چارچوب مرجع مشترک اروپایی برای زبانها الهام بگیرند. در نهایت، این کار هدف را از ساختن مدلهایی که زبانها را میدانند به سمت ساختن مدلهایی که آنها را به روشی شبیه انسان میآموزند تغییر میدهد—یک جستجوی به مراتب بلندپروازانهتر و از نظر فکری غنیتر.