پروژه MOSLA: یک مجموعه‌داده چندوجهی و طولی برای پژوهش‌های فراگیری زبان دوم

1. مقدمه

فراگیری زبان دوم (SLA) فرآیندی پیچیده و پویاست که به‌طور سنتی از طریق مجموعه‌داده‌های پراکنده، تک‌وجهی یا کوتاه‌مدت مطالعه شده است. پروژه MOSLA (لحظات فراگیری زبان دوم) با ایجاد یک مجموعه‌داده پیشگامانه طولی، چندوجهی، چندزبانه و کنترل‌شده، این محدودیت‌ها را برطرف می‌کند. این پروژه، فراگیرانی را مستند می‌کند که طی دو سال و از طریق آموزش آنلاین انحصاری، زبان عربی، اسپانیایی یا چینی را از پایه فرا می‌گیرند و هر درس را ضبط می‌کنند. این مجموعه‌داده که شامل بیش از ۲۵۰ ساعت ویدیو، صدا و ضبط صفحه نمایش است و همراه با حاشیه‌نویسی‌های نیمه‌خودکار ارائه می‌شود، منبعی بی‌سابقه برای مطالعه مسیر ظریف یادگیری زبان فراهم می‌کند.

2. روش‌شناسی جمع‌آوری داده

مجموعه‌داده MOSLA تحت یک پروتکل کنترل‌شده و دقیق ساخته شد تا یکنواختی و اعتبار پژوهشی تضمین شود.

2.1 جذب شرکت‌کنندگان و انتخاب زبان

شرکت‌کنندگان برای یادگیری یکی از سه زبان هدف جذب شدند: عربی، اسپانیایی یا چینی ماندارین. این انتخاب شامل زبان‌هایی با الفبای غیرلاتین (عربی و چینی) می‌شود که قابلیت کاربرد بین‌زبانی مجموعه‌داده را فراتر از زبان‌های هندواروپایی رایج مورد مطالعه گسترش می‌دهد.

2.2 محیط یادگیری کنترل‌شده

یک ویژگی کلیدی طراحی، الزام در معرض قرارگیری کنترل‌شده است. شرکت‌کنندگان موافقت کردند که زبان هدف را فقط از طریق دروس آنلاین ارائه‌شده در طول دوره دو ساله مطالعه فرا بگیرند. این کنترل، متغیرهای مخدوش‌کننده ناشی از مواجهه خارجی با زبان را به حداقل می‌رساند و امکان انتساب روشن‌تر پیشرفت مهارت به روش آموزشی را فراهم می‌کند.

2.3 راه‌اندازی ضبط چندوجهی

تمامی دروس از طریق Zoom برگزار و ضبط شدند و سه جریان همگام‌سازی‌شده را ثبت کردند:

ویدیو: تصاویر وب‌کم شرکت‌کننده و مربی.
صدا: صدای کامل درس.
اشتراک‌گذاری صفحه: صفحه اشتراک‌گذاری‌شده مربی حاوی مواد آموزشی، اسلایدها و برنامه‌ها.

این سه‌گانه، یک سوابق غنی و بافت‌مند از تعامل یادگیری ایجاد می‌کند.

نگاهی اجمالی به مجموعه‌داده

مدت زمان: ~۲ سال برای هر شرکت‌کننده
کل ضبط‌ها: بیش از ۲۵۰ ساعت
وجه‌ها: ویدیو، صدا، صفحه نمایش
زبان‌های هدف: ۳ (عربی، اسپانیایی، چینی)
کنترل: آموزش آنلاین انحصاری

3. خط لوله حاشیه‌نویسی داده

ضبط‌های خام از طریق یک خط لوله نیمه‌خودکار پردازش شدند تا ابرداده‌های ساختاریافته و قابل پرس‌وجو تولید شوند.

3.1 چارچوب حاشیه‌نویسی نیمه‌خودکار

حاشیه‌نویسی‌ها با استفاده از یک رویکرد ترکیبی انسان-ماشین تولید شدند:

جداسازی گویندگان: تقسیم صدا به بخش‌های همگن از نظر گوینده («چه کسی چه زمانی صحبت کرد؟»).
شناسایی گوینده: برچسب‌زنی بخش‌ها به عنوان «مربی» یا «فراگیر».
شناسایی زبان: برچسب‌زنی بخش‌ها بر اساس زبان (مثلاً زبان اول/انگلیسی در مقابل زبان هدف).
تشخیص خودکار گفتار (ASR): تولید رونوشت برای تمام بخش‌های گفتاری.

حاشیه‌نویسی‌های اولیه توسط حاشیه‌نویسان انسانی ایجاد شدند که زیرمجموعه‌ای استاندارد طلایی را تشکیل دادند که برای تنظیم دقیق مدل‌های پیشرفته استفاده شد.

3.2 تنظیم دقیق مدل و عملکرد

مدل‌های از پیش آموزش‌دیده (مثلاً برای ASR، جداسازی گویندگان) بر روی داده‌های حاشیه‌نویسی‌شده انسانی MOSLA تنظیم دقیق شدند. مقاله بهبودهای عملکردی قابل توجهی را پس از تنظیم دقیق گزارش می‌دهد که ارزش داده‌های خاص حوزه را حتی برای مدل‌های بزرگ از پیش آموزش‌دیده نشان می‌دهد. این مرحله برای مقیاس‌دهی حاشیه‌نویسی به کل پیکره بیش از ۲۵۰ ساعتی حیاتی بود.

4. تحلیل زبانی و چندوجهی

مجموعه‌داده حاشیه‌نویسی‌شده، تحلیل‌های نوآورانه‌ای از فرآیند SLA را ممکن می‌سازد.

4.1 معیارهای توسعه مهارت

روندهای طولی با استفاده از معیارهایی مانند موارد زیر تحلیل شدند:

نسبت زبان هدف: درصد گفته‌های فراگیر به زبان هدف در مقابل زبان مادری آن‌ها در طول زمان.
تنوع واژگانی: اندازه‌گیری رشد و پیچیدگی واژگان (مثلاً از طریق نسبت نوع-نمونه).
طول و پیچیدگی گفته: ردیابی توسعه ساختارهای نحوی.

این معیارها تصویری کمی از توسعه مهارت در طول سفر دو ساله ترسیم می‌کنند.

4.2 تشخیص تمرکز روی صفحه نمایش

یک تحلیل به ویژه نوآورانه، استفاده از مدل‌های یادگیری عمیق چندوجهی برای پیش‌بینی منطقه تمرکز فراگیر روی صفحه اشتراک‌گذاری‌شده صرفاً از سیگنال‌های ویدیویی و صوتی حاشیه‌نویسی‌نشده بود. با همبستگی دادن نشانه‌های صوتی (مثلاً بحث در مورد یک کلمه خاص) با محتوای صفحه، مدل می‌تواند استنباط کند که فراگیر به چه چیزی نگاه می‌کند و بینش‌هایی در مورد توجه و درگیری ارائه دهد.

5. بینش اصلی و دیدگاه تحلیلی

بینش اصلی: پروژه MOSLA فقط یک مجموعه‌داده دیگر نیست؛ یک اقدام زیرساختی بنیادین است که شکاف حیاتی بین مطالعات SLA جداافتاده و لحظه‌ای با واقعیت آشفته و پیوسته یادگیری را آشکار می‌کند. ارزش پیشنهادی آن در طولی بودن کنترل‌شده نهفته است - ویژگی‌ای که به همان اندازه که ضروری است، نادر است. در حالی که پروژه‌هایی مانند پیکره Mozilla Common Voice داده‌های گفتاری را دموکراتیک می‌کنند، فاقد مسیر یادگیری ساختاریافته و بافت چندوجهی‌ای هستند که MOSLA ارائه می‌دهد. به طور مشابه، کار مشترک BEA-2019 بر مهارت نوشتاری جداافتاده متمرکز بود و بعد غنی و تعاملی ثبت‌شده در اینجا را از دست داد.

جریان منطقی: منطق پروژه به زیبایی خطی است: ۱) شناسایی خلاء روش‌شناختی (کمبود داده‌های SLA طولی، چندوجهی و کنترل‌شده)، ۲) مهندسی یک راه‌حل (پروتکل دقیق شرکت‌کننده + ضبط Zoom)، ۳) حل مشکل مقیاس‌دهی (حاشیه‌نویسی ML با دخالت انسان)، و ۴) نمایش کاربرد (تحلیل زبانی + وظایف نوآورانه چندوجهی). این خط لوله سرتاسری از ایجاد داده تا کاربرد، یک طرح کلی برای علوم یادگیری تجربی است.

نقاط قوت و ضعف: قوت آن انکارناپذیر است: مقیاس، کنترل و غنای چندوجهی. این یک رویای محقق برای مطالعه پویایی‌های زمانی است. با این حال، نقاط ضعف در مصالحه‌ها نهفته است. محیط «کنترل‌شده» همچنین بزرگترین مصنوعی بودن آن است - فراگیری زبان در دنیای واقعی به شکلی باشکوه کنترل‌نشده است. حجم نمونه، اگرچه یک مجموعه‌داده طولی عمیق ایجاد می‌کند، ممکن است تعمیم‌پذیری در بین جمعیت‌های متنوع فراگیران را محدود کند. علاوه بر این، مانع فنی استفاده از چنین مجموعه‌داده چندوجهی پیچیده‌ای همچنان بالا است و ممکن است پذیرش فوری آن را محدود کند.

بینش‌های قابل اجرا: برای پژوهشگران، اقدام فوری کاوش در این مجموعه‌داده باز است. برای شرکت‌های فناوری آموزشی، بینش این است که فراتر از معیارهای ساده تکمیل حرکت کنند و فرآیند یادگیری را همانطور که MOSLA انجام می‌دهد، مدل کنند. آزمایش تشخیص تمرکز روی صفحه نمایش به تنهایی آینده‌ای را پیشنهاد می‌کند که در آن پلتفرم‌های یادگیری، درگیری شناختی را در زمان واقعی استنباط می‌کنند. ضرورت بزرگتر این است که این حوزه از «عکس‌های» مقطعی به «فیلم‌های» طولی یادگیری تغییر کند. MOSLA دوربین را ساخته است؛ اکنون زمان آن است که جامعه شروع به ساختن فیلم‌ها کند.

6. جزئیات پیاده‌سازی فنی

خط لوله حاشیه‌نویسی به چندین مدل یادگیری ماشین متکی است. یک دید ساده‌شده از وظیفه جداسازی و شناسایی گوینده را می‌توان به عنوان یک مسئله بهینه‌سازی قالب‌بندی کرد. فرض کنید $X = \{x_1, x_2, ..., x_T\}$ دنباله ویژگی‌های صوتی را نشان می‌دهد. هدف یافتن دنباله برچسب‌های گوینده $S = \{s_1, s_2, ..., s_T\}$ و هویت‌های گوینده $Y = \{y_1, y_2, ..., y_K\}$ است که احتمال پسین را بیشینه می‌کند:

$P(S, Y | X) \propto P(X | S, Y) \cdot P(S) \cdot P(Y)$

جایی که:

$P(X | S, Y)$ احتمال ویژگی‌های صوتی با توجه به بخش‌های گوینده و هویت‌هاست که اغلب با استفاده از مدل‌های مخلوط گاوسی (GMMs) یا جاسازی‌های شبکه عصبی عمیق مانند x-vector مدل می‌شود.
$P(S)$ یک پیشین بر روی پویایی نوبت گوینده است که تداوم زمانی را تشویق می‌کند (مثلاً با استفاده از یک مدل مارکوف پنهان).
$P(Y)$ نشان‌دهنده دانش پیشین از هویت گویندگان (مربی در مقابل فراگیر) است.

تنظیم دقیق بر روی داده‌های MOSLA عمدتاً تخمین $P(X | S, Y)$ را با تطبیق مدل آکوستیک (مثلاً استخراج‌کننده x-vector) با شرایط آکوستیک خاص و ویژگی‌های گوینده کلاس درس آنلاین بهبود می‌بخشد.

7. نتایج و یافته‌های آزمایشی

مقاله یافته‌های کلیدی حاصل از تحلیل مجموعه‌داده MOSLA را ارائه می‌دهد:

مسیرهای مهارت: نمودارها افزایش واضح و غیرخطی در درصد استفاده فراگیران از زبان هدف را در طول زمان نشان می‌دهند که با فلات‌ها و جهش‌هایی مطابق با واحدهای آموزشی مختلف همراه است. معیارهای تنوع واژگانی روند صعودی ثابتی را نشان می‌دهند که پس از شش ماه اول شتاب می‌گیرد.
بهبودهای عملکرد مدل: تنظیم دقیق یک مدل از پیش آموزش‌دیده Wav2Vec2.0 برای ASR بر روی تنها ۱۰ ساعت از رونوشت‌های انسانی MOSLA، نرخ خطای کلمه (WER) را در داده‌های نگه‌داشته‌شده MOSLA در مقایسه با مدل پایه بیش از ۳۵٪ کاهش داد. بهبودهای قابل توجه مشابهی برای وظایف شناسایی گوینده و زبان گزارش شده است.
تشخیص تمرکز روی صفحه نمایش: یک مدل چندوجهی (مثلاً یک ترنسفورمر بینایی برای فریم‌های صفحه نمایش ترکیب‌شده با یک رمزگذار صوتی) آموزش داده شد تا منطقه گسترده تمرکز روی صفحه (مثلاً «متن اسلاید»، «ویدیو»، «تخته سفید») را طبقه‌بندی کند. مدل به دقتی به طور قابل توجهی بالاتر از شانس دست یافت و نشان داد که همبستگی صوتی-تصویری حاوی سیگنال‌های معناداری در مورد توجه فراگیر است، حتی بدون سخت‌افزار ردیابی چشم.

شکل ۱ (مفهومی): مقاله شامل یک شکل مفهومی است که خط لوله MOSLA را نشان می‌دهد: جمع‌آوری داده (ضبط‌های Zoom) -> حاشیه‌نویسی داده (جداسازی گویندگان، شناسایی، ASR) -> تحلیل چندوجهی (تمرکز روی صفحه) و تحلیل زبانی SLA (معیارهای مهارت). این شکل بر رویکرد جامع و خط لوله‌محور پروژه تأکید می‌کند.

8. چارچوب تحلیل: مدل‌سازی مسیر مهارت

مورد: مدل‌سازی مسیر «استفاده از زبان هدف»

پژوهشگران می‌توانند از مجموعه‌داده MOSLA برای ساخت مدل‌های منحنی رشد استفاده کنند. یک مثال ساده‌شده، نسبت هفتگی گفته‌های یک فراگیر به زبان هدف (TL) را تحلیل می‌کند. فرض کنید $R_t$ نسبت TL در هفته $t$ باشد.

یک مدل اثرات مختلط خطی پایه را می‌توان به صورت زیر مشخص کرد:

R_t ~ 1 + Time_t + (1 + Time_t | Learner_ID)

جایی که:

1 + Time_t اثر ثابت یک عرض از مبدأ کلی و شیب (مسیر رشد متوسط) را مدل می‌کند.
(1 + Time_t | Learner_ID) به هر دو نقطه شروع (عرض از مبدأ) و نرخ رشد (شیب) اجازه می‌دهد تا به طور تصادفی در بین فراگیران فردی متفاوت باشد.

با استفاده از داده‌های MOSLA، می‌توان این مدل را برازش داد (مثلاً با استفاده از lme4 در R یا statsmodels در پایتون) تا افزایش متوسط هفتگی استفاده از TL و میزان تغییرپذیری فردی را تخمین زد. مدل‌های پیچیده‌تر می‌توانند فاز آموزشی را به عنوان یک پیش‌بین‌کننده شامل شوند یا رشد غیرخطی را با استفاده از عبارات چندجمله‌ای یا اسپلاین برای Time مدل کنند. این چارچوب فراتر از مقایسه پیش‌آزمون و پس‌آزمون، به مدل‌سازی کل منحنی یادگیری حرکت می‌کند.

9. کاربردهای آتی و جهت‌های پژوهشی

مجموعه‌داده MOSLA راه‌های متعددی را برای کارهای آینده باز می‌کند:

مسیرهای یادگیری شخصی‌شده: الگوریتم‌ها می‌توانند مسیر اولیه یک فراگیر در MOSLA را تحلیل کنند تا موانع آینده را پیش‌بینی کرده و مواد مرور یا تمرین شخصی‌شده را توصیه کنند.
ارزیابی خودکار مهارت: توسعه مدل‌های ارزیابی پیوسته و ریزدانه که فراتر از آزمون‌های استاندارد شده هستند و از نشانه‌های چندوجهی (روانی، انتخاب واژگانی، تلفظ، درگیری) استفاده می‌کنند، همانطور که در پژوهش ETS در مورد ارزیابی خودکار گفتار آمده است.
تحلیل‌های معلم: تحلیل استراتژی‌های مربی و همبستگی آن‌ها با پیشرفت فراگیر، ارائه بازخورد مبتنی بر داده برای آموزش معلمان.
مطالعات انتقال بین‌زبانی: مقایسه الگوهای فراگیری بین عربی، اسپانیایی و چینی برای درک چگونگی تأثیر ویژگی‌های خاص زبان (مثلاً سیستم آهنگین، خط) بر فرآیند یادگیری.
مدل‌های پایه چندوجهی: MOSLA یک زمین تمرین ایده‌آل برای ساخت مدل‌های هوش مصنوعی چندوجهی است که گفتگوی آموزشی را درک می‌کنند و به طور بالقوه می‌توانند به مربیان هوش مصنوعی پیچیده‌تر منجر شوند.
گسترش: تکرارهای آینده می‌توانند شامل زبان‌های بیشتر، گروه‌های شرکت‌کننده بزرگتر و متنوع‌تر، داده‌های زیست‌سنجی (مانند ضربان قلب برای استرس/بار شناختی) و ادغام با داده‌های سیستم مدیریت یادگیری (LMS) باشند.

10. منابع

Geertzen, J., Alexopoulou, T., & Korhonen, A. (2014). Automatic Linguistic Annotation of Large Scale L2 Databases: The EF-Cambridge Open Language Database (EFCAMDAT). In Proceedings of the 9th Workshop on Innovative Use of NLP for Building Educational Applications.
Settles, B., T. LaFlair, G., & Hagiwara, M. (2018). Machine Learning-Driven Language Assessment. Transactions of the Association for Computational Linguistics.
Stasaski, K., Devlin, J., & Hearst, M. A. (2020). Measuring and Improving Semantic Diversity of Dialogue Generation. In Findings of the Association for Computational Linguistics: EMNLP 2020.
Hampel, R., & Stickler, U. (2012). The use of videoconferencing to support multimodal interaction in an online language classroom. ReCALL, 24(2), 116-137.
Mozilla Common Voice. (n.d.). Retrieved from https://commonvoice.mozilla.org/
Educational Testing Service (ETS). (2021). Automated Scoring of Speech. Research Report.
Hagiwara, M., & Tanner, J. (2024). Project MOSLA: Recording Every Moment of Second Language Acquisition. arXiv preprint arXiv:2403.17314.