Projek MOSLA: Set Data Pelbagai Mod, Longitudinal untuk Penyelidikan Pemerolehan Bahasa Kedua

1. Pengenalan

Pemerolehan bahasa kedua (SLA) adalah proses yang kompleks dan dinamik yang secara tradisinya dikaji melalui set data yang terpisah, unimodal, atau jangka pendek. Projek MOSLA (Moments of Second Language Acquisition) menangani batasan ini dengan mencipta set data longitudinal, pelbagai mod, pelbagai bahasa, dan terkawal yang perintis. Projek ini mendokumenkan pelajar yang memperoleh bahasa Arab, Sepanyol, atau Cina dari awal selama dua tahun melalui pengajaran dalam talian eksklusif, merakam setiap pelajaran. Set data ini, yang merangkumi lebih 250 jam rakaman video, audio, dan skrin, dipadankan dengan anotasi semi-automatik, menyediakan sumber yang belum pernah ada sebelum ini untuk mengkaji trajektori pembelajaran bahasa yang halus.

2. Metodologi Pengumpulan Data

Set data MOSLA dibina di bawah protokol terkawal yang ketat untuk memastikan konsistensi dan kesahihan penyelidikan.

2.1 Pengambilan Peserta & Pemilihan Bahasa

Peserta diambil untuk mempelajari salah satu daripada tiga bahasa sasaran: Arab, Sepanyol, atau Mandarin Cina. Pemilihan ini termasuk bahasa dengan abjad bukan Latin (Arab dan Cina), memperluas kebolehgunaan rentas linguistik set data di luar bahasa Indo-Eropah yang biasa dikaji.

2.2 Persekitaran Pembelajaran Terkawal

Ciri reka bentuk utama ialah mandat pendedahan terkawal. Peserta bersetuju untuk mempelajari bahasa sasaran hanya melalui pelajaran dalam talian yang disediakan sepanjang tempoh kajian dua tahun. Kawalan ini meminimumkan pemboleh ubah pengeliru daripada pendedahan bahasa luaran, membolehkan atribusi yang lebih jelas bagi peningkatan kemahiran kepada kaedah pengajaran.

2.3 Persediaan Rakaman Pelbagai Mod

Semua pelajaran dijalankan dan dirakam melalui Zoom, menangkap tiga aliran yang disegerakkan:

Video: Suapan webcam peserta dan pengajar.
Audio: Audio pelajaran penuh.
Perkongsian Skrin: Skrin perkongsian pengajar yang mengandungi bahan pengajaran, slaid, dan aplikasi.

Tiga serangkai ini mencipta rekod interaksi pembelajaran yang kaya dan berkonteks.

Set Data Secara Ringkas

Tempoh: ~2 tahun setiap peserta
Jumlah Rakaman: >250 jam
Mod: Video, Audio, Skrin
Bahasa Sasaran: 3 (Arab, Sepanyol, Cina)
Kawalan: Pengajaran dalam talian eksklusif

3. Saluran Anotasi Data

Rakaman mentah diproses melalui saluran semi-automatik untuk menjana metadata berstruktur yang boleh dicari.

3.1 Rangka Kerja Anotasi Semi-Automatik

Anotasi dihasilkan menggunakan pendekatan hibrid manusia-mesin:

Diarisasi Penutur: Membahagikan audio kepada rantau homogen penutur ("siapa bercakap bila?").
Pengenalpastian Penutur: Melabelkan segmen sebagai 'pengajar' atau 'pelajar'.
Pengenalpastian Bahasa: Menanda segmen mengikut bahasa (cth., L1/Inggeris vs. Bahasa Sasaran).
Pengecaman Pertuturan Automatik (ASR): Menjana transkrip untuk semua segmen pertuturan.

Anotasi awal dicipta oleh penganotasi manusia, membentuk subset piawai emas yang digunakan untuk menala halus model terkini.

3.2 Penalaan Halus Model & Prestasi

Model yang telah dilatih terdahulu (cth., untuk ASR, diarisasi) ditala halus pada data MOSLA yang dianotasi manusia. Kertas kerja melaporkan peningkatan prestasi yang ketara selepas penalaan halus, menunjukkan nilai data khusus domain walaupun untuk model pra-latihan besar. Langkah ini adalah penting untuk menskala anotasi kepada seluruh korpus 250+ jam.

4. Analisis Linguistik & Pelbagai Mod

Set data yang dianotasi membolehkan analisis baru proses SLA.

4.1 Metrik Perkembangan Kemahiran

Trend longitudinal dianalisis menggunakan metrik seperti:

Nisbah Bahasa Sasaran: Peratusan ujaran pelajar dalam bahasa sasaran berbanding bahasa ibunda mereka dari masa ke masa.
Kepelbagaian Leksikal: Mengukur pertumbuhan dan kerumitan perbendaharaan kata (cth., melalui Nisbah Jenis-Token).
Panjang & Kerumitan Ujaran: Menjejaki perkembangan struktur sintaksis.

Metrik ini melukis gambar kuantitatif perkembangan kemahiran sepanjang perjalanan dua tahun.

4.2 Pengesanan Fokus Skrin

Satu analisis yang sangat inovatif melibatkan penggunaan model pembelajaran mendalam pelbagai mod untuk meramalkan kawasan fokus pelajar pada skrin perkongsian semata-mata daripada isyarat video dan audio yang tidak dianotasi. Dengan mengaitkan petunjuk audio (cth., membincangkan perkataan tertentu) dengan kandungan skrin, model boleh membuat inferens tentang apa yang dilihat oleh pelajar, menawarkan pandangan tentang perhatian dan penglibatan.

5. Inti Pati & Perspektif Penganalisis

Inti Pati: Projek MOSLA bukan sekadar satu lagi set data; ia adalah langkah infrastruktur asas yang mendedahkan jurang kritikal antara kajian SLA terpencil, snapshot dan realiti pembelajaran yang kucar-kacir dan berterusan. Proposisi nilainya terletak pada longitudinaliti terkawal—ciri yang jarang dan penting. Walaupun projek seperti korpus Mozilla Common Voice mendemokrasikan data pertuturan, mereka kekurangan trajektori pembelajaran berstruktur dan konteks pelbagai mod yang disediakan oleh MOSLA. Begitu juga, Tugas Berkongsi BEA-2019 memberi tumpuan kepada kemahiran menulis terpencil, terlepas dimensi interaktif yang kaya yang ditangkap di sini.

Aliran Logik: Logik projek ini adalah linear dengan elegan: 1) Kenal pasti vakum metodologi (kekurangan data SLA longitudinal, pelbagai mod, terkawal), 2) Rekayasa penyelesaian (protokol peserta ketat + rakaman Zoom), 3) Selesaikan masalah penskalaan (anotasi ML dengan manusia dalam gelung), dan 4) Tunjukkan utiliti (analisis linguistik + tugas pelbagai mod baru). Saluran hujung ke hujung ini dari penciptaan data ke aplikasi adalah cetak biru untuk sains pembelajaran empirikal.

Kekuatan & Kelemahan: Kekuatannya tidak dapat dinafikan: skala, kawalan, dan kekayaan pelbagai mod. Ia adalah impian penyelidik untuk mengkaji dinamik temporal. Walau bagaimanapun, kelemahannya terletak pada pertukaran. Persekitaran "terkawal" juga adalah kepalsuan terbesarnya—pemerolehan bahasa dunia sebenar adalah tidak terkawal secara gemilang. Saiz sampel, walaupun mencipta set data longitudinal yang mendalam, mungkin mengehadkan kebolehgeneralisasian merentasi populasi pelajar yang pelbagai. Tambahan pula, halangan teknikal untuk menggunakan set data pelbagai mod yang kompleks ini masih tinggi, berpotensi mengehadkan penggunaannya serta-merta.

Pandangan Boleh Tindak: Bagi penyelidik, tindakan serta-merta adalah meneroka set data terbuka ini. Bagi syarikat EdTech, pandangannya adalah untuk bergerak melangkaui metrik penyiapan mudah dan memodelkan proses pembelajaran seperti yang dilakukan MOSLA. Eksperimen pengesanan fokus skrin sahaja mencadangkan masa depan di mana platform pembelajaran membuat inferens penglibatan kognitif secara masa nyata. Keperluan yang lebih besar adalah untuk bidang ini beralih daripada "gambar" keratan rentas kepada "filem" longitudinal pembelajaran. MOSLA telah membina kamera; kini masanya untuk komuniti mula membuat filem.

6. Butiran Pelaksanaan Teknikal

Saluran anotasi bergantung pada beberapa model pembelajaran mesin. Pandangan ringkas tugas diarisasi dan pengenalpastian penutur boleh dirangka sebagai masalah pengoptimuman. Biarkan $X = \{x_1, x_2, ..., x_T\}$ mewakili jujukan ciri audio. Matlamatnya adalah untuk mencari jujukan label penutur $S = \{s_1, s_2, ..., s_T\}$ dan identiti penutur $Y = \{y_1, y_2, ..., y_K\}$ yang memaksimumkan kebarangkalian posterior:

$P(S, Y | X) \propto P(X | S, Y) \cdot P(S) \cdot P(Y)$

Di mana:

$P(X | S, Y)$ ialah kemungkinan ciri audio diberikan segmen dan identiti penutur, sering dimodelkan menggunakan Gaussian Mixture Models (GMMs) atau penyematan rangkaian neural mendalam seperti x-vectors.
$P(S)$ ialah prior ke atas dinamik giliran penutur, menggalakkan kesinambungan temporal (cth., menggunakan model Markov tersembunyi).
$P(Y)$ mewakili pengetahuan prior tentang identiti penutur (pengajar vs. pelajar).

Penalaan halus pada data MOSLA terutamanya meningkatkan anggaran $P(X | S, Y)$ dengan menyesuaikan model akustik (cth., pengekstrak x-vector) kepada keadaan akustik khusus dan ciri penutur bilik darjah dalam talian.

7. Keputusan & Penemuan Eksperimen

Kertas kerja membentangkan penemuan utama daripada menganalisis set data MOSLA:

Trajektori Kemahiran: Graf menunjukkan peningkatan yang jelas, bukan linear dalam peratusan penggunaan bahasa sasaran oleh pelajar dari masa ke masa, dengan dataran tinggi dan lonjakan yang sepadan dengan unit pengajaran yang berbeza. Metrik kepelbagaian leksikal menunjukkan trend menaik yang stabil, mempercepat selepas enam bulan pertama.
Peningkatan Prestasi Model: Menala halus model Wav2Vec2.0 pra-latihan untuk ASR pada hanya 10 jam transkrip manusia MOSLA mengurangkan Kadar Ralat Perkataan (WER) lebih 35% pada data MOSLA yang diketepikan berbanding model asas. Peningkatan ketara yang serupa dilaporkan untuk tugas pengenalpastian penutur dan bahasa.
Pengesanan Fokus Skrin: Model pelbagai mod (cth., penjelma penglihatan untuk bingkai skrin digabungkan dengan penyandi audio) dilatih untuk mengklasifikasikan kawasan fokus skrin yang luas (cth., "teks slaid," "video," "papan putih"). Model mencapai ketepatan yang jauh melebihi kebetulan, menunjukkan bahawa korelasi audio-visual mengandungi isyarat bermakna tentang perhatian pelajar, walaupun tanpa perkakasan penjejakan mata.

Rajah 1 (Konseptual): Kertas kerja termasuk rajah konseptual yang menggambarkan saluran MOSLA: Pengumpulan Data (rakaman Zoom) -> Anotasi Data (Diarisasi, ID, ASR) -> Analisis Pelbagai Mod (Fokus skrin) & Analisis Linguistik SLA (Metrik kemahiran). Rajah ini menekankan pendekatan projek yang komprehensif dan berorientasikan saluran.

8. Rangka Kerja Analisis: Pemodelan Trajektori Kemahiran

Kes: Memodelkan Trajektori "Penggunaan Bahasa Sasaran"

Penyelidik boleh menggunakan set data MOSLA untuk membina model lengkung pertumbuhan. Contoh ringkas menganalisis nisbah mingguan ujaran bahasa sasaran (TL) oleh seorang pelajar. Biarkan $R_t$ menjadi nisbah TL pada minggu $t$.

Model kesan campuran linear asas boleh ditentukan sebagai:

R_t ~ 1 + Time_t + (1 + Time_t | Learner_ID)

Di mana:

1 + Time_t memodelkan kesan tetap pintasan keseluruhan dan cerun (trajektori pertumbuhan purata).
(1 + Time_t | Learner_ID) membolehkan kedua-dua titik permulaan (pintasan) dan kadar pertumbuhan (cerun) berbeza secara rawak merentasi pelajar individu.

Menggunakan data MOSLA, seseorang boleh memasang model ini (cth., menggunakan lme4 R atau statsmodels Python) untuk menganggarkan peningkatan mingguan purata dalam penggunaan TL dan tahap kebolehubahan individu. Model yang lebih kompleks boleh memasukkan fasa pengajaran sebagai peramal atau memodelkan pertumbuhan bukan linear menggunakan istilah polinomial atau spline untuk Masa. Rangka kerja ini bergerak melangkaui perbandingan pra- dan pasca-ujian kepada pemodelan keseluruhan lengkung pembelajaran.

9. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Set data MOSLA membuka banyak laluan untuk kerja masa depan:

Laluan Pembelajaran Peribadi: Algoritma boleh menganalisis trajektori awal pelajar dalam MOSLA untuk meramalkan halangan masa depan dan mengesyorkan bahan ulang kaji atau latihan yang diperibadikan.
Penilaian Kemahiran Automatik: Membangunkan model penilaian berterusan yang halus yang melangkaui ujian piawai, menggunakan petunjuk pelbagai mod (kelancaran, pilihan leksikal, sebutan, penglibatan) seperti dalam penyelidikan ETS tentang penilaian pertuturan automatik.
Analisis Guru: Menganalisis strategi pengajar dan korelasi mereka dengan kemajuan pelajar, menyediakan maklum balas berasaskan data untuk latihan guru.
Kajian Pemindahan Rentas Linguistik: Membandingkan corak pemerolehan antara Arab, Sepanyol, dan Cina untuk memahami bagaimana ciri khusus bahasa (cth., sistem nada, skrip) mempengaruhi proses pembelajaran.
Model Asas Pelbagai Mod: MOSLA adalah tempat latihan yang sesuai untuk membina model AI pelbagai mod yang memahami dialog pendidikan, berpotensi membawa kepada tutor AI yang lebih canggih.
Pengembangan: Iterasi masa depan boleh termasuk lebih banyak bahasa, kumpulan peserta yang lebih besar dan pelbagai, data biometrik (seperti kadar denyutan jantung untuk tekanan/beban kognitif), dan integrasi dengan data sistem pengurusan pembelajaran (LMS).

10. Rujukan

Geertzen, J., Alexopoulou, T., & Korhonen, A. (2014). Automatic Linguistic Annotation of Large Scale L2 Databases: The EF-Cambridge Open Language Database (EFCAMDAT). Dalam Proceedings of the 9th Workshop on Innovative Use of NLP for Building Educational Applications.
Settles, B., T. LaFlair, G., & Hagiwara, M. (2018). Machine Learning-Driven Language Assessment. Transactions of the Association for Computational Linguistics.
Stasaski, K., Devlin, J., & Hearst, M. A. (2020). Measuring and Improving Semantic Diversity of Dialogue Generation. Dalam Findings of the Association for Computational Linguistics: EMNLP 2020.
Hampel, R., & Stickler, U. (2012). The use of videoconferencing to support multimodal interaction in an online language classroom. ReCALL, 24(2), 116-137.
Mozilla Common Voice. (n.d.). Diperoleh daripada https://commonvoice.mozilla.org/
Educational Testing Service (ETS). (2021). Automated Scoring of Speech. Laporan Penyelidikan.
Hagiwara, M., & Tanner, J. (2024). Project MOSLA: Recording Every Moment of Second Language Acquisition. arXiv preprint arXiv:2403.17314.