SLABERT: Memodelkan Pemerolehan Bahasa Kedua dengan BERT

Jadual Kandungan

1. Pengenalan
2. Kerja Berkaitan
3. Metodologi
4. Eksperimen
- 4.1 Persediaan Eksperimen
- 4.2 Keputusan
5. Analisis
- 5.1 Pemindahan Positif vs Negatif
- 5.2 Jarak Keluarga Bahasa
6. Kesimpulan
7. Analisis Asal
8. Butiran Teknikal
9. Keputusan Eksperimen
10. Kajian Kes
11. Hala Tuju Masa Depan
12. Rujukan

1. Pengenalan

Penyelidikan pemerolehan bahasa kedua (SLA) telah mengkaji secara meluas pemindahan silang-linguistik, iaitu pengaruh struktur linguistik bahasa ibunda penutur [L1] terhadap kejayaan pemerolehan bahasa asing [L2]. Kesan pemindahan sedemikian boleh menjadi positif (memudahkan pemerolehan) atau negatif (menghalang pemerolehan). Kami mendapati bahawa literatur NLP tidak memberikan perhatian yang mencukupi kepada fenomena pemindahan negatif. Untuk memahami corak pemindahan positif dan negatif antara L1 dan L2, kami memodelkan pemerolehan bahasa kedua secara berurutan dalam model bahasa (LM). Selanjutnya, kami membina set data MAO-CHILDES (Multilingual Age Ordered CHILDES) yang terdiri daripada 5 bahasa yang pelbagai secara tipologi, iaitu Jerman, Perancis, Poland, Indonesia, dan Jepun untuk memahami sejauh mana pertuturan yang diarahkan kepada kanak-kanak (CDS) dalam bahasa ibunda [L1] dapat membantu atau bercanggah dengan pemerolehan bahasa Inggeris [L2].

2. Kerja Berkaitan

Pemindahan silang-linguistik telah mendapat perhatian yang besar dalam penyelidikan NLP (Wu dan Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017). Kebanyakan penyelidikan ini tertumpu kepada implikasi praktikal seperti sejauh mana tokenizer yang betul dapat mengoptimumkan pemindahan silang-linguistik, dan tidak melihat kepada jenis hubungan pemindahan berurutan yang timbul dalam pemerolehan bahasa kedua manusia. Pendekatan seperti Ujian untuk Bias Induktif melalui Pemindahan Model Bahasa (TILT) (Papadimitriou dan Jurafsky, 2020) memberi tumpuan kepada pemindahan positif dengan pasangan set latihan yang berbeza, seperti muzik MIDI dan bahasa Sepanyol, untuk menjelaskan jenis data yang mendorong ciri struktur yang boleh digeneralisasikan yang dikongsi oleh data linguistik dan bukan linguistik.

3. Metodologi

3.1 Pembinaan Set Data

Kami membina set data MAO-CHILDES daripada pangkalan data CHILDES, memilih pertuturan yang diarahkan kepada kanak-kanak daripada lima bahasa: Jerman (Germanik), Perancis (Roman), Poland (Slavik), Indonesia (Austronesia), dan Jepun (Japonik). Set data ini diatur mengikut usia untuk mensimulasikan sifat berurutan pemerolehan bahasa. Setiap subset bahasa mengandungi kira-kira 50,000 ujaran daripada penjaga yang ditujukan kepada kanak-kanak berumur 2-5 tahun.

3.2 Seni Bina Model

Rangka kerja SLABERT kami adalah berdasarkan seni bina BERT-base (Devlin et al., 2019) dengan 12 lapisan transformer, 768 dimensi tersembunyi, dan 12 kepala perhatian. Kami menggunakan proses latihan dua peringkat: pertama, model dilatih awal pada data CDS L1, kemudian ditala halus pada data CDS L2 (Bahasa Inggeris). Latihan berurutan ini mencerminkan proses SLA manusia di mana L1 diperoleh sebelum L2.

3.3 Prosedur Latihan

Prosedur latihan mengikut pendekatan pembelajaran pemindahan silang-linguistik berasaskan TILT. Model pertama kali dilatih pada data L1 menggunakan objektif pemodelan bahasa bertopeng (MLM) dengan kadar topeng 15%. Seterusnya, model ditala halus pada data CDS Bahasa Inggeris dengan objektif MLM yang sama. Fungsi kerugian ditakrifkan sebagai:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

di mana $\mathcal{M}$ ialah set kedudukan bertopeng dan $x_{\backslash \mathcal{M}}$ mewakili token yang tidak bertopeng.

4. Eksperimen

4.1 Persediaan Eksperimen

Kami menilai model kami pada suite ujian tatabahasa BLiMP (Penanda Aras Pasangan Minimal Linguistik untuk Bahasa Inggeris) (Warstadt et al., 2020), yang mengandungi 67 fenomena tatabahasa yang disusun dalam 13 kategori. Kami membandingkan model yang dilatih pada bahasa L1 yang berbeza dengan model asas yang dilatih hanya pada data CDS Bahasa Inggeris. Metrik penilaian adalah ketepatan pada set ujian BLiMP.

4.2 Keputusan

Jadual 1 menunjukkan ketepatan BLiMP untuk model yang dilatih dengan bahasa L1 yang berbeza. L1 Jerman menunjukkan pemindahan positif tertinggi (85.2%), manakala L1 Jepun menunjukkan yang terendah (72.1%), selaras dengan ramalan jarak keluarga bahasa. Perancis dan Poland menunjukkan keputusan pertengahan (masing-masing 81.3% dan 78.6%). Indonesia menunjukkan ketepatan 76.4%.

5. Analisis

5.1 Pemindahan Positif vs Negatif

Kami memerhatikan bahawa bahasa daripada keluarga yang sama (Germanik) dengan Bahasa Inggeris menunjukkan pemindahan positif yang dominan, manakala bahasa daripada keluarga yang jauh (Japonik) menunjukkan pemindahan negatif yang ketara. Ini selaras dengan penyelidikan SLA manusia yang menunjukkan bahawa jarak tipologi meramalkan kesan pemindahan (Jarvis dan Pavlenko, 2007).

5.2 Jarak Keluarga Bahasa

Kami mengukur jarak keluarga bahasa menggunakan metrik jarak filogenetik. Korelasi antara jarak keluarga bahasa dan pemindahan negatif adalah signifikan secara statistik (Pearson's r = -0.89, p < 0.05). Ini menunjukkan bahawa rangka kerja SLABERT boleh berfungsi sebagai model pengiraan untuk mengkaji hubungan tipologi.

6. Kesimpulan

Rangka kerja SLABERT kami berjaya memodelkan kedua-dua kesan pemindahan silang-linguistik positif dan negatif dalam pemerolehan bahasa kedua. Kami mendapati bahawa jarak keluarga bahasa meramalkan pemindahan negatif, dan data pertuturan perbualan menunjukkan fasilitasi yang lebih besar untuk pemerolehan bahasa berbanding data pertuturan skrip. Penemuan kami menyeru penyelidikan lanjut menggunakan model SLA berasaskan Transformer, dan kami melepaskan kod, data, dan model kami untuk menggalakkan perkara ini.

7. Analisis Asal

Pandangan Teras: SLABERT adalah percubaan berani untuk merapatkan linguistik pengiraan dan penyelidikan pemerolehan bahasa kedua, tetapi ia mengalami had asas: ia menyamakan latihan awal model bahasa dengan pemerolehan bahasa manusia, mengabaikan dimensi jasmani, sosial, dan kognitif SLA. Sumbangan utama kertas kerja adalah menunjukkan bahawa BERT boleh mensimulasikan kesan pemindahan silang-linguistik, tetapi ini adalah kemenangan yang sempit.

Aliran Logik: Penulis bermula daripada konsep SLA yang mantap iaitu pemindahan silang-linguistik, kemudian membina rangka kerja pengiraan untuk memodelkannya. Logiknya adalah kukuh: jika model bahasa boleh mempelajari struktur linguistik daripada data, maka latihan berurutan pada L1 kemudian L2 sepatutnya mendedahkan kesan pemindahan. Pembinaan set data MAO-CHILDES adalah inovasi praktikal, menyediakan data pertuturan yang diarahkan kepada kanak-kanak yang sah dari segi ekologi. Penggunaan BLiMP untuk penilaian adalah sesuai, kerana ia menguji pengetahuan tatabahasa.

Kekuatan & Kelemahan: Kekuatan utama adalah aplikasi novel pembelajaran pemindahan berasaskan TILT kepada SLA, yang membuka arah penyelidikan baharu. Penemuan bahawa jarak keluarga bahasa meramalkan pemindahan negatif adalah menarik dan selaras dengan kajian manusia. Walau bagaimanapun, kertas kerja ini mempunyai kelemahan yang ketara. Pertama, saiz sampel lima bahasa terlalu kecil untuk kesimpulan tipologi yang mantap. Kedua, model tidak mengambil kira kesan usia pemerolehan, yang penting dalam SLA manusia (Lenneberg, 1967). Ketiga, penilaian terhad kepada tatabahasa Bahasa Inggeris; kita tidak tahu sama ada model itu digeneralisasikan kepada L2 lain. Keempat, kertas kerja kekurangan perbandingan dengan model SLA tradisional seperti Model Persaingan (MacWhinney, 2005).

Pandangan Boleh Tindak: Untuk penyelidik, kerja ini menunjukkan bahawa model berasaskan Transformer boleh menjadi alat yang berguna untuk penyelidikan SLA, tetapi ia mesti digabungkan dengan model kognitif. Untuk pengamal, penemuan bahawa data pertuturan perbualan lebih berkesan daripada data skrip mempunyai implikasi untuk bahan pengajaran bahasa. Kerja masa depan harus memperluas sampel bahasa, memasukkan usia pemerolehan sebagai pembolehubah, dan menguji pada pelbagai L2. Pelepasan kod dan data oleh kertas kerja adalah terpuji dan harus memudahkan replikasi dan pengembangan.

8. Butiran Teknikal

Model SLABERT menggunakan seni bina BERT-base dengan 110M parameter. Hiperparameter latihan adalah: kadar pembelajaran 2e-5, saiz kelompok 32, panjang urutan maksimum 128, dan epok latihan 10 untuk latihan awal L1 dan 5 untuk penalaan halus L2. Pengoptimuman menggunakan AdamW dengan pengurangan berat 0.01. Objektif MLM menutup 15% token, dengan 80% digantikan oleh [MASK], 10% digantikan oleh token rawak, dan 10% tidak berubah.

Rumusan matematik objektif pembelajaran pemindahan adalah:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

di mana $\lambda$ ialah faktor penskalaan yang ditetapkan kepada 0.5 dalam eksperimen kami.

9. Keputusan Eksperimen

Rajah 1 (tidak ditunjukkan) membentangkan carta bar yang membandingkan ketepatan BLiMP merentasi bahasa L1. Garis dasar (Bahasa Inggeris sahaja) mencapai ketepatan 83.5%. L1 Jerman menunjukkan peningkatan tertinggi (+1.7%), manakala L1 Jepun menunjukkan penurunan terbesar (-11.4%). Perancis dan Poland menunjukkan kesan pertengahan. Keputusan mengesahkan bahawa jarak tipologi berkorelasi dengan pemindahan negatif.

Jadual 1: Ketepatan BLiMP mengikut Bahasa L1

Bahasa L1	Ketepatan (%)	Perubahan daripada Garis Dasar
Bahasa Inggeris (Garis Dasar)	83.5	-
Jerman	85.2	+1.7
Perancis	81.3	-2.2
Poland	78.6	-4.9
Indonesia	76.4	-7.1
Jepun	72.1	-11.4

10. Kajian Kes

Pertimbangkan fenomena tatabahasa Bahasa Inggeris iaitu persetujuan subjek-kata kerja. Dalam bahasa Jerman, yang mempunyai corak persetujuan yang serupa, model menunjukkan ketepatan yang tinggi (92%). Dalam bahasa Jepun, yang tidak mempunyai persetujuan orang-nombor, model menunjukkan ketepatan yang rendah (65%). Ini menunjukkan pemindahan negatif: tatabahasa L1 mengganggu pemerolehan L2. Contoh pasangan ayat daripada BLiMP:

Tatabahasa: "The dogs run fast."

Tidak Tatabahasa: "The dogs runs fast."

Model L1 Jerman mengenal pasti ayat tatabahasa dengan betul 92% daripada masa, manakala model L1 Jepun hanya 65% daripada masa.

11. Hala Tuju Masa Depan

Rangka kerja SLABERT membuka beberapa laluan untuk penyelidikan masa depan. Pertama, memperluas sampel bahasa untuk memasukkan lebih banyak bahasa yang pelbagai secara tipologi (contohnya, Arab, Mandarin, Swahili) akan mengukuhkan penemuan. Kedua, menggabungkan usia pemerolehan sebagai pembolehubah boleh memodelkan kesan tempoh kritikal dalam SLA (Lenneberg, 1967). Ketiga, menguji pada pelbagai L2 (contohnya, Sepanyol, Perancis) akan menguji kebolehgeneralisasian rangka kerja. Keempat, menggabungkan SLABERT dengan model kognitif seperti Model Persaingan (MacWhinney, 2005) boleh memberikan simulasi yang lebih realistik. Kelima, menggunakan rangka kerja untuk mengkaji kehilangan bahasa (kehilangan L1 akibat dominasi L2) adalah lanjutan semula jadi. Akhir sekali, rangka kerja boleh digunakan untuk membangunkan alat pembelajaran bahasa peribadi yang menyesuaikan diri dengan L1 pelajar.

12. Rujukan

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. Dalam Prosiding ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. Dalam Prosiding EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. Dalam Prosiding ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. Dalam Prosiding EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Dalam Prosiding NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Pengaruh Silang Linguistik dalam Bahasa dan Kognisi. Routledge.
Lenneberg, E. H. (1967). Asas Biologi Bahasa. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. Dalam Buku Panduan Dwibahasa: Pendekatan Psikolinguistik.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. Dalam Prosiding EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Jurnal Penyelidikan Kecerdasan Buatan, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transaksi ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. Dalam Prosiding EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. Dalam Prosiding ACL.