SLABERT: 用BERT模擬第二語言習得

1. 引言

第二語言習得（SLA）研究一直深入探討跨語言轉移，即講者母語（L1）嘅語言結構對成功習得外語（L2）嘅影響。呢種轉移嘅效應可以係正面（促進習得）或者負面（阻礙習得）。我哋發現NLP文獻對負轉移呢個現象嘅關注唔夠。為咗理解L1同L2之間正負轉移嘅模式，我哋喺語言模型中模擬順序嘅第二語言習得。此外，我哋建立咗一個多語言按年齡排序嘅CHILDES（MAO-CHILDES）數據集，包含五種語言類型學上多樣嘅語言，即德文、法文、波蘭文、印尼文同日文，以了解母語兒童導向語語（CDS）[L1]喺幾大程度上可以幫助或阻礙英文習得[L2]。

2. 相關研究

跨語言轉移喺NLP研究中得到咗相當多嘅關注（Wu and Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017）。呢啲研究大部分集中喺實際應用上，例如正確嘅分詞器可以喺幾大程度上優化跨語言轉移，而冇關注人類第二語言習得中出現嘅嗰種順序轉移關係。好似用語言模型轉移測試歸納偏置（TILT）呢啲方法（Papadimitriou and Jurafsky, 2020）就專注於用差異較大嘅訓練集對（例如MIDI音樂同西班牙文）嚟做正轉移，以闡明邊啲數據可以誘導出語言同非語言數據共享嘅可歸納結構特徵。

3. 方法

3.1 數據集構建

我哋從CHILDES數據庫構建咗MAO-CHILDES數據集，揀選咗五種語言嘅兒童導向語語：德文（日耳曼語系）、法文（羅曼語系）、波蘭文（斯拉夫語系）、印尼文（南島語系）同日文（日本語系）。數據集按年齡排序，以模擬語言習得嘅順序性質。每個語言子集包含大約50,000句由照顧者對2至5歲兒童講嘅說話。

3.2 模型架構

我哋嘅SLABERT框架基於BERT-base架構（Devlin et al., 2019），有12個Transformer層、768個隱藏維度同12個注意力頭。我哋採用兩階段訓練過程：首先，模型喺L1 CDS數據上進行預訓練，然後喺L2（英文）CDS數據上進行微調。呢種順序訓練模仿咗人類SLA嘅過程，即係先習得L1，再習得L2。

3.3 訓練流程

訓練流程遵循基於TILT嘅跨語言遷移學習方法。模型首先喺L1數據上使用遮罩語言建模（MLM）目標進行訓練，遮罩率為15%。隨後，模型喺英文CDS數據上使用相同嘅MLM目標進行微調。損失函數定義如下：

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

其中 $\mathcal{M}$ 係被遮罩位置嘅集合，而 $x_{\backslash \mathcal{M}}$ 代表未被遮罩嘅標記。

4. 實驗

4.1 實驗設置

我哋喺BLiMP（英文語言最小對比基準測試）語法測試套件（Warstadt et al., 2020）上評估我哋嘅模型，該套件包含67種語法現象，分為13個類別。我哋將喺唔同L1語言上訓練嘅模型同一個只喺英文CDS數據上訓練嘅基準模型進行比較。評估指標係BLiMP測試集上嘅準確率。

4.2 結果

表1顯示咗用唔同L1語言訓練嘅模型嘅BLiMP準確率。德文L1顯示出最高嘅正轉移（85.2%），而日文L1顯示出最低（72.1%），同語系距離嘅預測一致。法文同波蘭文顯示出中間結果（分別為81.3%同78.6%）。印尼文顯示出76.4%嘅準確率。

5. 分析

5.1 正轉移 vs 負轉移

我哋觀察到，同英文屬於同一語系（日耳曼語系）嘅語言主要顯示出正轉移，而嚟自遙遠語系（日本語系）嘅語言則顯示出顯著嘅負轉移。呢點同人類SLA研究一致，表明類型學距離可以預測轉移效應（Jarvis and Pavlenko, 2007）。

5.2 語系距離

我哋使用系統發育距離度量嚟量化語系距離。語系距離同負轉移之間嘅相關性具有統計顯著性（皮爾遜相關係數 r = -0.89，p < 0.05）。呢點表明SLABERT框架可以作為研究類型學關係嘅計算模型。

6. 結論

我哋嘅SLABERT框架成功模擬咗第二語言習得中嘅正負跨語言轉移效應。我哋發現語系距離可以預測負轉移，而對話式語語數據比腳本式語語數據更能促進語言習得。我哋嘅發現呼籲進一步使用基於Transformer嘅SLA模型進行研究，我哋亦會公開我哋嘅代碼、數據同模型以鼓勵呢方面嘅研究。

7. 原始分析

核心見解： SLABERT係一個大膽嘅嘗試，旨在連接計算語言學同第二語言習得研究，但佢有一個根本嘅限制：佢將語言模型預訓練等同於人類語言習得，忽略咗SLA中嘅體現、社會同認知維度。呢篇論文嘅主要貢獻係證明咗BERT可以模擬跨語言轉移效應，但呢個只係一個狹窄嘅勝利。

邏輯流程： 作者從SLA中成熟嘅跨語言轉移概念出發，然後建立一個計算框架嚟模擬佢。邏輯係合理嘅：如果語言模型可以從數據中學習語言結構，咁順序訓練L1然後L2應該會揭示轉移效應。MAO-CHILDES數據集嘅構建係一個實際嘅創新，提供咗生態效度較高嘅兒童導向語語數據。使用BLiMP進行評估係合適嘅，因為佢測試語法知識。

優點同缺點： 主要優點係將基於TILT嘅遷移學習新穎地應用於SLA，開闢咗一個新嘅研究方向。語系距離可以預測負轉移呢個發現好有說服力，同人類研究一致。然而，呢篇論文有顯著嘅缺點。第一，五種語言嘅樣本量太細，唔足以得出穩健嘅類型學結論。第二，模型冇考慮習得年齡嘅影響，而呢點喺人類SLA中至關重要（Lenneberg, 1967）。第三，評估僅限於英文語法；我哋唔知道模型係咪可以推廣到其他L2。第四，論文缺乏同傳統SLA模型（例如競爭模型，MacWhinney, 2005）嘅比較。

可行見解： 對於研究人員嚟講，呢項工作表明基於Transformer嘅模型可以成為SLA研究嘅有用工具，但必須同認知模型結合。對於從業者嚟講，對話式語語數據比腳本式數據更有效呢個發現對語言教學材料有啟示意義。未來嘅工作應該擴展語言樣本，將習得年齡作為一個變量包括在內，並喺多種L2上進行測試。論文公開代碼同數據係值得讚揚嘅，應該有助於複製同擴展。

8. 技術細節

SLABERT模型使用BERT-base架構，有1.1億個參數。訓練超參數係：學習率2e-5，批次大小32，最大序列長度128，L1預訓練嘅訓練週期數為10，L2微調嘅訓練週期數為5。優化使用AdamW，權重衰減為0.01。MLM目標遮罩15%嘅標記，其中80%被[MASK]替換，10%被隨機標記替換，10%保持不變。

遷移學習目標嘅數學公式係：

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

其中 $\lambda$ 係一個縮放因子，喺我哋嘅實驗中設置為0.5。

9. 實驗結果

圖1（未顯示）展示咗一個柱狀圖，比較咗唔同L1語言嘅BLiMP準確率。基準（僅英文）達到83.5%嘅準確率。德文L1顯示出最大嘅提升（+1.7%），而日文L1顯示出最大嘅下降（-11.4%）。法文同波蘭文顯示出中間效應。結果證實類型學距離同負轉移相關。

表1：按L1語言劃分嘅BLiMP準確率

L1語言	準確率 (%)	同基準嘅變化
英文（基準）	83.5	-
德文	85.2	+1.7
法文	81.3	-2.2
波蘭文	78.6	-4.9
印尼文	76.4	-7.1
日文	72.1	-11.4

10. 個案研究

考慮英文嘅主謂一致語法現象。喺德文中，由於有類似嘅一致模式，模型顯示出高準確率（92%）。喺日文中，由於缺乏人稱-數一致，模型顯示出低準確率（65%）。呢個展示咗負轉移：L1語法干擾L2習得。一個嚟自BLiMP嘅例句對：

合語法："The dogs run fast."

唔合語法："The dogs runs fast."

德文L1模型有92%嘅時間正確識別出合語法句子，而日文L1模型只有65%嘅時間。

11. 未來方向

SLABERT框架為未來研究開闢咗幾條途徑。第一，擴展語言樣本以包括更多類型學上多樣嘅語言（例如阿拉伯文、普通話、斯瓦希里文）可以加強研究結果。第二，將習得年齡作為一個變量納入，可以模擬SLA中嘅關鍵期效應（Lenneberg, 1967）。第三，喺多種L2（例如西班牙文、法文）上進行測試可以檢驗框架嘅泛化能力。第四，將SLABERT同認知模型（例如競爭模型，MacWhinney, 2005）結合可以提供更真實嘅模擬。第五，應用該框架研究語言磨損（由於L2主導導致L1喪失）係一個自然嘅延伸。最後，該框架可以用於開發適應學習者L1嘅個性化語言學習工具。

12. 參考文獻

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In Proceedings of EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In Proceedings of ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In Proceedings of EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. In Handbook of Bilingualism: Psycholinguistic Approaches.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In Proceedings of EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In Proceedings of EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.

目錄