SLABERT：使用BERT建模第二語言習得

1. 引言

第二語言習得研究已廣泛探討跨語言遷移，即說話者母語的語言結構對外語成功習得的影響。此類遷移的效果可能是正向的（促進習得）或負向的（阻礙習得）。我們發現自然語言處理文獻對負向遷移現象的重視不足。為了解母語與第二語言之間正向與負向遷移的模式，我們在語言模型中對序列性的第二語言習得進行建模。此外，我們建構了一個多語言年齡排序的CHILDES資料集，包含五種語言類型多樣的語言，即德語、法語、波蘭語、印尼語和日語，以了解母語兒童導向語語在多大程度上能幫助或干擾英語的習得。

2. 相關研究

跨語言遷移在自然語言處理研究中已獲得相當多的關注。大多數研究集中在實際應用層面，例如何種分詞器能最佳化跨語言遷移，而未探討人類第二語言習得中出現的序列性遷移關係。像TILT這類方法則專注於使用差異較大的訓練集對（如MIDI音樂與西班牙語）進行正向遷移研究，以闡明哪些類型的資料能誘發出語言與非語言資料共享的可泛化結構特徵。

3. 研究方法

3.1 資料集建構

我們從CHILDES資料庫建構了MAO-CHILDES資料集，選取了五種語言的兒童導向語語：德語（日耳曼語系）、法語（羅曼語系）、波蘭語（斯拉夫語系）、印尼語（南島語系）和日語（日本語系）。該資料集按年齡排序，以模擬語言習得的序列性。每種語言的子集包含約五萬句照顧者對2至5歲兒童所說的語句。

3.2 模型架構

我們的SLABERT框架基於BERT-base架構，包含12個Transformer層、768個隱藏維度以及12個注意力頭。我們採用兩階段訓練流程：首先，模型在母語兒童導向語語資料上進行預訓練，然後在第二語言（英語）兒童導向語語資料上進行微調。此序列性訓練模擬了人類先習得母語再習得第二語言的過程。

3.3 訓練流程

訓練流程遵循基於TILT的跨語言遷移學習方法。模型首先使用遮蔽語言建模目標在母語資料上進行訓練，遮蔽率為15%。隨後，模型使用相同的遮蔽語言建模目標在英語兒童導向語語資料上進行微調。損失函數定義如下：

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

其中 $\mathcal{M}$ 是遮蔽位置的集合，$x_{\backslash \mathcal{M}}$ 代表未被遮蔽的詞元。

4. 實驗

4.1 實驗設置

我們在BLiMP英語語法測試集上評估我們的模型，該測試集包含67個語法現象，分為13個類別。我們將在不同母語語言上訓練的模型與僅在英語兒童導向語語資料上訓練的基準模型進行比較。評估指標為BLiMP測試集上的準確率。

4.2 結果

表1顯示了使用不同母語語言訓練的模型在BLiMP上的準確率。德語母語表現出最高的正向遷移（85.2%），而日語母語表現出最低的準確率（72.1%），這與語言系屬距離的預測一致。法語和波蘭語表現出中間結果（分別為81.3%和78.6%）。印尼語的準確率為76.4%。

5. 分析

5.1 正向與負向遷移

我們觀察到，與英語同語系（日耳曼語系）的語言主要表現出正向遷移，而來自遠親語系（日本語系）的語言則表現出顯著的負向遷移。這與人類第二語言習得研究中類型學距離預測遷移效應的結論一致。

5.2 語言系屬距離

我們使用系統發生距離量化語言系屬距離。語言系屬距離與負向遷移之間的相關性具有統計顯著性（皮爾遜相關係數 r = -0.89，p < 0.05）。這表明SLABERT框架可以作為研究類型學關係的計算模型。

6. 結論

我們的SLABERT框架成功模擬了第二語言習得中的正向與負向跨語言遷移效應。我們發現語言系屬距離能預測負向遷移，且對話式語語資料比腳本式語語資料更能促進語言習得。我們的研究結果呼籲進一步使用基於Transformer的第二語言習得模型進行研究，我們也開源了程式碼、資料和模型以鼓勵此方向的研究。

7. 原始分析

核心見解： SLABERT是連結計算語言學與第二語言習得研究的一次大膽嘗試，但它存在一個根本限制：它將語言模型預訓練等同於人類語言習得，忽略了第二語言習得中具身、社會和認知層面的維度。該論文的主要貢獻在於證明了BERT可以模擬跨語言遷移效應，但這是一個狹隘的勝利。

邏輯脈絡： 作者從第二語言習得中已確立的跨語言遷移概念出發，然後建立了一個計算框架來建模。邏輯是合理的：如果語言模型能從資料中學習語言結構，那麼在母語上進行序列性訓練後再進行第二語言訓練，應該能揭示遷移效應。MAO-CHILDES資料集的建構是一項實務創新，提供了生態效度高的兒童導向語語資料。使用BLiMP進行評估是合適的，因為它測試了語法知識。

優勢與缺陷： 主要優勢在於將基於TILT的遷移學習新穎地應用於第二語言習得，開闢了一個新的研究方向。語言系屬距離預測負向遷移的發現具有說服力，且與人類研究一致。然而，該論文存在顯著缺陷。首先，五種語言的樣本量對於得出穩健的類型學結論來說太小。其次，該模型未考慮習得年齡的影響，而這在人類第二語言習得中至關重要。第三，評估僅限於英語語法；我們不知道該模型是否能泛化到其他第二語言。第四，該論文缺乏與傳統第二語言習得模型（如競爭模型）的比較。

可行見解： 對於研究人員而言，這項工作表明基於Transformer的模型可以成為第二語言習得研究的有用工具，但必須與認知模型結合。對於實務工作者而言，對話式語語資料比腳本式資料更有效的發現對語言教材的編寫具有啟示意義。未來的工作應擴展語言樣本，將習得年齡作為變數納入，並在多種第二語言上進行測試。該論文開源程式碼和資料的做法值得讚賞，應有助於研究的複製和擴展。

8. 技術細節

SLABERT模型使用具有1.1億參數的BERT-base架構。訓練超參數為：學習率2e-5，批次大小32，最大序列長度128，母語預訓練10個週期，第二語言微調5個週期。優化使用AdamW，權重衰減為0.01。遮蔽語言建模目標遮蔽15%的詞元，其中80%替換為[MASK]，10%替換為隨機詞元，10%保持不變。

遷移學習目標的數學公式為：

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

其中 $\lambda$ 是縮放因子，在我們的實驗中設為0.5。

9. 實驗結果

圖1（未顯示）呈現了一個長條圖，比較了不同母語語言在BLiMP上的準確率。基準模型（僅英語）達到了83.5%的準確率。德語母語表現出最大的提升（+1.7%），而日語母語表現出最大的下降（-11.4%）。法語和波蘭語表現出中間效應。結果證實類型學距離與負向遷移相關。

表1：各母語語言的BLiMP準確率

母語語言	準確率 (%)	與基準的變化
英語（基準）	83.5	-
德語	85.2	+1.7
法語	81.3	-2.2
波蘭語	78.6	-4.9
印尼語	76.4	-7.1
日語	72.1	-11.4

10. 案例研究

考慮英語語法現象中的主謂一致。在具有相似一致模式的德語中，模型表現出高準確率（92%）。在缺乏人稱-數一致的日語中，模型表現出低準確率（65%）。這說明了負向遷移：母語語法干擾了第二語言的習得。來自BLiMP的一對範例句子：

合語法："The dogs run fast."

不合語法："The dogs runs fast."

德語母語模型有92%的機率正確識別出合語法的句子，而日語母語模型只有65%的機率。

11. 未來方向

SLABERT框架為未來研究開闢了多條途徑。首先，擴展語言樣本以包含更多類型學多樣的語言（例如阿拉伯語、普通話、斯瓦希里語）將有助於強化研究發現。其次，將習得年齡作為變數納入，可以模擬第二語言習得中的關鍵期效應。第三，在多種第二語言（例如西班牙語、法語）上進行測試，可以檢驗該框架的泛化能力。第四，將SLABERT與競爭模型等認知模型結合，可以提供更真實的模擬。第五，應用該框架研究語言磨蝕（因第二語言主導而導致的母語喪失）是一個自然的延伸。最後，該框架可用於開發適應學習者母語的個人化語言學習工具。

12. 參考文獻

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In Proceedings of EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In Proceedings of ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In Proceedings of EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. In Handbook of Bilingualism: Psycholinguistic Approaches.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In Proceedings of EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In Proceedings of EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.

目錄