SLABERT: Modellizzazione dell'Acquisizione della Seconda Lingua con BERT

Indice dei Contenuti

1. Introduzione
2. Lavori Correlati
3. Metodologia
4. Esperimenti
- 4.1 Configurazione Sperimentale
- 4.2 Risultati
5. Analisi
- 5.1 Trasferimento Positivo vs Negativo
- 5.2 Distanza tra Famiglie Linguistiche
6. Conclusione
7. Analisi Originale
8. Dettagli Tecnici
9. Risultati Sperimentali
10. Caso di Studio
11. Direzioni Future
12. Riferimenti

1. Introduzione

La ricerca sull'acquisizione della seconda lingua (SLA) ha studiato ampiamente il trasferimento cross-linguistico, ovvero l'influenza della struttura linguistica della lingua nativa di un parlante [L1] sul successo nell'acquisizione di una lingua straniera [L2]. Gli effetti di tale trasferimento possono essere positivi (facilitando l'acquisizione) o negativi (ostacolando l'acquisizione). Riteniamo che la letteratura sul NLP non abbia prestato sufficiente attenzione al fenomeno del trasferimento negativo. Per comprendere i modelli di trasferimento sia positivo che negativo tra L1 e L2, modelliamo l'acquisizione sequenziale della seconda lingua nei modelli linguistici (LM). Inoltre, costruiamo un dataset Multilingual Age Ordered CHILDES (MAO-CHILDES) composto da 5 lingue tipologicamente diverse, ovvero tedesco, francese, polacco, indonesiano e giapponese, per comprendere in che misura il linguaggio nativo rivolto ai bambini (Child-Directed Speech, CDS) [L1] possa aiutare o entrare in conflitto con l'acquisizione della lingua inglese [L2].

2. Lavori Correlati

Il trasferimento cross-linguistico ha ricevuto notevole attenzione nella ricerca sul NLP (Wu e Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017). Gran parte di questa ricerca si è concentrata su implicazioni pratiche, come il grado in cui il tokenizer giusto può ottimizzare il trasferimento cross-linguistico, e non ha esaminato il tipo di relazioni di trasferimento sequenziale che emergono nell'acquisizione umana della seconda lingua. Approcci come il Test for Inductive Bias via Language Model Transfer (TILT) (Papadimitriou e Jurafsky, 2020) si concentrano sul trasferimento positivo con coppie divergenti di set di addestramento, come musica MIDI e spagnolo, per far luce su quali tipi di dati inducono caratteristiche strutturali generalizzabili che i dati linguistici e non linguistici condividono.

3. Metodologia

3.1 Costruzione del Dataset

Abbiamo costruito il dataset MAO-CHILDES a partire dal database CHILDES, selezionando il linguaggio rivolto ai bambini da cinque lingue: tedesco (germanica), francese (romanza), polacco (slava), indonesiano (austronesiana) e giapponese (giapponese). Il dataset è ordinato per età per simulare la natura sequenziale dell'acquisizione linguistica. Ogni sottoinsieme linguistico contiene circa 50.000 enunciati provenienti da caregiver rivolti a bambini di età compresa tra 2 e 5 anni.

3.2 Architettura del Modello

Il nostro framework SLABERT si basa sull'architettura BERT-base (Devlin et al., 2019) con 12 strati transformer, 768 dimensioni nascoste e 12 teste di attenzione. Impieghiamo un processo di addestramento in due fasi: prima, il modello viene pre-addestrato sui dati CDS della L1, poi viene messo a punto (fine-tuning) sui dati CDS della L2 (inglese). Questo addestramento sequenziale rispecchia il processo umano di SLA in cui la L1 viene acquisita prima della L2.

3.3 Procedura di Addestramento

La procedura di addestramento segue l'approccio di apprendimento per trasferimento cross-linguistico basato su TILT. Il modello viene prima addestrato sui dati della L1 utilizzando l'obiettivo di modellazione linguistica mascherata (MLM) con un tasso di mascheramento del 15%. Successivamente, il modello viene messo a punto sui dati CDS in inglese con lo stesso obiettivo MLM. La funzione di perdita è definita come:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

dove $\mathcal{M}$ è l'insieme delle posizioni mascherate e $x_{\backslash \mathcal{M}}$ rappresenta i token non mascherati.

4. Esperimenti

4.1 Configurazione Sperimentale

Valutiamo i nostri modelli sulla suite di test grammaticali BLiMP (Benchmark of Linguistic Minimal Pairs for English) (Warstadt et al., 2020), che contiene 67 fenomeni grammaticali organizzati in 13 categorie. Confrontiamo modelli addestrati su diverse lingue L1 con un modello di base addestrato solo su dati CDS in inglese. La metrica di valutazione è l'accuratezza sul set di test BLiMP.

4.2 Risultati

La Tabella 1 mostra l'accuratezza BLiMP per i modelli addestrati con diverse lingue L1. Il tedesco L1 mostra il più alto trasferimento positivo (85,2%), mentre il giapponese L1 mostra il più basso (72,1%), coerente con le previsioni basate sulla distanza tra famiglie linguistiche. Il francese e il polacco mostrano risultati intermedi (rispettivamente 81,3% e 78,6%). L'indonesiano mostra un'accuratezza del 76,4%.

5. Analisi

5.1 Trasferimento Positivo vs Negativo

Osserviamo che le lingue della stessa famiglia (germanica) dell'inglese mostrano prevalentemente un trasferimento positivo, mentre le lingue di famiglie distanti (giapponese) mostrano un significativo trasferimento negativo. Ciò è in linea con la ricerca umana sulla SLA che mostra che la distanza tipologica predice gli effetti di trasferimento (Jarvis e Pavlenko, 2007).

5.2 Distanza tra Famiglie Linguistiche

Quantifichiamo la distanza tra famiglie linguistiche utilizzando metriche di distanza filogenetica. La correlazione tra la distanza tra famiglie linguistiche e il trasferimento negativo è statisticamente significativa (r di Pearson = -0,89, p < 0,05). Ciò suggerisce che il framework SLABERT può fungere da modello computazionale per lo studio delle relazioni tipologiche.

6. Conclusione

Il nostro framework SLABERT modella con successo gli effetti di trasferimento cross-linguistico sia positivi che negativi nell'acquisizione della seconda lingua. Troviamo che la distanza tra famiglie linguistiche predice il trasferimento negativo, e che i dati di discorso conversazionale mostrano una maggiore facilitazione per l'acquisizione linguistica rispetto ai dati di discorso scriptato. I nostri risultati richiedono ulteriori ricerche utilizzando modelli SLA basati su Transformer, e rilasciamo il nostro codice, i dati e i modelli per incoraggiare questo.

7. Analisi Originale

Intuizione Centrale: SLABERT è un tentativo audace di collegare la linguistica computazionale e la ricerca sull'acquisizione della seconda lingua, ma soffre di una limitazione fondamentale: equipara il pre-addestramento del modello linguistico all'acquisizione umana del linguaggio, ignorando le dimensioni incarnate, sociali e cognitive della SLA. Il contributo chiave del documento è dimostrare che BERT può simulare gli effetti di trasferimento cross-linguistico, ma questa è una vittoria limitata.

Flusso Logico: Gli autori partono dal concetto ben consolidato di SLA del trasferimento cross-linguistico, quindi costruiscono un framework computazionale per modellarlo. La logica è solida: se i LM possono apprendere la struttura linguistica dai dati, allora l'addestramento sequenziale su L1 e poi L2 dovrebbe rivelare gli effetti di trasferimento. La costruzione del dataset MAO-CHILDES è un'innovazione pratica, che fornisce dati di linguaggio rivolto ai bambini ecologicamente validi. L'uso di BLiMP per la valutazione è appropriato, poiché testa la conoscenza grammaticale.

Punti di Forza e Debolezze: Il punto di forza principale è la nuova applicazione dell'apprendimento per trasferimento basato su TILT alla SLA, che apre una nuova direzione di ricerca. La scoperta che la distanza tra famiglie linguistiche predice il trasferimento negativo è convincente e si allinea con gli studi umani. Tuttavia, il documento presenta debolezze significative. In primo luogo, la dimensione del campione di cinque lingue è troppo piccola per conclusioni tipologiche robuste. In secondo luogo, il modello non tiene conto degli effetti dell'età di acquisizione, che sono cruciali nella SLA umana (Lenneberg, 1967). In terzo luogo, la valutazione è limitata alla grammatica inglese; non sappiamo se il modello generalizza ad altre L2. In quarto luogo, il documento manca di un confronto con modelli SLA tradizionali come il Competition Model (MacWhinney, 2005).

Spunti Operativi: Per i ricercatori, questo lavoro suggerisce che i modelli basati su Transformer possono essere strumenti utili per la ricerca SLA, ma devono essere combinati con modelli cognitivi. Per i professionisti, la scoperta che i dati di discorso conversazionale sono più efficaci dei dati scriptati ha implicazioni per i materiali didattici linguistici. Il lavoro futuro dovrebbe espandere il campione linguistico, includere l'età di acquisizione come variabile e testare su più L2. Il rilascio di codice e dati da parte del documento è encomiabile e dovrebbe facilitare la replica e l'estensione.

8. Dettagli Tecnici

Il modello SLABERT utilizza l'architettura BERT-base con 110 milioni di parametri. Gli iperparametri di addestramento sono: tasso di apprendimento 2e-5, dimensione del batch 32, lunghezza massima della sequenza 128 ed epoche di addestramento 10 per il pre-addestramento L1 e 5 per il fine-tuning L2. L'ottimizzazione utilizza AdamW con decadimento del peso 0,01. L'obiettivo MLM maschera il 15% dei token, con l'80% sostituito da [MASK], il 10% sostituito da token casuali e il 10% invariato.

La formulazione matematica dell'obiettivo di apprendimento per trasferimento è:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

dove $\lambda$ è un fattore di scala impostato a 0,5 nei nostri esperimenti.

9. Risultati Sperimentali

La Figura 1 (non mostrata) presenta un grafico a barre che confronta l'accuratezza BLiMP tra le lingue L1. La linea di base (solo inglese) raggiunge un'accuratezza dell'83,5%. Il tedesco L1 mostra il miglioramento più alto (+1,7%), mentre il giapponese L1 mostra il calo più grande (-11,4%). Il francese e il polacco mostrano effetti intermedi. I risultati confermano che la distanza tipologica è correlata al trasferimento negativo.

Tabella 1: Accuratezza BLiMP per Lingua L1

Lingua L1	Accuratezza (%)	Variazione dalla Linea di Base
Inglese (Linea di Base)	83,5	-
Tedesco	85,2	+1,7
Francese	81,3	-2,2
Polacco	78,6	-4,9
Indonesiano	76,4	-7,1
Giapponese	72,1	-11,4

10. Caso di Studio

Consideriamo il fenomeno grammaticale inglese dell'accordo soggetto-verbo. In tedesco, che ha modelli di accordo simili, il modello mostra un'elevata accuratezza (92%). In giapponese, che manca di accordo di persona e numero, il modello mostra una bassa accuratezza (65%). Ciò dimostra il trasferimento negativo: la grammatica L1 interferisce con l'acquisizione della L2. Una coppia di frasi di esempio da BLiMP:

Grammaticale: "The dogs run fast."

Non grammaticale: "The dogs runs fast."

Il modello con L1 tedesco identifica correttamente la frase grammaticale nel 92% dei casi, mentre il modello con L1 giapponese solo nel 65% dei casi.

11. Direzioni Future

Il framework SLABERT apre diverse strade per la ricerca futura. In primo luogo, espandere il campione linguistico per includere lingue tipologicamente più diverse (ad esempio, arabo, mandarino, swahili) rafforzerebbe i risultati. In secondo luogo, incorporare l'età di acquisizione come variabile potrebbe modellare gli effetti del periodo critico nella SLA (Lenneberg, 1967). In terzo luogo, testare su più L2 (ad esempio, spagnolo, francese) verificherebbe la generalizzabilità del framework. In quarto luogo, combinare SLABERT con modelli cognitivi come il Competition Model (MacWhinney, 2005) potrebbe fornire simulazioni più realistiche. In quinto luogo, applicare il framework allo studio dell'attrito linguistico (perdita della L1 a causa della dominanza della L2) è un'estensione naturale. Infine, il framework potrebbe essere utilizzato per sviluppare strumenti di apprendimento linguistico personalizzati che si adattano alla L1 dello studente.

12. Riferimenti

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In Proceedings of EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In Proceedings of ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In Proceedings of EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. In Handbook of Bilingualism: Psycholinguistic Approaches.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In Proceedings of EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In Proceedings of EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.