SLABERT: Modelando a Aquisição de Segunda Língua com BERT

Índice

1. Introdução
2. Trabalhos Relacionados
3. Metodologia
4. Experimentos
- 4.1 Configuração Experimental
- 4.2 Resultados
5. Análise
- 5.1 Transferência Positiva vs Negativa
- 5.2 Distância entre Famílias Linguísticas
6. Conclusão
7. Análise Original
8. Detalhes Técnicos
9. Resultados Experimentais
10. Estudo de Caso
11. Direções Futuras
12. Referências

1. Introdução

A pesquisa em aquisição de segunda língua (ASL) tem estudado extensivamente a transferência cross-linguística, a influência da estrutura linguística da língua nativa do falante [L1] na aquisição bem-sucedida de uma língua estrangeira [L2]. Os efeitos dessa transferência podem ser positivos (facilitando a aquisição) ou negativos (dificultando a aquisição). Constatamos que a literatura de PLN não tem dado atenção suficiente ao fenômeno da transferência negativa. Para compreender os padrões de transferência positiva e negativa entre L1 e L2, modelamos a aquisição sequencial de segunda língua em modelos de linguagem. Além disso, construímos um conjunto de dados CHILDES Ordenado por Idade Multilíngue (MAO-CHILDES) composto por 5 línguas tipologicamente diversas, ou seja, alemão, francês, polonês, indonésio e japonês, para entender o grau em que a Fala Direcionada à Criança (CDS) nativa [L1] pode ajudar ou conflitar com a aquisição da língua inglesa [L2].

2. Trabalhos Relacionados

A transferência cross-linguística tem recebido atenção considerável na pesquisa em PLN (Wu e Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017). A maior parte dessa pesquisa tem se concentrado em implicações práticas, como o grau em que o tokenizador correto pode otimizar a transferência cross-linguística, e não examinou o tipo de relações de transferência sequencial que surgem na aquisição humana de segunda língua. Abordagens como o Teste de Viés Indutivo via Transferência de Modelo de Linguagem (TILT) (Papadimitriou e Jurafsky, 2020) focam na transferência positiva com pares divergentes de conjuntos de treinamento, como música MIDI e espanhol, para esclarecer quais tipos de dados induzem características estruturais generalizáveis que dados linguísticos e não linguísticos compartilham.

3. Metodologia

3.1 Construção do Conjunto de Dados

Construímos o conjunto de dados MAO-CHILDES a partir do banco de dados CHILDES, selecionando fala direcionada à criança de cinco línguas: alemão (germânica), francês (românica), polonês (eslava), indonésio (austronésia) e japonês (japônica). O conjunto de dados é ordenado por idade para simular a natureza sequencial da aquisição de linguagem. Cada subconjunto de língua contém aproximadamente 50.000 enunciados de cuidadores direcionados a crianças de 2 a 5 anos.

3.2 Arquitetura do Modelo

Nosso framework SLABERT é baseado na arquitetura BERT-base (Devlin et al., 2019) com 12 camadas transformer, 768 dimensões ocultas e 12 cabeças de atenção. Empregamos um processo de treinamento em dois estágios: primeiro, o modelo é pré-treinado em dados de CDS da L1, depois é ajustado fino em dados de CDS da L2 (inglês). Esse treinamento sequencial espelha o processo humano de ASL, onde a L1 é adquirida antes da L2.

3.3 Procedimento de Treinamento

O procedimento de treinamento segue a abordagem de aprendizado por transferência cross-linguística baseada em TILT. O modelo é primeiro treinado em dados da L1 usando o objetivo de modelagem de linguagem mascarada (MLM) com uma taxa de mascaramento de 15%. Subsequentemente, o modelo é ajustado fino em dados de CDS em inglês com o mesmo objetivo de MLM. A função de perda é definida como:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

onde $\mathcal{M}$ é o conjunto de posições mascaradas e $x_{\backslash \mathcal{M}}$ representa os tokens não mascarados.

4. Experimentos

4.1 Configuração Experimental

Avaliamos nossos modelos no conjunto de teste gramatical BLiMP (Benchmark de Pares Mínimos Linguísticos para Inglês) (Warstadt et al., 2020), que contém 67 fenômenos gramaticais organizados em 13 categorias. Comparamos modelos treinados em diferentes línguas L1 com um modelo de linha de base treinado apenas em dados de CDS em inglês. A métrica de avaliação é a acurácia no conjunto de teste BLiMP.

4.2 Resultados

A Tabela 1 mostra a acurácia BLiMP para modelos treinados com diferentes línguas L1. O alemão como L1 mostra a maior transferência positiva (85,2%), enquanto o japonês como L1 mostra a menor (72,1%), consistente com as previsões de distância entre famílias linguísticas. O francês e o polonês mostram resultados intermediários (81,3% e 78,6%, respectivamente). O indonésio mostra 76,4% de acurácia.

5. Análise

5.1 Transferência Positiva vs Negativa

Observamos que línguas da mesma família (germânica) que o inglês mostram predominantemente transferência positiva, enquanto línguas de famílias distantes (japônica) mostram transferência negativa significativa. Isso está alinhado com a pesquisa humana em ASL que mostra que a distância tipológica prevê efeitos de transferência (Jarvis e Pavlenko, 2007).

5.2 Distância entre Famílias Linguísticas

Quantificamos a distância entre famílias linguísticas usando métricas de distância filogenética. A correlação entre a distância entre famílias linguísticas e a transferência negativa é estatisticamente significativa (r de Pearson = -0,89, p < 0,05). Isso sugere que o framework SLABERT pode servir como um modelo computacional para estudar relações tipológicas.

6. Conclusão

Nosso framework SLABERT modela com sucesso tanto os efeitos de transferência cross-linguística positiva quanto negativa na aquisição de segunda língua. Descobrimos que a distância entre famílias linguísticas prevê transferência negativa, e dados de fala conversacional mostram maior facilitação para a aquisição de linguagem do que dados de fala com script. Nossas descobertas pedem mais pesquisas usando modelos de ASL baseados em Transformer, e disponibilizamos nosso código, dados e modelos para incentivar isso.

7. Análise Original

Insight Central: O SLABERT é uma tentativa ousada de unir a linguística computacional e a pesquisa em aquisição de segunda língua, mas sofre de uma limitação fundamental: ele equipara o pré-treinamento de modelo de linguagem à aquisição humana de linguagem, ignorando as dimensões corporificadas, sociais e cognitivas da ASL. A principal contribuição do artigo é demonstrar que o BERT pode simular efeitos de transferência cross-linguística, mas isso é uma vitória estreita.

Fluxo Lógico: Os autores partem do conceito bem estabelecido de ASL de transferência cross-linguística e, em seguida, constroem um framework computacional para modelá-lo. A lógica é sólida: se os modelos de linguagem podem aprender estrutura linguística a partir de dados, então o treinamento sequencial em L1 e depois L2 deve revelar efeitos de transferência. A construção do conjunto de dados MAO-CHILDES é uma inovação prática, fornecendo dados de fala direcionada à criança ecologicamente válidos. O uso do BLiMP para avaliação é apropriado, pois testa conhecimento gramatical.

Pontos Fortes e Falhas: O principal ponto forte é a aplicação inovadora do aprendizado por transferência baseado em TILT à ASL, o que abre uma nova direção de pesquisa. A descoberta de que a distância entre famílias linguísticas prevê transferência negativa é convincente e está alinhada com estudos humanos. No entanto, o artigo tem falhas significativas. Primeiro, o tamanho da amostra de cinco línguas é muito pequeno para conclusões tipológicas robustas. Segundo, o modelo não leva em conta os efeitos da idade de aquisição, que são cruciais na ASL humana (Lenneberg, 1967). Terceiro, a avaliação é limitada à gramática inglesa; não sabemos se o modelo generaliza para outras L2s. Quarto, o artigo carece de comparação com modelos tradicionais de ASL, como o Modelo de Competição (MacWhinney, 2005).

Insights Acionáveis: Para pesquisadores, este trabalho sugere que modelos baseados em Transformer podem ser ferramentas úteis para a pesquisa em ASL, mas devem ser combinados com modelos cognitivos. Para profissionais, a descoberta de que dados de fala conversacional são mais eficazes do que dados com script tem implicações para materiais de ensino de línguas. Trabalhos futuros devem expandir a amostra de línguas, incluir a idade de aquisição como uma variável e testar em múltiplas L2s. A disponibilização do código e dos dados pelo artigo é louvável e deve facilitar a replicação e extensão.

8. Detalhes Técnicos

O modelo SLABERT usa a arquitetura BERT-base com 110M parâmetros. Os hiperparâmetros de treinamento são: taxa de aprendizado 2e-5, tamanho do lote 32, comprimento máximo da sequência 128 e épocas de treinamento 10 para pré-treinamento em L1 e 5 para ajuste fino em L2. A otimização usa AdamW com decaimento de peso 0,01. O objetivo MLM mascara 15% dos tokens, com 80% substituídos por [MASK], 10% substituídos por tokens aleatórios e 10% inalterados.

A formulação matemática do objetivo de aprendizado por transferência é:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

onde $\lambda$ é um fator de escala definido como 0,5 em nossos experimentos.

9. Resultados Experimentais

A Figura 1 (não mostrada) apresenta um gráfico de barras comparando a acurácia BLiMP entre as línguas L1. A linha de base (apenas inglês) atinge 83,5% de acurácia. O alemão como L1 mostra a maior melhoria (+1,7%), enquanto o japonês como L1 mostra a maior queda (-11,4%). O francês e o polonês mostram efeitos intermediários. Os resultados confirmam que a distância tipológica se correlaciona com a transferência negativa.

Tabela 1: Acurácia BLiMP por Língua L1

Língua L1	Acurácia (%)	Mudança em relação à Linha de Base
Inglês (Linha de Base)	83,5	-
Alemão	85,2	+1,7
Francês	81,3	-2,2
Polonês	78,6	-4,9
Indonésio	76,4	-7,1
Japonês	72,1	-11,4

10. Estudo de Caso

Considere o fenômeno gramatical inglês de concordância sujeito-verbo. Em alemão, que tem padrões de concordância semelhantes, o modelo mostra alta acurácia (92%). Em japonês, que carece de concordância de pessoa-número, o modelo mostra baixa acurácia (65%). Isso demonstra transferência negativa: a gramática da L1 interfere na aquisição da L2. Um par de frases de exemplo do BLiMP:

Gramatical: "The dogs run fast."

Ungramatical: "The dogs runs fast."

O modelo com L1 alemão identifica corretamente a frase gramatical 92% das vezes, enquanto o modelo com L1 japonês apenas 65% das vezes.

11. Direções Futuras

O framework SLABERT abre várias avenidas para pesquisa futura. Primeiro, expandir a amostra de línguas para incluir línguas mais tipologicamente diversas (por exemplo, árabe, mandarim, suaíli) fortaleceria as descobertas. Segundo, incorporar a idade de aquisição como uma variável poderia modelar efeitos de período crítico na ASL (Lenneberg, 1967). Terceiro, testar em múltiplas L2s (por exemplo, espanhol, francês) testaria a generalizabilidade do framework. Quarto, combinar o SLABERT com modelos cognitivos como o Modelo de Competição (MacWhinney, 2005) poderia fornecer simulações mais realistas. Quinto, aplicar o framework para estudar a atrição linguística (perda da L1 devido à dominância da L2) é uma extensão natural. Finalmente, o framework poderia ser usado para desenvolver ferramentas personalizadas de aprendizado de línguas que se adaptam à L1 do aprendiz.

12. Referências

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In Proceedings of EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In Proceedings of ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In Proceedings of EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. In Handbook of Bilingualism: Psycholinguistic Approaches.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In Proceedings of EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In Proceedings of EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.