SLABERT: BERT를 활용한 제2언어 습득 모델링

1. 서론

제2언어 습득(SLA) 연구는 화자의 모국어(L1)의 언어 구조가 외국어(L2)의 성공적인 습득에 미치는 영향인 언어 간 전이에 대해 광범위하게 연구해 왔습니다. 이러한 전이의 효과는 긍정적(습득 촉진) 또는 부정적(습득 저해)일 수 있습니다. 자연어 처리(NLP) 문헌은 부정적 전이 현상에 충분한 주의를 기울이지 않았다고 판단됩니다. L1과 L2 간의 긍정적 및 부정적 전이 패턴을 이해하기 위해, 우리는 언어 모델(LM)에서의 순차적 제2언어 습득을 모델링합니다. 또한, 독일어, 프랑스어, 폴란드어, 인도네시아어, 일본어의 5가지 유형적으로 다양한 언어로 구성된 다국어 연령 순서 CHILDES(MAO-CHILDES) 데이터셋을 구축하여, 모국어 아동 지향 발화(CDS)(L1)가 영어 습득(L2)에 어느 정도 도움이 되거나 방해가 되는지 이해하고자 합니다.

2. 관련 연구

언어 간 전이는 NLP 연구에서 상당한 주목을 받아 왔습니다(Wu and Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017). 이러한 연구의 대부분은 올바른 토크나이저가 언어 간 전이를 최적화할 수 있는 정도와 같은 실용적인 함의에 집중해 왔으며, 인간의 제2언어 습득에서 발생하는 순차적 전이 관계의 종류를 살펴보지 않았습니다. 귀납적 편향 테스트를 위한 언어 모델 전이(TILT)(Papadimitriou and Jurafsky, 2020)와 같은 접근 방식은 MIDI 음악과 스페인어와 같은 다양한 훈련 세트 쌍을 사용한 긍정적 전이에 초점을 맞추어, 언어적 데이터와 비언어적 데이터가 공유하는 일반화 가능한 구조적 특징을 유도하는 데이터의 종류를 밝혀냅니다.

3. 방법론

3.1 데이터셋 구축

CHILDES 데이터베이스에서 MAO-CHILDES 데이터셋을 구축하여, 독일어(게르만어파), 프랑스어(로망스어파), 폴란드어(슬라브어파), 인도네시아어(오스트로네시아어파), 일본어(일본어파)의 다섯 가지 언어로 된 아동 지향 발화를 선택했습니다. 데이터셋은 언어 습득의 순차적 특성을 시뮬레이션하기 위해 연령 순으로 정렬되었습니다. 각 언어 하위 집합에는 2~5세 아동을 대상으로 한 양육자의 발화 약 50,000개가 포함되어 있습니다.

3.2 모델 아키텍처

SLABERT 프레임워크는 12개의 트랜스포머 레이어, 768개의 은닉 차원, 12개의 어텐션 헤드를 갖춘 BERT-base 아키텍처(Devlin et al., 2019)를 기반으로 합니다. 2단계 훈련 프로세스를 사용합니다. 먼저 모델을 L1 CDS 데이터로 사전 훈련시킨 다음, L2(영어) CDS 데이터로 미세 조정합니다. 이 순차적 훈련은 L1이 L2보다 먼저 습득되는 인간의 SLA 과정을 반영합니다.

3.3 훈련 절차

훈련 절차는 TILT 기반의 언어 간 전이 학습 접근 방식을 따릅니다. 모델은 먼저 15%의 마스킹 비율로 마스크 언어 모델링(MLM) 목적 함수를 사용하여 L1 데이터로 훈련됩니다. 그 후, 동일한 MLM 목적 함수를 사용하여 영어 CDS 데이터로 미세 조정됩니다. 손실 함수는 다음과 같이 정의됩니다:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

여기서 $\mathcal{M}$은 마스킹된 위치의 집합이고 $x_{\backslash \mathcal{M}}$은 마스킹되지 않은 토큰을 나타냅니다.

4. 실험

4.1 실험 설정

13개 범주로 구성된 67개의 문법 현상을 포함하는 BLiMP(영어 언어 최소 쌍 벤치마크) 문법 테스트 스위트(Warstadt et al., 2020)에서 모델을 평가합니다. 다양한 L1 언어로 훈련된 모델을 영어 CDS 데이터로만 훈련된 기준 모델과 비교합니다. 평가 지표는 BLiMP 테스트 세트에 대한 정확도입니다.

4.2 결과

표 1은 다양한 L1 언어로 훈련된 모델의 BLiMP 정확도를 보여줍니다. 독일어 L1은 가장 높은 긍정적 전이(85.2%)를 보인 반면, 일본어 L1은 가장 낮은 수치(72.1%)를 보여 언어 계통 거리 예측과 일치했습니다. 프랑스어와 폴란드어는 중간 결과(각각 81.3% 및 78.6%)를 보였습니다. 인도네시아어는 76.4%의 정확도를 보였습니다.

5. 분석

5.1 긍정적 전이 대 부정적 전이

영어와 같은 계통(게르만어파)의 언어는 주로 긍정적 전이를 보이는 반면, 먼 계통(일본어파)의 언어는 상당한 부정적 전이를 보이는 것을 관찰했습니다. 이는 유형론적 거리가 전이 효과를 예측한다는 인간 SLA 연구(Jarvis and Pavlenko, 2007)와 일치합니다.

5.2 언어 계통 거리

계통 발생적 거리 측정법을 사용하여 언어 계통 거리를 정량화했습니다. 언어 계통 거리와 부정적 전이 간의 상관관계는 통계적으로 유의미했습니다(Pearson's r = -0.89, p < 0.05). 이는 SLABERT 프레임워크가 유형론적 관계를 연구하기 위한 계산 모델로 사용될 수 있음을 시사합니다.

6. 결론

SLABERT 프레임워크는 제2언어 습득에서 긍정적 및 부정적 언어 간 전이 효과를 모두 성공적으로 모델링합니다. 언어 계통 거리가 부정적 전이를 예측하며, 대화형 음성 데이터가 대본화된 음성 데이터보다 언어 습득에 더 큰 촉진 효과를 보인다는 사실을 발견했습니다. 본 연구 결과는 트랜스포머 기반 SLA 모델을 사용한 추가 연구의 필요성을 제기하며, 이를 장려하기 위해 코드, 데이터 및 모델을 공개합니다.

7. 원본 분석

핵심 통찰: SLABERT는 전산 언어학과 제2언어 습득 연구를 연결하려는 대담한 시도이지만, 언어 모델 사전 훈련을 인간의 언어 습득과 동일시하고 SLA의 체화된, 사회적, 인지적 차원을 무시한다는 근본적인 한계를 가지고 있습니다. 이 논문의 주요 기여는 BERT가 언어 간 전이 효과를 시뮬레이션할 수 있음을 보여주는 것이지만, 이는 좁은 의미의 성과입니다.

논리적 흐름: 저자들은 잘 정립된 SLA 개념인 언어 간 전이에서 시작하여 이를 모델링하기 위한 계산 프레임워크를 구축합니다. 논리는 타당합니다. LM이 데이터에서 언어 구조를 학습할 수 있다면, L1 다음 L2에 대한 순차적 훈련은 전이 효과를 드러내야 합니다. MAO-CHILDES 데이터셋의 구축은 생태학적으로 타당한 아동 지향 발화 데이터를 제공하는 실용적인 혁신입니다. 평가에 BLiMP를 사용하는 것은 문법 지식을 테스트하므로 적절합니다.

강점 및 약점: 주요 강점은 TILT 기반 전이 학습을 SLA에 새롭게 적용하여 새로운 연구 방향을 열었다는 점입니다. 언어 계통 거리가 부정적 전이를 예측한다는 발견은 설득력이 있으며 인간 연구와 일치합니다. 그러나 이 논문에는 상당한 약점이 있습니다. 첫째, 5개 언어의 표본 크기는 강건한 유형론적 결론을 내리기에는 너무 작습니다. 둘째, 모델은 인간 SLA에서 중요한 습득 연령 효과(Lenneberg, 1967)를 고려하지 않습니다. 셋째, 평가가 영어 문법에 국한되어 있어 모델이 다른 L2로 일반화되는지 알 수 없습니다. 넷째, 경쟁 모델(MacWhinney, 2005)과 같은 전통적인 SLA 모델과의 비교가 부족합니다.

실행 가능한 통찰: 연구자들에게 이 연구는 트랜스포머 기반 모델이 SLA 연구에 유용한 도구가 될 수 있지만 인지 모델과 결합되어야 함을 시사합니다. 실무자에게는 대화형 음성 데이터가 대본화된 데이터보다 더 효과적이라는 발견이 언어 교육 자료에 시사점을 제공합니다. 향후 연구는 언어 표본을 확장하고, 습득 연령을 변수로 포함시키며, 여러 L2에서 테스트해야 합니다. 코드와 데이터를 공개한 점은 칭찬할 만하며 재현 및 확장을 촉진해야 합니다.

8. 기술적 세부 사항

SLABERT 모델은 1억 1천만 개의 파라미터를 가진 BERT-base 아키텍처를 사용합니다. 훈련 하이퍼파라미터는 학습률 2e-5, 배치 크기 32, 최대 시퀀스 길이 128, L1 사전 훈련 에폭 10, L2 미세 조정 에폭 5입니다. 최적화는 가중치 감쇠 0.01의 AdamW를 사용합니다. MLM 목적 함수는 토큰의 15%를 마스킹하며, 80%는 [MASK]로 대체되고, 10%는 무작위 토큰으로 대체되며, 10%는 변경되지 않습니다.

전이 학습 목적 함수의 수학적 공식은 다음과 같습니다:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

여기서 $\lambda$는 실험에서 0.5로 설정된 스케일링 팩터입니다.

9. 실험 결과

그림 1(표시되지 않음)은 L1 언어별 BLiMP 정확도를 비교하는 막대 차트를 보여줍니다. 기준(영어 전용)은 83.5%의 정확도를 달성합니다. 독일어 L1은 가장 큰 향상(+1.7%)을 보인 반면, 일본어 L1은 가장 큰 하락(-11.4%)을 보였습니다. 프랑스어와 폴란드어는 중간 효과를 보였습니다. 결과는 유형론적 거리가 부정적 전이와 상관관계가 있음을 확인시켜 줍니다.

표 1: L1 언어별 BLiMP 정확도

L1 언어	정확도 (%)	기준 대비 변화
영어 (기준)	83.5	-
독일어	85.2	+1.7
프랑스어	81.3	-2.2
폴란드어	78.6	-4.9
인도네시아어	76.4	-7.1
일본어	72.1	-11.4

10. 사례 연구

영어 문법 현상인 주어-동사 일치를 고려해 보십시오. 유사한 일치 패턴을 가진 독일어에서 모델은 높은 정확도(92%)를 보입니다. 인칭-수 일치가 없는 일본어에서 모델은 낮은 정확도(65%)를 보입니다. 이는 L1 문법이 L2 습득을 방해하는 부정적 전이를 보여줍니다. BLiMP의 예문 쌍:

문법적: "The dogs run fast."

비문법적: "The dogs runs fast."

독일어 L1 모델은 문법적 문장을 92%의 확률로 올바르게 식별하는 반면, 일본어 L1 모델은 65%의 확률로만 식별합니다.

11. 향후 방향

SLABERT 프레임워크는 향후 연구를 위한 여러 방향을 제시합니다. 첫째, 더 다양한 유형론적 언어(예: 아랍어, 중국어, 스와힐리어)를 포함하도록 언어 표본을 확장하면 연구 결과를 강화할 수 있습니다. 둘째, 습득 연령을 변수로 통합하면 SLA의 결정적 시기 효과를 모델링할 수 있습니다(Lenneberg, 1967). 셋째, 여러 L2(예: 스페인어, 프랑스어)에서 테스트하면 프레임워크의 일반화 가능성을 테스트할 수 있습니다. 넷째, SLABERT를 경쟁 모델(MacWhinney, 2005)과 같은 인지 모델과 결합하면 더 현실적인 시뮬레이션을 제공할 수 있습니다. 다섯째, 프레임워크를 언어 소멸(L2 우세로 인한 L1 상실) 연구에 적용하는 것은 자연스러운 확장입니다. 마지막으로, 이 프레임워크는 학습자의 L1에 적응하는 개인화된 언어 학습 도구를 개발하는 데 사용될 수 있습니다.

12. 참고 문헌

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In Proceedings of EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In Proceedings of ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In Proceedings of EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. In Handbook of Bilingualism: Psycholinguistic Approaches.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In Proceedings of EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In Proceedings of EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.

목차