SLABERT: BERT Tabanlı İkinci Dil Edinimi Modellemesi

İçindekiler

1. Giriş
2. İlgili Çalışmalar
3. Metodoloji
4. Deneyler
- 4.1 Deney Düzeni
- 4.2 Deney Sonuçları
5. Analiz
- 5.1 Olumlu ve Olumsuz Aktarım
- 5.2 Dil Ailesi Uzaklığı
6. Sonuç
7. Orijinal Analiz
8. Teknik Detaylar
9. Deneysel Sonuçlar
10. Vaka Çalışması
11. Gelecek Yönelimler
12. Kaynakça

1. Giriş

İkinci dil edinimi araştırmaları, konuşmacının ana dilinin yapısal özelliklerinin yabancı bir dili başarıyla edinme sürecini nasıl etkilediği olgusunu, yani diller arası aktarımı kapsamlı bir şekilde incelemiştir. Bu aktarım etkisi olumlu (edinimi kolaylaştıran) ya da olumsuz (edinimi engelleyen) olabilir. Doğal dil işleme literatürünün olumsuz aktarım olgusuna yeterince odaklanmadığını gözlemledik. Ana dil ile ikinci dil arasındaki olumlu ve olumsuz aktarım modellerini anlamak için, dil modellerinde sıralı bir ikinci dil edinimi sürecini simüle ettik. Ayrıca, ana dildeki çocuğa yönelik dilin İngilizce edinimini ne ölçüde kolaylaştırabileceğini veya engelleyebileceğini anlamak amacıyla, tipolojik olarak farklı beş dili (Almanca, Fransızca, Lehçe, Endonezce ve Japonca) içeren çok dilli, yaşa göre sıralanmış bir CHILDES veri kümesi oluşturduk.

2. İlgili Çalışmalar

Diller arası aktarım, doğal dil işleme araştırmalarında geniş çapta ilgi görmüştür. Çoğu çalışma, hangi tokenleştiricinin diller arası aktarımı en üst düzeye çıkarabileceği gibi pratik uygulama düzeylerine odaklanmış ve insan ikinci dil ediniminde ortaya çıkan sıralı aktarım ilişkilerini dikkate almamıştır. Dil modeli aktarımına dayalı tümevarımsal önyargı testi gibi yöntemler ise, hangi veri türlerinin dilsel veriler ile dilsel olmayan veriler arasında paylaşılan, genellenebilir yapısal özellikleri ortaya çıkarabileceğini belirlemek için, farklılaştırılmış eğitim seti çiftleri (örneğin MIDI müziği ve İspanyolca) kullanarak olumlu aktarımı incelemeye odaklanmıştır.

3. Metodoloji

3.1 Veri Kümesi Oluşturma

MAO-CHILDES veri kümesini CHILDES veritabanından oluşturduk ve beş dilde çocuğa yönelik konuşmayı seçtik: Almanca (Cermen dil ailesi), Fransızca (Roman dil ailesi), Lehçe (Slav dil ailesi), Endonezce (Avustronezya dil ailesi) ve Japonca (Japon dil ailesi). Bu veri kümesi, dil ediniminin sıralı doğasını simüle etmek için yaşa göre sıralanmıştır. Her bir dil alt kümesi, 2 ila 5 yaş arasındaki çocuklara yönelik bakıcı konuşmalarından yaklaşık 50.000 kayıt içermektedir.

3.2 Model Mimarisi

SLABERT çerçevemiz, 12 Transformer katmanı, 768 gizli boyut ve 12 dikkat başlığı içeren BERT-base mimarisine dayanmaktadır. İki aşamalı bir eğitim süreci benimsiyoruz: İlk olarak model, anadildeki çocuğa yönelik dil verileri üzerinde ön eğitimden geçirilir, ardından ikinci dildeki (İngilizce) çocuğa yönelik dil verileri üzerinde ince ayar yapılır. Bu sıralı eğitim, insan ikinci dil ediniminde önce anadilin, ardından ikinci dilin öğrenilmesi sürecini simüle eder.

3.3 Eğitim Süreci

Eğitim süreci, TILT tabanlı çapraz dil aktarımı öğrenme yöntemini izler. Model ilk olarak maskeleme dil modelleme hedefi ile ana dil verileri üzerinde %15 maskeleme oranıyla eğitilir. Ardından model, aynı maskeleme dil modelleme hedefi ile İngilizce çocuk odaklı dil verileri üzerinde ince ayar yapılır. Kayıp fonksiyonu şu şekilde tanımlanır:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

Burada $\mathcal{M}$ maskelenmiş konumlar kümesidir ve $x_{\backslash \mathcal{M}}$ maskelenmemiş belirteçleri temsil eder.

4. Deneyler

4.1 Deney Düzeni

Modelimizi, 13 kategoriye ayrılmış 67 dilbilgisi olgusunu içeren BLiMP İngilizce dilbilgisi test seti üzerinde değerlendiriyoruz. Farklı ana dillerle eğitilmiş modelleri, yalnızca İngilizce çocuk odaklı dil verileriyle eğitilmiş temel modelle karşılaştırıyoruz. Değerlendirme ölçütü, BLiMP test seti üzerindeki doğruluk oranıdır.

4.2 Deney Sonuçları

Tablo 1, farklı ana dillerle eğitilen modellerin BLiMP doğruluk oranlarını göstermektedir. Almanca ana dili en yüksek pozitif transferi (%85,2) sergilerken, Japonca ana dili en düşük pozitif transferi (%72,1) göstermiştir; bu durum dil ailesi mesafesi tahminleriyle tutarlıdır. Fransızca ve Lehçe ise orta düzey sonuçlar vermiştir (sırasıyla %81,3 ve %78,6). Endonezce %76,4 doğruluk oranı göstermiştir.

5. Analiz

5.1 Olumlu ve Olumsuz Aktarım

İngilizce ile aynı dil ailesine (Cermen dilleri) ait dillerin ağırlıklı olarak pozitif transfer sergilediğini, uzak akraba dil ailelerinden (Japon dilleri) gelen dillerin ise belirgin bir negatif transfer gösterdiğini gözlemledik. Bu durum, insan ikinci dil edinimi çalışmalarında tipolojik mesafenin transfer etkisini öngördüğü sonucuyla tutarlıdır.

5.2 Dil Ailesi Uzaklığı

我们使用系统发育距离度量来量化语系距离。语系距离与负迁移之间的相关性具有统计学显著性（Pearson's r = -0.89, p < 0.05）。这表明SLABERT框架可以作为研究类型学关系的计算模型。

6. Sonuç

SLABERT çerçevemiz, ikinci dil edinimindeki pozitif ve negatif transfer etkilerini başarıyla modelledi. Dil ailesi mesafesinin negatif transferi öngörebildiğini ve konuşma temelli dil verilerinin, senaryo temelli dil verilerine kıyasla dil edinimini daha fazla teşvik ettiğini bulduk. Bulgularımız, Transformer tabanlı ikinci dil edinimi modelleri üzerine daha fazla araştırma yapılmasını teşvik etmekte olup, ilgili araştırmaları desteklemek için kod, veri ve modeli kamuya açık hale getirdik.

7. Orijinal Analiz

Temel Çıkarımlar: SLABERT, hesaplamalı dilbilim ile ikinci dil edinimi araştırmalarını birleştirmeye yönelik cesur bir girişimdir, ancak temel bir sınırlamaya sahiptir: dil modeli ön eğitimini insan dil edinimiyle eş tutar ve ikinci dil edinimindeki bedensel, sosyal ve bilişsel boyutları göz ardı eder. Makalenin ana katkısı, BERT'in diller arası transfer etkilerini simüle edebildiğini göstermesidir, ancak bu dar kapsamlı bir başarıdır.

Mantıksal Akış: Yazar, ikinci dil edinimindeki olgunlaşmış dillerarası aktarım kavramından yola çıkarak, bunu modellemek için bir hesaplama çerçevesi oluşturmuştur. Mantığı makuldür: Eğer dil modelleri verilerden dil yapılarını öğrenebiliyorsa, anadil ve ikinci dil üzerindeki sıralı eğitim, aktarım etkilerini ortaya çıkarmalıdır. MAO-CHILDES veri kümesinin oluşturulması, yüksek ekolojik geçerliliğe sahip çocuğa yönelik dil verileri sağlayan pratik bir yeniliktir. Değerlendirme için BLiMP kullanılması uygundur çünkü dilbilgisi bilgisini test eder.

Avantajlar ve Dezavantajlar: Temel avantaj, TILT tabanlı transfer öğreniminin ikinci dil edinimine yenilikçi bir şekilde uygulanması ve yeni bir araştırma yönü açmasıdır. Dil ailesi mesafesinin negatif aktarımı öngördüğü bulgusu ikna edicidir ve insan çalışmalarıyla tutarlıdır. Ancak makalenin belirgin eksiklikleri vardır. İlk olarak, beş dilin örneklem büyüklüğü sağlam tipolojik sonuçlar çıkarmak için çok küçüktür. İkinci olarak, model, insan ikinci dil ediniminde kritik olan edinim yaşının etkisini dikkate almamaktadır. Üçüncü olarak, değerlendirme yalnızca İngilizce dilbilgisi ile sınırlıdır; modelin diğer ikinci dillere genelleme yapıp yapamadığını bilmiyoruz. Dördüncü olarak, makale, Rekabet Modeli gibi geleneksel ikinci dil edinim modelleriyle karşılaştırma yapmaktan yoksundur.

Uygulanabilir İçgörüler: Araştırmacılar için bu çalışma, Transformer tabanlı modellerin ikinci dil edinimi araştırmalarında yararlı bir araç olabileceğini, ancak bilişsel modellerle birleştirilmesi gerektiğini göstermektedir. Uygulayıcılar için, konuşma temelli dil verilerinin betik temelli verilerden daha etkili olduğu bulgusu, dil öğretim materyalleri için çıkarımlar sağlamaktadır. Gelecekteki çalışmalar dil örneklemini genişletmeli, edinim yaşını bir değişken olarak dahil etmeli ve birden fazla ikinci dil üzerinde test yapmalıdır. Makalenin kodu ve verileri kamuya açık hale getirmesi takdire şayandır ve sonraki tekrarlama ve genişletme çalışmalarına yardımcı olmalıdır.

8. Teknik Detaylar

SLABERT modeli, 110 milyon parametreli BERT-base mimarisini kullanmaktadır. Eğitim hiperparametreleri şunlardır: öğrenme oranı 2e-5, parti boyutu 32, maksimum dizi uzunluğu 128, anadil ön eğitimi 10 epoch, ikinci dil ince ayarı 5 epoch. Optimizasyon için AdamW kullanılmış, ağırlık azalması 0.01'dir. Maskeli dil modelleme hedefi, tokenlerin %15'ini maskeler; bunların %80'i [MASK] ile, %10'u rastgele tokenlerle değiştirilir, %10'u ise değişmeden kalır.

Transfer öğrenme hedefinin matematiksel formülü şöyledir:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

Burada $\lambda$ ölçeklendirme faktörüdür ve deneylerimizde 0,5 olarak ayarlanmıştır.

9. Deneysel Sonuçlar

Şekil 1 (gösterilmemiştir), farklı ana diller altındaki BLiMP doğruluk oranlarını karşılaştıran bir sütun grafiği sunmaktadır. Temel model (yalnızca İngilizce) %83,5 doğruluk oranına ulaşmıştır. Almanca ana dili en büyük artışı (+%1,7) gösterirken, Japonca ana dili en büyük düşüşü (-%11,4) göstermiştir. Fransızca ve Lehçe orta düzey etkiler sergilemiştir. Sonuçlar, tipolojik mesafenin negatif transfer ile ilişkili olduğunu doğrulamıştır.

Tablo 1: Farklı Ana Diller için BLiMP Doğruluk Oranları

Ana dil	Doğruluk (%)	Tabana göre değişim
İngilizce (taban)	83.5	-
Almanca	85.2	+1.7
Fransızca	81.3	-2.2
Lehçe	78.6	-4.9
Endonezce	76.4	-7.1
Japonca	72.1	-11.4

10. Vaka Çalışması

İngilizce dilbilgisindeki özne-yüklem uyumunu ele alalım. Benzer uyum kalıplarına sahip Almanca'da model yüksek doğruluk (%92) göstermektedir. Kişi-sayı uyumunun bulunmadığı Japonca'da model düşük doğruluk (%65) göstermektedir. Bu, negatif transferi kanıtlar: ana dil dilbilgisi, ikinci dil edinimine müdahale eder. BLiMP'ten örnek bir cümle çifti:

Dilbilgisel cümle: "The dogs run fast."

Dilbilgisi dışı cümle: "The dogs runs fast."

Almanca anadili modelinin dilbilgisi açısından doğru cümleleri tanıma olasılığı %92 iken, Japonca anadili modelinde bu oran yalnızca %65'tir.

11. Gelecek Yönelimler

SLABERT çerçevesi gelecekteki araştırmalar için birkaç yol açmaktadır. İlk olarak, dil örnekleminin tipolojik olarak daha çeşitli dilleri (örneğin Arapça, Mandarin Çincesi, Svahili) içerecek şekilde genişletilmesi, araştırma bulgularını güçlendirecektir. İkinci olarak, edinim yaşının bir değişken olarak dahil edilmesi, ikinci dil edinimindeki kritik dönem etkisini simüle edebilir. Üçüncü olarak, çerçevenin genelleme yeteneğini test etmek için birden fazla ikinci dilde (örneğin İspanyolca, Fransızca) test edilmesi mümkündür. Dördüncü olarak, SLABERT'in Rekabet Modeli gibi bilişsel modellerle birleştirilmesi daha gerçekçi simülasyonlar sağlayabilir. Beşinci olarak, çerçevenin dil aşınmasını (ikinci dil baskınlığı nedeniyle anadil kaybı) incelemek için uygulanması doğal bir uzantıdır. Son olarak, bu çerçeve, öğrencinin anadiline uyum sağlayan kişiselleştirilmiş dil öğrenme araçları geliştirmek için kullanılabilir.

12. Kaynakça

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In EMNLP Bildirileri.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In ICLR Bildirileri.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In EMNLP Bildirileri.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL-HLT Bildirileri.
Jarvis, S., & Pavlenko, A. (2007). Dil ve Bilişte Diller Arası Etki. Routledge.
Lenneberg, E. H. (1967). Dilin Biyolojik Temelleri. Wiley.
MacWhinney, B. (2005). Dil ediniminin birleşik bir modeli. İçinde İki Dillilik El Kitabı: Psikodilbilimsel Yaklaşımlar.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In EMNLP Bildirileri.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In EMNLP Bildirileri.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.