MOSLA Projesi: İkinci Dil Edinimi Araştırmaları için Çok Kipli, Boylamsal Bir Veri Kümesi

1. Giriş

İkinci dil edinimi (İDE), geleneksel olarak parçalı, tek kipli veya kısa vadeli veri kümeleri üzerinden incelenen karmaşık ve dinamik bir süreçtir. MOSLA Projesi (İkinci Dil Edinimi Anları), bu sınırlamaları aşmak için öncü bir boylamsal, çok kipli, çok dilli ve kontrollü veri kümesi oluşturuyor. Proje, katılımcıların Arapça, İspanyolca veya Çince'yi sıfırdan, yalnızca çevrimiçi dersler aracılığıyla iki yıl boyunca öğrenme sürecini belgeliyor ve her dersi kaydediyor. Yarı otomatik etiketlemelerle eşleştirilmiş, 250 saatten fazla video, ses ve ekran kaydından oluşan bu veri kümesi, dil öğreniminin nüanslı seyrini incelemek için benzeri görülmemiş bir kaynak sunuyor.

2. Veri Toplama Metodolojisi

MOSLA veri kümesi, tutarlılık ve araştırma geçerliliğini sağlamak amacıyla titiz ve kontrollü bir protokol altında oluşturulmuştur.

2.1 Katılımcı Seçimi & Dil Seçimi

Katılımcılar, üç hedef dilden birini (Arapça, İspanyolca veya Mandarin Çincesi) öğrenmek üzere seçilmiştir. Seçim, Latin alfabesi dışında yazı sistemlerine sahip dilleri (Arapça ve Çince) içererek, veri kümesinin diller arası uygulanabilirliğini yaygın olarak çalışılan Hint-Avrupa dillerinin ötesine genişletmektedir.

2.2 Kontrollü Öğrenme Ortamı

Temel bir tasarım özelliği, kontrollü maruz kalma zorunluluğudur. Katılımcılar, iki yıllık çalışma süresi boyunca hedef dili yalnızca sağlanan çevrimiçi dersler aracılığıyla öğrenmeyi kabul etmiştir. Bu kontrol, harici dil maruziyetinden kaynaklanan karıştırıcı değişkenleri en aza indirerek, yeterlilik kazanımlarının daha net bir şekilde öğretim yöntemine atfedilmesini sağlamaktadır.

2.3 Çok Kipli Kayıt Kurulumu

Tüm dersler Zoom üzerinden yürütülmüş ve üç senkronize akış kaydedilmiştir:

Video: Katılımcı ve eğitmen web kamerası görüntüleri.
Ses: Dersin tamamının ses kaydı.
Ekran Paylaşımı: Eğitmenin öğretim materyalleri, slaytlar ve uygulamalar içeren paylaşılan ekranı.

Bu üçlü, öğrenme etkileşiminin zengin ve bağlamsal bir kaydını oluşturmaktadır.

Veri Kümesine Genel Bakış

Süre: Katılımcı başına ~2 yıl
Toplam Kayıt: >250 saat
Kipler: Video, Ses, Ekran
Hedef Diller: 3 (Arapça, İspanyolca, Çince)
Kontrol: Yalnızca çevrimiçi öğretim

3. Veri Etiketleme Süreci

Ham kayıtlar, yapılandırılmış ve sorgulanabilir üst veri oluşturmak için yarı otomatik bir süreçten geçirilmiştir.

3.1 Yarı Otomatik Etiketleme Çerçevesi

Etiketlemeler, insan-makine hibrit bir yaklaşım kullanılarak üretilmiştir:

Konuşmacı Diyarizasyonu: Sesin konuşmacı-homojen bölgelere ayrılması ("kim, ne zaman konuştu?").
Konuşmacı Tanımlama: Bölümlerin 'eğitmen' veya 'öğrenen' olarak etiketlenmesi.
Dil Tanımlama: Bölümlerin dile göre etiketlenmesi (örn., Ana Dil/İngilizce vs. Hedef Dil).
Otomatik Konuşma Tanıma (OKT): Tüm konuşma bölümleri için döküm oluşturulması.

İlk etiketlemeler insan etiketleyiciler tarafından oluşturulmuş ve en gelişmiş modellerin ince ayarı için kullanılan bir altın standart alt küme oluşturulmuştur.

3.2 Model İnce Ayarı & Performansı

Önceden eğitilmiş modeller (örn., OKT, diyarizasyon için), insan tarafından etiketlenmiş MOSLA verileri üzerinde ince ayarlanmıştır. Makale, ince ayardan sonra kayda değer performans iyileştirmeleri bildirmektedir; bu, büyük önceden eğitilmiş modeller için bile alana özgü verilerin değerini göstermektedir. Bu adım, etiketlemenin 250+ saatlik tüm derlemeye ölçeklendirilmesi için çok önemliydi.

4. Dilbilimsel & Çok Kipli Analiz

Etiketlenmiş veri kümesi, İDE sürecinin yeni analizlerine olanak tanımaktadır.

4.1 Yeterlilik Gelişim Metrikleri

Boylamsal eğilimler, aşağıdaki gibi metrikler kullanılarak analiz edilmiştir:

Hedef Dil Oranı: Öğrenenin zaman içinde hedef dildeki ifadelerinin ana diline göre yüzdesi.
Sözcük Çeşitliliği: Kelime dağarcığı büyümesi ve karmaşıklığının ölçülmesi (örn., Tip-Token Oranı ile).
İfade Uzunluğu & Karmaşıklığı: Sözdizimsel yapıların gelişiminin izlenmesi.

Bu metrikler, iki yıllık yolculuk boyunca yeterlilik gelişiminin nicel bir resmini çizmektedir.

4.2 Ekran Odak Tespiti

Özellikle yenilikçi bir analiz, öğrenenin paylaşılan ekrandaki odak alanını yalnızca etiketlenmemiş video ve ses sinyallerinden tahmin etmek için çok kipli derin öğrenme modelleri kullanmayı içermiştir. Ses ipuçlarını (örn., belirli bir kelimeyi tartışma) ekran içeriği ile ilişkilendirerek, model öğrenenin neye baktığını çıkarabilmekte ve dikkat ve katılım konusunda içgörüler sunmaktadır.

5. Temel İçgörü & Analist Perspektifi

Temel İçgörü: MOSLA Projesi sadece başka bir veri kümesi değil; izole, anlık İDE çalışmaları ile öğrenmenin karmaşık, sürekli gerçekliği arasındaki kritik boşluğu ortaya çıkaran temel bir altyapı hamlesidir. Değer önerisi, kontrollü boylamsallıkta yatmaktadır—bu özellik, gerekli olduğu kadar nadirdir. Mozilla Common Voice derlemi gibi projeler konuşma verilerini demokratikleştirirken, MOSLA'nın sağladığı yapılandırılmış öğrenme seyri ve çok kipli bağlamdan yoksundur. Benzer şekilde, BEA-2019 Paylaşılan Görevi izole yazma yeterliliğine odaklanmış, burada yakalanan zengin, etkileşimli boyutu kaçırmıştır.

Mantıksal Akış: Projenin mantığı zarif bir şekilde doğrusaldır: 1) Metodolojik bir boşluğu tanımla (kontrollü, çok kipli, boylamsal İDE verisi eksikliği), 2) Bir çözüm mühendisliği yap (titiz katılımcı protokolü + Zoom kaydı), 3) Ölçekleme problemini çöz (insan-döngüde-ML etiketleme), ve 4) Faydayı göster (dilbilimsel analiz + yeni çok kipli görevler). Veri oluşturmadan uygulamaya kadar olan bu uçtan uca süreç, ampirik öğrenme bilimleri için bir şablondur.

Güçlü & Zayıf Yönler: Güçlü yönü inkâr edilemez: ölçek, kontrol ve çok kipli zenginlik. Zamansal dinamikleri incelemek için bir araştırmacının rüyasıdır. Ancak, zayıf yönleri verilen ödünlerdedir. "Kontrollü" ortam aynı zamanda en büyük yapaylığıdır—gerçek dünyada dil edinimi muhteşem bir şekilde kontrolsüzdür. Örneklem büyüklüğü, derin bir boylamsal veri kümesi oluştururken, farklı öğrenen popülasyonları arasında genellenebilirliği sınırlayabilir. Ayrıca, bu kadar karmaşık bir çok kipli veri kümesini kullanmanın teknik engeli yüksek kalmakta ve hemen benimsenmesini potansiyel olarak sınırlamaktadır.

Eyleme Dönüştürülebilir İçgörüler: Araştırmacılar için acil eylem, bu açık veri kümesini keşfetmektir. EdTech şirketleri için içgörü, basit tamamlama metriklerinin ötesine geçmek ve MOSLA'nın yaptığı gibi öğrenme sürecini modellemektir. Sadece ekran odak tespiti deneyi bile, öğrenme platformlarının bilişsel katılımı gerçek zamanlı olarak çıkaracağı bir geleceğe işaret etmektedir. Daha büyük zorunluluk, alanın kesitsel "fotoğraflardan" öğrenmenin boylamsal "filmlerine" geçiş yapmasıdır. MOSLA kamerayı inşa etti; şimdi topluluğun film çekmeye başlama zamanı.

6. Teknik Uygulama Detayları

Etiketleme süreci, birkaç makine öğrenimi modeline dayanmaktadır. Konuşmacı diyarizasyonu ve tanımlama görevinin basitleştirilmiş bir görünümü bir optimizasyon problemi olarak çerçevelenebilir. $X = \{x_1, x_2, ..., x_T\}$, ses özelliklerinin dizisini temsil etsin. Amaç, art olasılığı maksimize eden konuşmacı etiketleri $S = \{s_1, s_2, ..., s_T\}$ ve konuşmacı kimlikleri $Y = \{y_1, y_2, ..., y_K\}$ dizisini bulmaktır:

$P(S, Y | X) \propto P(X | S, Y) \cdot P(S) \cdot P(Y)$

Burada:

$P(X | S, Y)$, konuşmacı bölümleri ve kimlikleri verilen ses özelliklerinin olabilirliğidir, genellikle Gauss Karışım Modelleri (GKM'ler) veya x-vektörler gibi derin sinir ağı gömüleri kullanılarak modellenir.
$P(S)$, konuşmacı sıra dinamikleri üzerine bir önseldir, zamansal sürekliliği teşvik eder (örn., gizli Markov modeli kullanarak).
$P(Y)$, konuşmacı kimlikleri hakkındaki önsel bilgiyi temsil eder (eğitmen vs. öğrenen).

MOSLA verileri üzerinde ince ayar yapmak, öncelikle akustik modeli (örn., x-vektör çıkarıcı) çevrimiçi sınıfın spesifik akustik koşullarına ve konuşmacı özelliklerine uyarlayarak $P(X | S, Y)$'nin tahminini iyileştirir.

7. Deneysel Sonuçlar & Bulgular

Makale, MOSLA veri kümesinin analizinden elde edilen temel bulguları sunmaktadır:

Yeterlilik Seyirleri: Grafikler, öğrenenlerin zaman içinde hedef dil kullanım yüzdesinde, farklı öğretim birimlerine karşılık gelen duraklamalar ve sıçramalarla birlikte net, doğrusal olmayan bir artış göstermektedir. Sözcük çeşitliliği metrikleri, ilk altı aydan sonra hızlanan istikrarlı bir yükseliş eğilimi göstermektedir.
Model Performans Kazanımları: Önceden eğitilmiş bir Wav2Vec2.0 modelinin, sadece 10 saatlik MOSLA insan dökümleri üzerinde OKT için ince ayarlanması, temel modele kıyasla ayrı tutulan MOSLA verilerinde Kelime Hata Oranı'nı (KHO) %35'in üzerinde azaltmıştır. Konuşmacı ve dil tanımlama görevleri için de benzer önemli iyileştirmeler bildirilmiştir.
Ekran Odak Tespiti: Ekran odaklanmasının geniş alanını (örn., "slayt metni," "video," "beyaz tahta") sınıflandırmak için çok kipli bir model (örn., ekran kareleri için görüntü dönüştürücü ile bir ses kodlayıcının birleşimi) eğitilmiştir. Model, şans seviyesinin önemli ölçüde üzerinde bir doğruluk elde etmiş, göz takip donanımı olmadan bile görsel-işitsel korelasyonun öğrenen dikkati hakkında anlamlı sinyaller içerdiğini göstermiştir.

Şekil 1 (Kavramsal): Makale, MOSLA sürecini gösteren kavramsal bir şekil içermektedir: Veri Toplama (Zoom kayıtları) -> Veri Etiketleme (Diyarizasyon, Tanımlama, OKT) -> Çok Kipli Analiz (Ekran odak) & İDE Dilbilimsel Analiz (Yeterlilik metrikleri). Bu şekil, projenin kapsamlı, süreç odaklı yaklaşımını vurgulamaktadır.

8. Analiz Çerçevesi: Yeterlilik Seyri Modellemesi

Vaka: "Hedef Dil Kullanımı" Seyrinin Modellenmesi

Araştırmacılar, büyüme eğrisi modelleri oluşturmak için MOSLA veri kümesini kullanabilir. Basitleştirilmiş bir örnek, bir öğrenenin haftalık hedef dil (HD) ifadeleri oranını analiz eder. $R_t$, $t$ haftasındaki HD oranı olsun.

Temel bir doğrusal karma etkiler modeli şu şekilde belirlenebilir:

R_t ~ 1 + Time_t + (1 + Time_t | Learner_ID)

Burada:

1 + Time_t, genel bir kesişim ve eğimin (ortalama büyüme seyri) sabit etkisini modeller.
(1 + Time_t | Learner_ID), hem başlangıç noktasının (kesişim) hem de büyüme hızının (eğim) bireysel öğrenenler arasında rastgele değişmesine izin verir.

MOSLA verileri kullanılarak, bu model (örn., R'nin lme4 veya Python'ın statsmodels paketi ile) uydurulabilir ve HD kullanımındaki ortalama haftalık artış ile bireysel değişkenlik derecesi tahmin edilebilir. Daha karmaşık modeller, öğretim aşamasını bir tahmin edici olarak içerebilir veya Zaman için polinom veya spline terimleri kullanarak doğrusal olmayan büyümeyi modelleyebilir. Bu çerçeve, ön ve son testleri karşılaştırmanın ötesine geçerek tüm öğrenme eğrisini modellemeye yöneliktir.

9. Gelecek Uygulamalar & Araştırma Yönleri

MOSLA veri kümesi, gelecekteki çalışmalar için çok sayıda yol açmaktadır:

Kişiselleştirilmiş Öğrenme Yolları: Algoritmalar, bir öğrenenin MOSLA'daki erken seyrini analiz ederek gelecekteki zorlukları tahmin edebilir ve kişiselleştirilmiş tekrar veya pratik materyalleri önerebilir.
Otomatik Yeterlilik Değerlendirmesi: Standart testlerin ötesine geçen, çok kipli ipuçlarını (akıcılık, sözcük seçimi, telaffuz, katılım) kullanan ince taneli, sürekli değerlendirme modelleri geliştirmek, ETS'nin otomatik konuşma değerlendirmesi araştırmasında olduğu gibi.
Öğretmen Analitiği: Eğitmen stratejilerini ve bunların öğrenen ilerlemesiyle korelasyonunu analiz etmek, öğretmen eğitimi için veriye dayalı geri bildirim sağlamak.
Diller Arası Aktarım Çalışmaları: Dil özgü özelliklerin (örn., ton sistemi, yazı sistemi) öğrenme sürecini nasıl etkilediğini anlamak için Arapça, İspanyolca ve Çince arasındaki edinim kalıplarını karşılaştırmak.
Çok Kipli Temel Modeller: MOSLA, eğitim diyaloğunu anlayan çok kipli yapay zeka modelleri oluşturmak için ideal bir eğitim alanıdır, potansiyel olarak daha sofistike yapay zeka öğretmenlerine yol açabilir.
Genişleme: Gelecek yinelemeler, daha fazla dil, daha büyük ve daha çeşitli katılımcı havuzları, biyometrik veriler (stres/bilişsel yük için kalp atış hızı gibi) ve öğrenme yönetim sistemi (ÖYS) verileriyle entegrasyon içerebilir.

10. Kaynaklar

Geertzen, J., Alexopoulou, T., & Korhonen, A. (2014). Automatic Linguistic Annotation of Large Scale L2 Databases: The EF-Cambridge Open Language Database (EFCAMDAT). In Proceedings of the 9th Workshop on Innovative Use of NLP for Building Educational Applications.
Settles, B., T. LaFlair, G., & Hagiwara, M. (2018). Machine Learning-Driven Language Assessment. Transactions of the Association for Computational Linguistics.
Stasaski, K., Devlin, J., & Hearst, M. A. (2020). Measuring and Improving Semantic Diversity of Dialogue Generation. In Findings of the Association for Computational Linguistics: EMNLP 2020.
Hampel, R., & Stickler, U. (2012). The use of videoconferencing to support multimodal interaction in an online language classroom. ReCALL, 24(2), 116-137.
Mozilla Common Voice. (n.d.). Retrieved from https://commonvoice.mozilla.org/
Educational Testing Service (ETS). (2021). Automated Scoring of Speech. Research Report.
Hagiwara, M., & Tanner, J. (2024). Project MOSLA: Recording Every Moment of Second Language Acquisition. arXiv preprint arXiv:2403.17314.