İkinci Dil Ediniminde Adil Bilgi İzleme: Algoritmik Önyargı Analizi

1. Giriş

Eğitimde tahmine dayalı modelleme, özellikle Bilgi İzleme (KT), öğrenmeyi kişiselleştirmek için öğrenci bilgi durumlarını modellemeyi amaçlar. Geleneksel yöntemler insan yargısına dayanıyordu ve hafıza sınırları, yorgunluk ve olumluluk önyargısından kaynaklanan önyargılara yatkındı. Corbett ve Anderson (1994) tarafından tanıtılan hesaplamalı KT, gelecekteki performansı tahmin etmek ve öğretimi uyarlamak için öğrenci etkileşim verilerini (notlar, geri bildirim, katılım) kullanır.

Doğruluk ana odak noktası olmuş olsa da, bu araştırma kritik bir boşluğu vurgulamaktadır: algoritmik adalet. Çalışma, ikinci dil edinimindeki tahmine dayalı modellerin (Duolingo verileri kullanılarak) platforma (iOS, Android, Web) veya ülke gelişmişlik durumuna (gelişmiş vs. gelişmekte olan) dayalı olarak belirli gruplara karşı istenmeyen önyargılar sergileyip sergilemediğini araştırmaktadır.

2. Metodoloji & Deneysel Kurulum

Çalışma, doğruluğun yanı sıra adaleti değerlendirmek için karşılaştırmalı bir analiz çerçevesi kullanmaktadır.

2.1 Veri Kümeleri & Öğrenme Yolları

Duolingo 2018 paylaşılan görev veri kümesinden üç öğrenme yolu kullanıldı:

en_es: İspanyolca öğrenen İngilizce konuşanlar.
es_en: İngilizce öğrenen İspanyolca konuşanlar.
fr_en: İngilizce öğrenen Fransızca konuşanlar.

Veriler, öğrenci alıştırma dizilerini, doğruluğu ve meta verileri (istemci platformu, ülke) içermektedir. Ülkeler, standart ekonomik endekslere (örn. IMF sınıflandırması) dayanarak "Gelişmiş" veya "Gelişmekte Olan" olarak sınıflandırılmıştır.

2.2 Tahmine Dayalı Modeller

İki kategori model değerlendirildi:

Makine Öğrenmesi (ML): Lojistik Regresyon, Rastgele Ormanlar gibi geleneksel modeller.
Derin Öğrenme (DL): Sinir ağı tabanlı modeller, muhtemelen Derin Bilgi İzleme (DKT) varyantlarını veya Transformer tabanlı mimarileri içermektedir.

Birincil görev ikili tahmindi: öğrenci bir sonraki alıştırmayı doğru cevaplayacak mı?

2.3 Adalet Metrikleri

Adalet, korumalı gruplar arasında model performansını karşılaştıran grup adaleti metrikleri kullanılarak değerlendirildi:

Platform Adaleti: iOS, Android ve Web istemcilerindeki kullanıcılar arasında doğruluk, F1-skoru veya AUC'yi karşılaştırın.
Coğrafi Adalet: Gelişmiş ve gelişmekte olan ülkelerden gelen kullanıcılar arasında performans metriklerini karşılaştırın.

Bu metriklerdeki farklılıklar algoritmik önyargıyı gösterir. Tamamen adil bir model, tüm gruplarda eşit performansa sahip olurdu.

3. Sonuçlar & Bulgular

Çalışma, önemli dengeleri ve önyargıları ortaya çıkaran dört temel bulgu sağladı.

3.1 Doğruluk vs. Adalet Dengesi

Derin Öğrenme (DL) modelleri, genellikle hem doğruluk hem de adalet açısından Makine Öğrenmesi (ML) modellerinden daha iyi performans gösterdi. DL'nin sıralı öğrenme verilerindeki karmaşık, doğrusal olmayan kalıpları yakalama yeteneği, hassas niteliklerle bağlantılı sahte korelasyonlara daha az bağımlı, daha sağlam tahminlere yol açar.

3.2 Platform Önyargısı (iOS/Android/Web)

Hem ML hem de DL algoritmaları, mobil olmayan (Web) kullanıcılara kıyasla mobil kullanıcıları (iOS/Android) kayıran belirgin bir önyargı sergiledi. Bu, veri kalitesi farklılıklarından (örn. etkileşim kalıpları, oturum uzunluğu), arayüz tasarımından veya tipik olarak her platformla ilişkilendirilen demografik profillerden kaynaklanıyor olabilir. Bu önyargı, eğitim araçlarına öncelikle masaüstü bilgisayarlar üzerinden erişen öğrencileri dezavantajlı duruma düşürme riski taşır.

3.3 Coğrafi Önyargı (Gelişmiş vs. Gelişmekte Olan)

ML algoritmaları, DL algoritmalarına kıyasla gelişmekte olan ülkelerden gelen kullanıcılara karşı daha belirgin bir önyargı gösterdi. Bu kritik bir bulgudur, çünkü ML modelleri eğitim verilerinde mevcut olan tarihsel eşitsizlikleri öğrenebilir ve güçlendirebilir (örn. önceki eğitime erişim, internet güvenilirliğindeki farklılıklar). DL modelleri, bağışık olmasa da, bu coğrafi önyargıya karşı daha büyük bir dayanıklılık gösterdi.

Optimal Model Seçimi: Çalışma, incelikli bir yaklaşım önermektedir:

Adalet ve doğruluk dengesi için en iyi sonuç için en_es ve es_en yollarında Derin Öğrenme kullanın.
Adalet-doğruluk profilinin o spesifik bağlam için daha uygun olduğu düşünülen fr_en yolu için Makine Öğrenmesini düşünün.

4. Teknik Analiz & Çerçeve

4.1 Bilgi İzleme Formülasyonu

Özünde, Bilgi İzleme bir öğrencinin gizli bilgi durumunu modeller. $q_i$ bir alıştırma/soru ve $a_i \in \{0,1\}$ doğruluk olmak üzere, bir etkileşim dizisi $X_t = \{(q_1, a_1), (q_2, a_2), ..., (q_t, a_t)\}$ verildiğinde, amaç bir sonraki alıştırmadaki doğruluk olasılığını tahmin etmektir: $P(a_{t+1}=1 | X_t)$.

Derin Bilgi İzleme (Piech ve diğerleri, 2015) bunu modellemek için bir Tekrarlayan Sinir Ağı (RNN) kullanır:

$h_t = \text{RNN}(h_{t-1}, x_t)$

$P(a_{t+1}=1) = \sigma(W \cdot h_t + b)$

Burada $h_t$, $t$ zamanındaki bilgi durumunu temsil eden gizli durumdur, $x_t$, $(q_t, a_t)$'nin giriş gömmesidir ve $\sigma$ sigmoid fonksiyonudur.

4.2 Adalet Değerlendirme Çerçevesi

Çalışma, örtük olarak bir grup adaleti paradigması kullanmaktadır. İkili bir tahmin edici $\hat{Y}$ ve hassas bir nitelik $A$ (örn. platform veya ülke grubu) için yaygın metrikler şunları içerir:

İstatistiksel Eşitlik Farkı: $|P(\hat{Y}=1|A=0) - P(\hat{Y}=1|A=1)|$
Eşit Fırsat Farkı: $|P(\hat{Y}=1|A=0, Y=1) - P(\hat{Y}=1|A=1, Y=1)|$ (Gerçek etiketler Y bilindiğinde kullanılır).
Performans Metrik Farklılığı: Gruplar arasında doğruluk, AUC veya F1-skoru farkı.

Daha küçük bir farklılık daha büyük adaleti gösterir. Makalenin bulguları, DL modellerinin tanımlanan gruplar arasında bu farklılıkları ML modellerinden daha etkili bir şekilde en aza indirdiğini göstermektedir.

5. Vaka Çalışması: Çerçeve Uygulaması

Senaryo: Bir EdTech şirketi, dil öğrenme uygulamasında gözden geçirme alıştırmaları önermek için bir KT modeli kullanıyor. Model küresel kullanıcı verileri üzerinde eğitilmiştir.

Sorun: Dağıtım sonrası analizler, X Ülkesi'ndeki (gelişmekte olan bir ülke) kullanıcıların, Y Ülkesi'ndeki (gelişmiş bir ülke) kullanıcılara kıyasla, çok zor olan alıştırmaların yanlış önerilme oranının %15 daha yüksek olduğunu ve bunun hayal kırıklığına ve bırakmaya yol açtığını göstermektedir.

Bu makalenin çerçevesi kullanılarak analiz:

Hassas Grubu Belirleyin: Gelişmekte olan vs. gelişmiş ülkelerden gelen kullanıcılar.
Modeli Denetleyin: Her grup için ayrı ayrı performans metriklerini (Doğruluk, AUC) hesaplayın. Gözlemlenen "uygun zorluk öneri oranı"ndaki %15'lik farklılık bir adalet ihlalidir.
Teşhis Edin: Model ML mi yoksa DL mi? Bu çalışmaya göre, bir ML modeli bu coğrafi önyargıyı sergileme olasılığı daha yüksektir. Özellik dağılımlarını araştırın—belki de model, ülke gelişmişliği ile ilişkili özelliklere (örn. ortalama bağlantı hızı, cihaz türü) aşırı güveniyordur.
Düzeltin: Bu çalışmanın bu önyargıya karşı daha dayanıklı olduğunu bulduğu DL tabanlı bir KT mimarisine geçmeyi düşünün. Alternatif olarak, mevcut modele adalet bilinçli eğitim teknikleri (örn. adversarial debiasing, yeniden ağırlıklandırma) uygulayın.
İzleyin: Müdahale sonrasında adalet metriğini sürekli olarak takip ederek önyargının azaltıldığından emin olun.

6. Gelecek Uygulamalar & Yönelimler

Bu araştırmanın etkileri ikinci dil öğreniminin ötesine uzanmaktadır:

Ölçekte Kişiselleştirilmiş Öğrenme: Adil KT modelleri, MOOC'larda (Coursera, edX gibi) ve akıllı öğretim sistemlerinde gerçekten eşitlikçi uyarlanabilir öğrenme sistemlerini mümkün kılabilir ve önerilerin tüm demografiler için etkili olmasını sağlayabilir.
EdTech için Önyargı Denetimi: Bu çerçeve, düzenleyiciler ve eğitimciler için artan bir endişe kaynağı olan ticari eğitim yazılımlarını algoritmik önyargı açısından denetlemek için bir şablon sağlar.
Çapraz Alan Adaleti: Gelecekteki çalışmalar, diğer hassas nitelikler arasında adaleti araştırmalıdır: cinsiyet, yaş, verilerden çıkarılan sosyoekonomik durum ve öğrenme güçlükleri.
Nedensel Adalet Analizi: Korelasyonun ötesine geçerek önyargının nedenlerini anlamak—bu veri mi, model mimarisi mi yoksa öğrenme bağlamı mı? Nedensel çıkarım teknikleri entegre edilebilir.
Federe & Gizliliği Koruyan Adil Öğrenme: Gizliliği tehlikeye atmadan merkezi olmayan kullanıcı verileri üzerinde adil modeller eğitmek, eğitimde etik AI için kilit bir yönelimdir.

7. Kaynaklar

Baker, R.S., Inventado, P.S. (2014). Educational Data Mining and Learning Analytics. In: Larusson, J., White, B. (eds) Learning Analytics. Springer, New York, NY.
Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning: Limitations and Opportunities. fairmlbook.org.
Duolingo. (2018). Second Language Acquisition Modeling (SLAM) Workshop Dataset. Retrieved from https://sharedtask.duolingo.com/
Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys (CSUR), 54(6), 1-35.

8. Uzman Analizi & Yorum

Temel İçgörü: Bu makale, EdTech'te sıklıkla göz ardı edilen kritik bir gerçeği sunuyor: yüksek doğruluk, eşitlikçi eğitime denk değildir. Yazarlar, standart Bilgi İzleme modellerinin safça dağıtıldığında, özellikle web platformlarını kullananlar ve gelişmekte olan ülkelerdeki öğrenciler olmak üzere, öğrenci gruplarının tamamını sistematik olarak dezavantajlı duruma düşürdüğünü ikna edici bir şekilde gösteriyor. En çarpıcı bulgu, daha basit Makine Öğrenmesi modellerinin sadece daha az doğru olmadığı, aynı zamanda önemli ölçüde daha az adil olduğu ve mevcut toplumsal ve dijital uçurumların yükselticileri olarak hareket ettiğidir. Bu, algoritmik adaleti dar bir etik kaygı olarak değil, model performansının ve pedagojik etkinliğin temel bir bileşeni olarak konumlandırmaktadır.

Mantıksal Akış: Argüman metodiktir. Yüksek riskleri (kişiselleştirilmiş eğitim) ve tarihsel kör noktayı (adalet) belirleyerek başlar. Daha sonra üç farklı dil öğrenme bağlamında temiz, ikili karşılaştırmalı bir deney (ML vs. DL) kurar. Adalet eksenlerinin seçimi—platform ve coğrafya—kullanıcı deneyimini doğrudan etkileyen gerçek dünya dağıtım değişkenlerini yansıttığı için zekicedir. Sonuçlar mantıksal bir akışla ilerler: DL'nin üstün temsil kapasitesi sadece daha iyi tahminler değil, aynı zamanda daha adil tahminler sağlar. İncelikli öneri (en_es/es_en için DL, fr_en için ML), tek tip bir dogma olmaktan kaçınır ve titiz analizin bir işareti olan bağlam bağımlılığını kabul eder.

Güçlü & Zayıf Yönler: Birincil gücü, uygulanabilir, ampirik odaklı olmasıdır. Teorik adalet tartışmalarının ötesine geçerek yaygın olarak kullanılan bir veri kümesinde (Duolingo) önyargının ölçülebilir kanıtını sağlar. Bu, dahili model denetimi için güçlü bir şablondur. Ancak, analizin sınırlamaları vardır. "Gelişmiş" ve "gelişmekte olan"ı tek tip bloklar olarak ele alır ve bu kategoriler içindeki muazzam heterojenliği (örn. kentsel vs. kırsal kullanıcılar) geçiştirir. Çalışma ayrıca önyargıların neden var olduğuna da derinlemesine inmez. Bu, özellik temsili mi, grup başına veri hacmi mi yoksa öğrenme kalıplarındaki kültürel farklılıklar mı? Mehrabi ve diğerlerinin (2021) kapsamlı araştırmasında belirtildiği gibi, önyargının kök nedenini teşhis etmek etkili azaltma stratejileri geliştirmek için gereklidir. Ayrıca, DL burada daha adil görünse de, "kara kutu" doğası, adalet literatüründe vurgulanan bir zorluk olan daha ince, tespit edilmesi daha zor önyargıları maskeleyebilir.

Uygulanabilir İçgörüler: EdTech liderleri ve ürün yöneticileri için bu araştırma bir değişim zorunluluğudur. İlk olarak, adalet metrikleri, doğruluk ve AUC'nin yanı sıra standart model değerlendirme panosuna entegre edilmelidir. Herhangi bir uyarlanabilir öğrenme özelliğini dağıtmadan önce, bu çalışmaya benzer bir denetim yapın. İkinci olarak, temel öğrenci modelleme görevleri için Derin Öğrenme mimarilerine öncelik verin, çünkü bunlar önyargıya karşı daha iyi bir doğal koruma sağlar ve derin ağların daha sağlam özellikler öğrendiği diğer alanlarda görülen eğilimleri doğrular. Üçüncü olarak, verilerinizi ayrıştırın. Sadece "küresel" performansa bakmayın. Metrikleri platform, bölge ve diğer ilgili demografik özelliklere göre rutin bir uygulama olarak dilimleyin. Son olarak, önyargıyı gözlemlemekten anlamaya ve ortadan kaldırmaya geçmek için nedensel analize yatırım yapın. Eşitlikçi EdTech'in geleceği, adalete tahmin doğruluğu ile aynı titizlikle yaklaşmaya bağlıdır.