1. Giriş & Arka Plan
Eğitimde tahmin modellemesi, özellikle Bilgi İzleme (KT), bir öğrencinin gelişen bilgi durumunu modelleyerek gelecekteki performansını tahmin etmeyi ve öğretimi kişiselleştirmeyi amaçlar. Performans verilerinin insan yorumuna dayanan geleneksel yöntemler, bilişsel önyargılara (örn., olumluluk önyargısı, bellek sınırları) yatkındır. Corbett ve Anderson tarafından tanıtılan hesaplamalı KT, öğrenci etkileşim verilerini kullanarak bunları hafifletir.
Araştırmaların çoğu model doğruluğunu önceliklendirirken, bu makale eleştirel ancak yeterince keşfedilmemiş bir boyuta odaklanıyor: algoritmik adalet. Adalet, modellerin hassas özelliklere (örn., cihaz türü, menşe ülke) dayalı olarak grupları sistematik olarak dezavantajlı duruma düşürmediğini garanti eder. Duolingo gibi platformlar aracılığıyla İkinci Dil Edinimi (SLA) bağlamında, önyargı eğitimde eşitsizliği kalıcı hale getirebilir.
Temel Araştırma Soruları: Bu çalışma, KT modellerinin adaletini şu açılardan değerlendirir: 1) Farklı istemci platformları (iOS, Android, Web) ve 2) Gelişmiş ve gelişmekte olan ülkelerden gelen öğrenciler.
2. Metodoloji & Deneysel Kurulum
Çalışma, modellerin hem tahmin performansını hem de adaletini değerlendirmek için karşılaştırmalı bir analiz çerçevesi kullanmaktadır.
2.1 Veri Setleri: Duolingo Öğrenme Yolları
2018 Duolingo İkinci Dil Edinimi Ortak Görevinden üç farklı öğrenme yolu kullanılmıştır:
- en_es: İngilizce konuşanlar İspanyolca öğreniyor.
- es_en: İspanyolca konuşanlar İngilizce öğreniyor.
- fr_en: Fransızca konuşanlar İngilizce öğreniyor.
2.2 Değerlendirilen Tahmin Modelleri
Çalışma, iki geniş model sınıfını karşılaştırmaktadır:
- Makine Öğrenmesi (ML) Modelleri: Muhtemelen Lojistik Regresyon, Rastgele Ormanlar veya Bayesci Bilgi İzleme (BKT) gibi geleneksel modelleri içerir.
- Derin Öğrenme (DL) Modelleri: Muhtemelen Uzun Kısa Vadeli Bellek (LSTM) ağları veya Derin Bilgi İzleme (DKT) gibi, öğrenme dizilerindeki zamansal bağımlılıkları yakalamada usta olan dizi modellerini içerir.
2.3 Adalet Metrikleri & Değerlendirme Çerçevesi
Adalet, grup adaleti metrikleri kullanılarak değerlendirilmiştir. İkili bir tahmin için (örn., öğrenci bir sonraki soruyu doğru cevaplayacak mı?), yaygın metrikler şunları içerir:
- Demografik Eşitlik: Gruplar arasında eşit tahmin oranları.
- Eşit Fırsat: Gruplar arasında eşit gerçek pozitif oranları.
- Tahminsel Eşitlik: Gruplar arasında eşit kesinlik.
3. Deneysel Sonuçlar & Bulgular
Analiz, doğruluk ve adalet arasındaki ödünleşimleri vurgulayan dört temel bulgu ortaya koymuştur.
Önemli Bulgulara Genel Bakış
- DL Üstünlüğü: DL modelleri genellikle hem doğruluk hem de adalette ML'yi geride bıraktı.
- Mobil Önyargı: Hem ML hem de DL, web kullanıcılarına kıyasla mobil (iOS/Android) kullanıcıları lehine önyargı gösterdi.
- Gelişmişlik Önyargısı: ML modelleri, DL modellerine kıyasla gelişmekte olan ülkelerden gelen öğrencilere karşı daha güçlü bir önyargı sergiledi.
- Bağlama Bağlı Seçim: Optimal model seçimi (DL vs. ML) spesifik öğrenme yoluna bağlıdır.
3.1 Performans: Doğruluk Karşılaştırması
Derin Öğrenme modelleri, değerlendirilen yollar boyunca tahmin doğruluğunda belirgin bir avantaj gösterdi. Bu, Piech ve diğerlerinin temel DKT makalesinde belirtildiği gibi, DKT gibi sinirsel dizi modellerinin karmaşık, doğrusal olmayan öğrenme yörüngelerini daha basit ML modellerinden daha etkili bir şekilde modelleme yeteneğiyle uyumludur.
3.2 İstemci Platformları Arasında Adalet
Web tarayıcı kullanıcılarına kıyasla mobil uygulama kullanıcılarını (iOS, Android) lehine tutarlı ve fark edilir bir önyargı gözlemlendi. Bu şunlardan kaynaklanıyor olabilir:
- Veri kalitesi farklılıkları (örn., etkileşim kalıpları, oturum uzunlukları).
- Platform seçimi ile öğrenci katılımı veya eğitim verilerine işlenmiş sosyoekonomik faktörler arasındaki kasıtsız korelasyon.
3.3 Ülke Gelişmişlik Düzeyleri Arasında Adalet
Makine Öğrenmesi algoritmaları, Derin Öğrenme algoritmalarına kıyasla gelişmekte olan ülkelerden gelen öğrencilere karşı daha belirgin bir önyargı gösterdi. Bu, daha büyük kapasiteleriyle DL modellerinin, gelişmişlik durumuyla bağlantılı sahte korelasyonlara daha az duyarlı, daha sağlam ve genellenebilir kalıplar öğreniyor olabileceğini düşündürmektedir.
3.4 Ödünleşim Analizi: Doğruluk vs. Adalet
Çalışma, nüanslı, bağlama özgü bir yaklaşım önermektedir:
- en_es ve es_en yolları için, daha iyi bir denge sunan Derin Öğrenme daha uygundur.
- fr_en yolu için, muhtemelen daha basit modellerin daha adil bir şekilde genelleme yaptığı veri seti özellikleri nedeniyle, Makine Öğrenmesi daha uygun bir seçenek olarak ortaya çıktı.
4. Teknik Derinlemesine İnceleme
4.1 Bilgi İzleme Formülasyonu
Özünde, KT bir öğrencinin bilgi durumunu zamanla gelişen gizli bir değişken olarak modeller. Bir öğrenci etkileşimleri dizisi (örn., alıştırma denemeleri) $X = \{x_1, x_2, ..., x_t\}$ verildiğinde, amaç bir sonraki öğe üzerindeki doğruluk olasılığını tahmin etmektir, $P(r_{t+1} = 1 | X)$.
Derin Bilgi İzleme (DKT) bunu modellemek için bir Tekrarlayan Sinir Ağı (RNN) kullanır:
$h_t = \text{RNN}(x_t, h_{t-1})$
$P(r_{t+1}) = \sigma(W \cdot h_t + b)$
Burada $h_t$, $t$ zamanındaki bilgi durumunu temsil eden gizli durumdur ve $\sigma$ sigmoid fonksiyonudur.
4.2 Adalet Metrikleri Formülasyonu
$A \in \{0,1\}$ hassas bir özellik olsun (örn., mobil kullanıcı için $A=1$, web kullanıcısı için $A=0$). $\hat{Y}$ modelin tahmini olsun. Demografik Eşitlik şunu gerektirir:
$P(\hat{Y}=1 | A=1) = P(\hat{Y}=1 | A=0)$
Eşit Fırsat (doğruluğu pozitif sonuç olarak düşünürsek) şunu gerektirir:
$P(\hat{Y}=1 | A=1, Y=1) = P(\hat{Y}=1 | A=0, Y=1)$
Çalışmada gözlemlenen önyargı, farklı gruplar için bu koşullu olasılıklar arasındaki fark veya oran olarak ölçülebilir.
5. Analiz Çerçevesi & Vaka Örneği
KT Adaletini Denetleme Çerçevesi: Edtech geliştiricileri bu yapılandırılmış yaklaşımı benimseyebilir:
- Ayrıştırılmış Değerlendirme: Yalnızca toplam doğruluk raporlamayın. Her hassas alt grup için (platforma, ülkeye, mevcutsa cinsiyete göre) performans metriklerini (doğruluk, AUC) ve adalet metriklerini (demografik eşitlik farkı, eşit fırsat farkı) ayrı ayrı hesaplayın.
- Kök Neden Analizi: Tespit edilen önyargılar için özellik korelasyonlarını araştırın. "Oturum sayısı" hem platform hem de tahmin sonucu ile ilişkili mi? Sosyoekonomik durum için vekil değişkenler, davranışsal veriler aracılığıyla modele sızıyor olabilir mi?
- Azaltma Stratejisi Seçimi: Nedene dayalı olarak bir azaltma tekniği seçin: ön işleme (veriyi yeniden ağırlıklandırma), işlem içi (kayıp fonksiyonuna adalet kısıtlamaları ekleme, FAT* konferans topluluğundaki yaklaşımlar gibi) veya işlem sonrası (grup başına eşikleri kalibre etme).
Vaka Örneği - Mobil Önyargı: Duolingo verileri üzerinde eğitilmiş, LSTM tabanlı bir KT modelinin, gerçek performans sabit tutulduğunda, iOS kullanıcıları için Web kullanıcılarına kıyasla %15 daha yüksek bir başarı tahmin olasılığı gösterdiğini hayal edin. Denetimimiz, "günün saati" özelliğinin ana itici güç olduğunu ortaya koyuyor: iOS kullanıcıları daha kısa, sık patlamalarla (işe gidiş gelişler) pratik yaparken, Web kullanıcıları daha uzun, daha seyrek oturumlara sahip. Model, "işe gidiş geliş kalıbını" daha yüksek katılımla ilişkilendirir ve tahminleri artırır, farklı kalıplarda etkili bir şekilde öğrenebilen Web kullanıcılarını haksız yere cezalandırır. Azaltma: Zemel ve diğerlerinin adil temsiller öğrenme üzerine çalışmalarından esinlenerek, eğitim sırasında platform grupları arasındaki tahmin dağılımı farklılıkları için modeli cezalandıran adalet odaklı bir düzenlileştirme terimi uygulayabiliriz.
6. Eleştirel Analiz & Uzman Yorumu
Temel İçgörü: Bu makale, hızla büyüyen EdTech sektörü için kritik ve rahatsız edici bir gerçeği ortaya koyuyor: en gelişmiş bilgi izleme modelleriniz, muhtemelen varlıklı, mobil-öncelikli kullanıcıları ve gelişmiş ülkeleri kayıran sistematik önyargıları içine işliyor. Doğruluk peşinde koşmak, alanı algoritmalarında biriken etik borca karşı kör etti. Gelişmiş Derin Öğrenme modellerinde bile önyargının devam ettiği bulgusu, daha karmaşık modellerin doğası gereği "daha adil" temsiller öğrendiği inancına karşı ayıltıcı bir karşı noktadır.
Mantıksal Akış: Yazarlar, KT paradigmasını oluşturmaktan adalet kör noktasını ortaya çıkarmaya doğru mantıksal bir ilerleme kaydediyor. Yerleşik Duolingo veri setini kullanmak güvenilirlik ve tekrarlanabilirlik sağlıyor. İkiye ayrılmış analiz—platform önyargısı ve jeopolitik önyargı—dijital uçurumun iki ana eksenini ustaca yakalıyor. Klasik ML ve modern DL arasındaki karşılaştırma sadece teknik değil, aynı zamanda stratejiktir ve uygulayıcıların etik sonuçları göz önünde bulundurarak araç seçmelerine yardımcı olur.
Güçlü & Zayıf Yönler: Birincil gücü, gerçek dünya verileri ve net, karşılaştırmalı bulgular üzerine eyleme geçirilebilir, ampirik odaklanmasıdır. Teorik adalet tartışmalarının ötesine geçer. Ancak, önemli bir kusur mekanistik açıklamanın eksikliğidir. Mobil önyargısı neden oluşur? Veri artefaktı mı, kullanıcı davranış farkı mı, yoksa model sınırlaması mı? Makale hastalığı teşhis ediyor ancak patoloji konusunda çok az şey sunuyor. Ayrıca, doğruluğu daha düşük olmasına rağmen `fr_en` yolu için adalet temelinde ML kullanma önerisi, gerçek dünyada bir ikilem sunuyor: adalet için ne kadar doğruluktan vazgeçmeye razıyız ve buna kim karar verir?
Eyleme Geçirilebilir İçgörüler: Ürün liderleri ve mühendisler için bu çalışma bir değişim zorunluluğudur. İlk olarak, adalet denetimi, Google'ın PAIR girişiminin savunduğu uygulamalara benzer şekilde, yeni model dağıtımları için A/B testinin yanında standart bir KPI haline gelmelidir. İkinci olarak, gözlemlenen önyargılar, platforma özgü özellik mühendisliği veya kalibrasyonuna ihtiyaç olduğunu düşündürmektedir. Belki web kullanıcıları için hafifçe farklı bir tahmin modeli gereklidir. Üçüncüsü, araştırma daha çeşitli ve temsili eğitim verilerine olan ihtiyacın altını çiziyor. Gelişmekte olan bölgelerdeki STK'lar veya eğitim kurumlarıyla işbirlikleri, veri setlerini yeniden dengelemeye yardımcı olabilir. Son olarak, alan, adaleti sonradan düşünülmüş bir ek olarak değil, baştan entegre eden "Tasarım Yoluyla Adalet" KT mimarileri geliştirmeli ve benimsemelidir.
7. Gelecek Uygulamalar & Araştırma Yönleri
- Kişiselleştirilmiş Adalet Odaklı Öğretim: Gelecekteki Akıllı Öğretim Sistemleri (ITS), sadece bilgi durumu için değil, aynı zamanda tahmin edilen önyargıları dengelemek için de dinamik olarak ayarlanabilir. Sistem, bir öğrencinin modelin daha az güvende olduğu temsil edilmeyen bir gruptan geldiğini tespit ederse, daha destekleyici bir iskele sağlayabilir veya belirsizliği adil bir şekilde azaltmak için daha fazla veri toplayabilir.
- Kültürler Arası & Diller Arası Model Transferi: Araştırmalar, transfer öğrenmede adaleti keşfetmelidir. İngilizce konuşan öğrenciler üzerinde eğitilmiş bir KT modeli, İspanyolca konuşanlar için ince ayar yapıldığında adil mi? Alan uyarlama teknikleri, adalet kısıtlamalarıyla birleştirilebilir.
- Açıklanabilir Adalet (XFairness): Önyargıyı ölçmenin ötesinde, hangi özelliklerin adaletsiz sonuçlara katkıda bulunduğunu açıklayan araçlara ihtiyacımız var. Bu, daha geniş XAI (Açıklanabilir Yapay Zeka) hareketiyle uyumludur ve geliştirici güveni ve etkili azaltma için kritiktir.
- Boylamsal Adalet Çalışmaları: Algoritmik önyargı, bir öğrencinin çok yıllık yolculuğu boyunca artar mı yoksa azalır mı? Uyarlanabilir sistemlerdeki önyargılı geri bildirim döngülerinin birikimli etkilerini anlamak için boylamsal çalışmalara ihtiyaç vardır.
- Öğrenme Bilimi ile Entegrasyon: Gelecekteki çalışmalar, pedagojik teori ile aradaki boşluğu kapatmalıdır. Bilişsel yük veya motivasyonel perspektiften "adalet" ne anlama gelir? Adalet, sadece istatistiksel eşitlikle değil, eğitimde eşitlik ilkeleriyle uyumlu olmalıdır.
8. Kaynaklar
- Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
- Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
- Zemel, R., Wu, Y., Swersky, K., Pitassi, T., & Dwork, C. (2013). Learning fair representations. International conference on machine learning (pp. 325-333). PMLR.
- Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys (CSUR), 54(6), 1-35.
- Google PAIR. (t.y.). People + AI Guidebook. https://pair.withgoogle.com/ adresinden alındı.
- Duolingo. (2018). Duolingo Second Language Acquisition Shared Task. Proceedings of the 2018 EMNLP Workshop W-NUT.
- Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning: Limitations and Opportunities. fairmlbook.org.