CPG-EVAL: Büyük Dil Modellerinin Çince Pedagojik Dilbilgisi Yeterliliğini Değerlendirmek İçin Çok Katmanlı Bir Kıyaslama

1. Giriş

ChatGPT gibi Büyük Dil Modellerinin (BDM'ler) yabancı dil eğitimine hızla entegre edilmesi, özel değerlendirme çerçevelerine acil bir ihtiyaç doğurmuştur. Bu modeller özerk öğrenmeyi destekleme ve içerik üretme konusunda umut vaat etse de, etkili dil öğretimi için temel nitelikteki çekirdek pedagojik dilbilgisi yeterlilikleri büyük ölçüde değerlendirilmemiştir. Bu makale, Yabancı Dil Olarak Çince Öğretimi (YDÇÖ) bağlamında BDM'lerin pedagojik dilbilgisi bilgisini sistematik olarak değerlendirmek üzere tasarlanmış ilk özel kıyaslama olan CPG-EVAL'i tanıtarak bu kritik boşluğu ele almaktadır.

Makale, tıpkı insan eğitimcilerin sertifikalandırılması gerektiği gibi, eğitimsel rollerde konuşlandırılan yapay zeka sistemlerinin de titiz, alana özgü değerlendirmelerden geçmesi gerektiğini savunmaktadır. CPG-EVAL, dilbilgisi tanıma, ince ayrımlı ayırt etme, kategorik ayrım ve dilsel girişime karşı direnci değerlendirmek için teori odaklı, çok katmanlı bir çerçeve sunmaktadır.

2. İlgili Çalışmalar

GLUE, SuperGLUE ve MMLU gibi Doğal Dil İşleme alanındaki mevcut kıyaslamalar, öncelikle genel dil anlama ve muhakemeyi değerlendirir. Ancak, öğretim uygunluğunu değerlendirmek için gereken pedagojik odağa sahip değillerdir. Eğitimde BDM'ler üzerine yapılan araştırmalar, hata düzeltme ve konuşma pratiği gibi uygulamaları keşfetmiştir, ancak dil öğretimi uzmanlığına dayanan sistematik, dilbilgisi merkezli bir değerlendirme eksik kalmıştır. CPG-EVAL, kıyaslama tasarımını YDÇÖ'den gelen yerleşik pedagojik dilbilgisi sınıflandırma sistemleriyle uyumlu hale getirerek bu boşluğu kapatmaktadır.

3. CPG-EVAL Kıyaslaması

CPG-EVAL, pedagojik dilbilgisi yeterliliğinin farklı boyutlarını araştırmak için kapsamlı, çok görevli bir kıyaslama olarak oluşturulmuştur.

3.1. Teorik Temel

Kıyaslama, kapsamlı YDÇÖ öğretim pratiğiyle doğrulanmış bir pedagojik dilbilgisi sınıflandırma sistemine dayanmaktadır. Sözdizimsel doğruluk ötesine geçerek, gerçek öğretim senaryolarında uygulanabilir bilgiyi değerlendirir ve dilbilgisel doğruluk yargıları, hata açıklaması ve kural formülasyonu gibi kavramlara odaklanır.

3.2. Görev Tasarımı ve Yapısı

CPG-EVAL, aşamalı bir değerlendirme merdiveni oluşturacak şekilde tasarlanmış beş temel görevden oluşur:

Görev 1: Dilbilgisel Doğruluk Yargısı – Cümle doğruluğunun ikili sınıflandırması.
Görev 2: İnce Ayrımlı Hata Tanımlama – Tam hatalı bileşenin tespit edilmesi.
Görev 3: Hata Kategorizasyonu – Hata türünün sınıflandırılması (örn., zaman, görünüş, sözcük sırası).
Görev 4: Pedagojik Açıklama Üretimi – Hata için öğrenci dostu bir açıklama sağlanması.
Görev 5: Karıştırıcı Örneklere Direnç – Birden fazla, potansiyel olarak kafa karıştırıcı örnek sunulduğunda performansın değerlendirilmesi.

3.3. Değerlendirme Metrikleri

Performans, Görev 1-3 için standart sınıflandırma metrikleri (Doğruluk, F1-skoru) kullanılarak ölçülür. Üretim görevleri (Görev 4) için BLEU, ROUGE gibi metrikler ve netlik, doğruluk ve pedagojik uygunluk üzerine insan değerlendirmesi kullanılır. Görev 5, izole örneklere kıyasla performans düşüşünü değerlendirir.

4. Deneysel Kurulum ve Sonuçlar

4.1. Değerlendirilen Modeller

Çalışma, GPT-3.5, GPT-4, Claude 2 ve birkaç açık kaynaklı model (örn., LLaMA 2, ChatGLM) dahil olmak üzere bir dizi BDM'yi değerlendirmektedir. Modeller, kapsamlı göreve özgü ince ayarın mümkün olmayabileceği gerçek dünya konuşlandırmasını simüle etmek için sıfır atışlı veya az atışlı bir şekilde yönlendirilir.

4.2. Temel Bulgular

Performans Açığı

Daha küçük modeller (örn., 7B parametre) basit dilbilgisel doğruluk yargılarında ~%65 doğruluk elde ederken, karmaşık hata açıklama görevlerinde %40'ın altına düşmektedir.

Ölçek Avantajı

Daha büyük modeller (örn., GPT-4), çok örnekli ve karıştırıcı görevlerde %15-25 mutlak iyileşme göstermekte, daha iyi muhakeme ve girişime karşı direnç sergilemektedir.

Kritik Zayıflık

Tüm modeller, Görev 5'te (karıştırıcı örnekler) önemli ölçüde zorlanmakta, en iyi performans gösterenler bile >%30 performans düşüşü sergileyerek nüanslı dilbilgisel ayrımda kırılganlık ortaya koymaktadır.

4.3. Sonuç Analizi

Sonuçlar, net bir zorluk hiyerarşisi ortaya koymaktadır. Çoğu model yüzeysel doğruluğu (Görev 1) halledebilirken, pedagojik olarak sağlam açıklamalar sağlama (Görev 4) ve dilsel girişim altında doğruluğu koruma (Görev 5) yetenekleri ciddi şekilde sınırlıdır. Bu, mevcut BDM'lerin bildirimsel dilbilgisi bilgisine sahip olduğunu, ancak etkili öğretim için gerekli olan işlemsel ve koşulsal bilgiden yoksun olduğunu göstermektedir.

Grafik Açıklaması (Tasarlanmış): Çok çizgili bir grafik, y ekseninde model performansını (Doğruluk/F1), x ekseninde beş görev boyunca gösterecektir. Farklı modeller (GPT-4, GPT-3.5, LLaMA 2) için çizgiler, Görev 1'den Görev 5'e doğru dik bir düşüş gösterecek ve eğimler daha küçük modeller için daha dik olacaktır. Ayrı bir çubuk grafik, her model için Görev 5'teki performans düşüşünü Görev 1 ile karşılaştırarak "girişim savunmasızlık açığını" vurgulayacaktır.

5. Tartışma ve Çıkarımlar

Çalışma, BDM'lerin bu tür hedefli değerlendirme olmadan pedagojik araçlar olarak konuşlandırılmasının erken olduğu sonucuna varmaktadır. Özellikle karmaşık, öğretimle ilgili görevlerdeki önemli performans açıkları, daha iyi öğretim uyumunun gerekliliğini vurgulamaktadır. Bulgular şunları talep etmektedir: 1) Daha titiz, pedagoji-odaklı kıyaslamalar geliştirmek; 2) Eğitimsel muhakemeye odaklanan özel eğitim verileri oluşturmak; 3) Pedagojik çıktıyı geliştiren model ince ayarı veya yönlendirme stratejileri uygulamak.

6. Teknik Analiz ve Çerçeve

Çekirdek İçgörü

CPG-EVAL sadece bir başka doğruluk liderlik tablosu değildir; eğitimde yapay zeka heyecanı için bir gerçeklik kontrolüdür. Kıyaslama temel bir uyumsuzluğu ortaya çıkarmaktadır: BDM'ler internet ölçeğindeki külliyatlarda bir sonraki belirteç tahmini için optimize edilmiştir, pedagojide gereken yapılandırılmış, hataya duyarlı ve açıklama odaklı muhakeme için değil. Bu, otonom bir aracı sadece güneşli otoyol kilometrelerinde değerlendirmeye benzer—CPG-EVAL, dil öğretiminin sisi, yağmuru ve karmaşık kavşaklarını tanıtır.

Mantıksal Akış

Makalenin mantığı sağlam ve çarpıcıdır. İnkar edilemez bir öncülden (sertifikasız yapay zeka "öğretmenleri") başlar, spesifik yeterlilik açığını (pedagojik dilbilgisi) tanımlar ve model zayıflıklarını aşamalı olarak hedef alan bir kıyaslama oluşturur. Basit yargıdan girişim altında sağlam açıklamaya doğru görev ilerlemesi, teşhis değerlendirmesinde bir ustalık dersidir. "Model cevap verebilir mi?" sorusunun ötesine geçerek "model öğretebilir mi?" sorusuna yönelir.

Güçlü ve Zayıf Yönler

Güçlü Yönler: Alana özgü odak, onun en güçlü özelliğidir. Genel kıyaslamaların aksine, CPG-EVAL'in görevleri gerçek sınıf zorluklarından alınmıştır. "Karıştırıcı örneklere direnç" dahil edilmesi özellikle dahicedir, bir modelin üstdil farkındalığını—temel bir öğretmen becerisini—test eder. Sadece veri ölçeğiyle değil, öğretim teorisiyle uyum çağrısı, mevcut yapay zeka geliştirme trendleri için gerekli bir düzeltmedir.

Zayıf Yönler: Kıyaslama şu anda tek dillidir (Çince), genellenebilirliği sınırlamaktadır. Değerlendirme çok yönlü olsa da, açıklayıcı görevler için kısmen otomatik metriklere (BLEU/ROUGE) dayanmaktadır ki bunlar pedagojik kalite için zayıf vekillerdir. Hugging Face BigScience ekibinin bütünsel değerlendirme üzerine çalışmalarında görüldüğü gibi, uzman insan değerlendirmesine daha ağır bir güvenme, iddialarını güçlendirecektir.

Harekete Geçirilebilir İçgörüler

Eğitim Teknolojisi Şirketleri İçin: BDM'leri hazır öğretmenler olarak pazarlamayı bırakın. CPG-EVAL gibi çerçeveleri dahili doğrulama için kullanın. Sadece daha fazla genel metin değil, yüksek kaliteli, pedagojik olarak açıklamalı veri kümeleri üzerinde ince ayara yatırım yapın.

Araştırmacılar İçin: Bu çalışma dikey ve yatay olarak genişletilmelidir. Dikey olarak, daha fazla etkileşimli, diyalog tabanlı öğretim senaryolarını dahil ederek. Yatay olarak, diğer diller (örn., İngilizce, İspanyolca) için eşdeğerlerini oluşturarak. Alanın bir "PedagojiGLUE" paketine ihtiyacı vardır.

Eğitimciler ve Politika Yapıcılar İçin: Şeffaflık talep edin. Herhangi bir yapay zeka aracını benimsemeden önce, onun "CPG-EVAL skoru" veya eşdeğerini sorun. Bu tür kıyaslamalara dayalı sertifikasyon standartları oluşturun. Öncül diğer yapay zeka alanlarında mevcuttur; NIST Yapay Zeka Risk Yönetimi Çerçevesi bağlama özgü değerlendirmeyi vurgular, ki eğitimin şiddetle eksik olduğu bir şeydir.

Teknik Detaylar ve Analiz Çerçevesi

Kıyaslamanın tasarımı, pedagojik yeterliliği örtük olarak çoklu yeteneklerin bir fonksiyonu olarak modeller. Bir öğretim görevi $T$ üzerindeki beklenen performans $P$'yi şu şekilde formalize edebiliriz:

$P(T) = f(K_d, K_p, K_c, R)$

Burada:
$K_d$ = Bildirimsel Bilgi (dilbilgisi kuralları),
$K_p$ = İşlemsel Bilgi (kuralları nasıl uygulayacağı),
$K_c$ = Koşulsal Bilgi (kuralları ne zaman/neden uygulayacağı),
$R$ = Girişime ve sınır durumlara karşı sağlamlık.

CPG-EVAL'in görevleri bu değişkenlere karşılık gelir: Görev 1-3 $K_d$'yi araştırır, Görev 4 $K_p$ ve $K_c$'yi araştırır ve Görev 5 doğrudan $R$'yi test eder. Sonuçlar, ölçeklendirmenin $K_d$'yi ve biraz da $R$'yi iyileştirdiğini, ancak $K_p$ ve $K_c$'nin önemli darboğazlar olarak kaldığını göstermektedir.

Analiz Çerçevesi Örnek Durumu

Senaryo: Bir BDM'nin "*Dün okula giderim." cümlesindeki hata için açıklamasının değerlendirilmesi.

CPG-EVAL Çerçeve Analizi:
1. Görev 1 (Yargı): Model cümleyi doğru bir şekilde dilbilgisel olmayan olarak etiketler. [$K_d$'yi Test Eder]
2. Görev 2 (Tanımlama): Model "giderim"i hata olarak tanımlar. [$K_d$'yi Test Eder]
3. Görev 3 (Kategorizasyon): Model hatayı "Zaman Tutarsızlığı" olarak sınıflandırır. [$K_d$'yi Test Eder]
4. Görev 4 (Açıklama): Model şunu üretir: "Geçmiş eylemler için geçmiş zaman 'gittim' kullanılır. 'Dün' zarfı geçmiş zamanı işaret eder." [$K_p$, $K_c$'yi Test Eder—kuralı bağlam ipucuna bağlar].
5. Görev 5 (Karıştırıcı): "Dün okula giderim..." ve "Her gün okula gittim..." ile sunulan model, her ikisini de doğru açıklamalı, aşırı genelleme yapmamalıdır. [$R$'yi Test Eder].

Bir model 1-3'ü geçebilir ancak 4'te "dün" ile bağlantı kurmadan gizemli bir kural ("geçmiş zaman kullan") vererek başarısız olabilir ve 5'te geçmiş zaman kuralını ikinci örnekteki alışkanlık eylemine katı bir şekilde uygulayarak başarısız olabilir.

7. Gelecekteki Uygulamalar ve Yönelimler

CPG-EVAL çerçevesi, birkaç kritik ilerlemenin önünü açmaktadır:

Özelleştirilmiş Model Eğitimi: Kıyaslama, genel sohbet optimizasyonunun ötesine geçerek gelişmiş pedagojik dilbilgisi becerilerine sahip "Öğretmen BDM'leri" ince ayarlamak için bir eğitim hedefi olarak kullanılabilir.
Dinamik Değerlendirme Araçları: CPG-EVAL tarzı değerlendirmeyi uyarlanabilir öğrenme platformlarına entegre ederek, bir modelin öğretmenlik güçlü ve zayıf yönlerini gerçek zamanlı olarak dinamik bir şekilde teşhis etmek ve öğrenci sorgularını buna göre yönlendirmek.
Çok Dilli Kıyaslamalar: BDM'lerin küresel pedagojik hazırlığının kapsamlı bir haritasını oluşturmak için diğer yaygın olarak öğretilen diller (örn., İngilizce, İspanyolca, Arapça) için benzer kıyaslamalar geliştirmek.
Eğitim Teorisiyle Entegrasyon: Gelecek yinelemeler, Ellis (2008) gibi temel çalışmalarda tartışıldığı gibi, ikinci dil ediniminin edinim sırası, yaygın öğrenci yörüngeleri ve farklı düzeltici geri bildirim stratejilerinin etkinliği gibi daha nüanslı yönlerini dahil edebilir.
Sertifikalı Yapay Zeka Öğretmenlerine Doğru: CPG-EVAL, yapay zeka eğitim araçları için potansiyel gelecek sertifikasyon programları için temel bir metrik sağlayarak, sınıflarda konuşlandırılmadan önce pedagojik yeterlilik için bir taban çizgisi sağlar.

8. Kaynaklar

Wang, D. (2025). CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models. arXiv preprint arXiv:2504.13261.
Brown, T., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
Ellis, R. (2008). The Study of Second Language Acquisition (2nd ed.). Oxford University Press.
Liang, P., et al. (2023). Holistic Evaluation of Language Models. Transactions on Machine Learning Research.
OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
NIST. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). National Institute of Standards and Technology.
Hugging Face. (2023). Evaluating Large Language Models. Hugging Face Blog. Retrieved from https://huggingface.co/blog/evaluation-llms
Bin-Hady, W. R. A., et al. (2023). Exploring the role of ChatGPT in language learning and teaching. Journal of Computer Assisted Learning.