CPG-EVAL: Büyük Dil Modellerinin Çince Pedagojik Dilbilgisi Yeterliliğini Değerlendirmek İçin Çok Katmanlı Bir Kıyaslama

1. Giriş

Makale, düşündürücü bir benzetmeyle başlıyor: Büyük Dil Modellerini (LLM) ChatGPT gibi, uygun değerlendirme yapılmadan eğitimsel rollerde konuşlandırmak, sertifikasız öğretmenlerin öğrencilere ders vermesine izin vermeye benzer. Bu, kritik bir boşluğa işaret ediyor. Büyük Dil Modelleri yabancı dil eğitiminde (ör. içerik üretimi, hata düzeltme) umut vaat etse de, temel pedagojik dilbilgisi yeterlilikleri—dilbilgisi kurallarını öğretilebilir, bağlamdan haberdar bir şekilde anlama ve açıklama yeteneği—büyük ölçüde ölçülmemiş durumda. Yazarlar, mevcut Doğal Dil İşleme (NLP) kıyaslamalarının bu alana özgü görev için yetersiz olduğunu savunuyor. Sonuç olarak, CPG-EVAL'ı (Çince Pedagojik Dilbilgisi Değerlendirmesi) tanıtıyorlar: Yabancı Dil Olarak Çince Öğretimi (YDÇÖ) bağlamında Büyük Dil Modellerinin pedagojik dilbilgisi bilgisini sistematik olarak değerlendirmek için tasarlanmış ilk özel, çok katmanlı kıyaslama.

2. İlgili Çalışmalar

Makale, CPG-EVAL'ı iki araştırma akımı içine yerleştiriyor. İlk olarak, Büyük Dil Modellerinin dil eğitimindeki artan uygulamalarını gözden geçiriyor; otomatik yazma değerlendirmesi, konuşma pratiği ve kaynak geliştirme gibi alanları kapsıyor (ör. Bin-Hady ve diğerleri, 2023; Kohnke ve diğerleri, 2023). İkinci olarak, genel amaçlı görevlerden (ör. GLUE, SuperGLUE) daha özelleşmiş değerlendirmelere doğru yapay zeka kıyaslamalarının evrimini tartışıyor. Yazarlar, pedagojik teori ve dil öğretimi uzmanlığına dayanan kıyaslamaların eksikliğine dikkat çekiyor; CPG-EVAL, YDÇÖ için hesaplamalı dilbilimi ile uygulamalı dilbilimi birleştirerek bu eksikliği gidermeyi amaçlıyor.

3. CPG-EVAL Kıyaslaması

3.1. Teorik Temel ve Tasarım İlkeleri

CPG-EVAL, kapsamlı YDÇÖ pratiğiyle doğrulanmış bir pedagojik dilbilgisi sınıflandırma sistemine dayanmaktadır. Tasarımı, öğretimsel uyum ilkeleri tarafından yönlendirilir ve görevlerin gerçek dünya öğretim senaryolarını yansıtmasını sağlar. Kıyaslama, sadece dilbilgisel doğruluğu değil, aynı zamanda modelin bir öğretmen veya eğitmenle ilgili görevleri (hataları tanımlama, kuralları açıklama, uygun öğretim örneklerini seçme gibi) gerçekleştirme yeteneğini de değerlendirir.

3.2. Görev Taksonomisi ve Değerlendirme Çerçevesi

Kıyaslama, çok katmanlı bir değerlendirme çerçevesi oluşturan beş temel görevden oluşur:

Dilbilgisi Tanıma: Verilen bir cümlenin hedef dilbilgisi noktasını doğru kullanıp kullanmadığını belirleme.
İnce Ayrım: Birbirine çok benzeyen dilbilgisi yapıları veya kullanımları arasında ayrım yapma.
Kategorik Ayırt Etme: Dilbilgisi hatalarını veya cümleleri belirli pedagojik kategorilere (ör. "了"nın yanlış kullanımı, yanlış sözcük sırası) sınıflandırma.
Dilsel Girişime Direnç (Tek Örnek): Modelin tek bir kafa karıştırıcı veya yanıltıcı örneği ele alma yeteneğini değerlendirme.
Dilsel Girişime Direnç (Çoklu Örnekler): Modelin birden fazla potansiyel olarak kafa karıştırıcı örnek üzerinden akıl yürütmesi gereken daha zorlu bir versiyon.

Bu yapı, temel tanımadan karmaşa altında ileri düzey akıl yürütmeye kadar pedagojik anlayışın farklı derinliklerini araştırmak için tasarlanmıştır.

4. Deneysel Kurulum ve Sonuçlar

4.1. Modeller ve Değerlendirme Protokolü

Çalışma, hem daha küçük ölçekli (ör. 10B parametrenin altındaki modeller) hem de daha büyük ölçekli modelleri (ör. GPT-4, Claude 3) içeren bir dizi Büyük Dil Modelini değerlendiriyor. Değerlendirme, doğal yeteneği ölçmek için sıfır atışlı veya az atışlı bir ortamda yapılır. Performans öncelikle tanımlanan görevlerdeki doğruluk oranıyla ölçülür.

4.2. Temel Bulgular ve Performans Analizi

Sonuçlar önemli bir performans hiyerarşisi ortaya koyuyor:

Daha küçük ölçekli modeller, daha basit, tek örnekli görevlerde (temel Dilbilgisi Tanıma gibi) makul bir başarı elde edebilir, ancak performansları çoklu örnekler veya güçlü dilsel girişim içeren görevlerde ani bir düşüş gösterir. Bu, sağlam, genellenebilir dilbilgisel akıl yürütmeden yoksun olduklarını gösterir.
Daha büyük ölçekli modeller (ör. GPT-4), girişime karşı belirgin şekilde daha iyi direnç gösterir ve çoklu örnek görevlerini daha etkili bir şekilde ele alır; bu da daha güçlü akıl yürütme ve bağlamsal anlayışa işaret eder. Ancak, doğrulukları hala mükemmel olmaktan uzaktır ve önemli bir iyileştirme alanı olduğunu gösterir.
Tüm modellerdeki genel performans, mevcut Büyük Dil Modellerinin, boyutları ne olursa olsun, Çince pedagojik dilbilgisinde henüz güvenilir bir şekilde yetkin olmadığını vurgulamaktadır. Kıyaslama, benzer dilbilgisi parçacıkları arasındaki karışıklık veya örnekler arasında tutarlı kurallar uygulama başarısızlığı gibi spesifik zayıflıkları başarıyla ortaya çıkarır.

Grafik Açıklaması (Tahmini): Çoklu çubuklu bir grafik, 5 CPG-EVAL görevi için 4-5 model ailesinin doğruluk puanlarını (%0-100) gösterecektir. Model ölçeği ile performans arasında net bir pozitif korelasyon görülebilir; büyük ve küçük modeller arasındaki fark, Görev 4 ve özellikle Görev 5 (Girişim görevleri) için önemli ölçüde açılmaktadır. Tüm modeller en düşük puanlarını Görev 5'te gösterecektir.

Temel Metrik: Performans Farkı

~%40

Karmaşık girişim görevlerinde büyük ve küçük modeller arasındaki doğruluk farkı.

Kıyaslama Ölçeği

5 Kademe

Farklı yeterlilik seviyelerini araştıran çok katmanlı görev tasarımı.

Ortaya Çıkan Temel Sınırlama

Öğretimsel Uyumsuzluk

Büyük Dil Modelleri, öğretilebilir, bağlamdan haberdar dilbilgisi açıklama becerilerinden yoksundur.

5. Temel İçgörü ve Analist Perspektifi

Temel İçgörü: CPG-EVAL sadece bir doğruluk testi değil; Yapay Zeka Eğitim Teknolojisi (EdTech) abartısı için bir gerçeklik kontrolüdür. En gelişmiş Büyük Dil Modellerinin bile dilbilgisel "zekasının" sığ ve pedagojik olarak uyumsuz olduğunu deneysel olarak gösterir. Gündelik konuşmacı olarak geçerler ancak sistematik öğretmen olarak başarısız olurlar.

Mantıksal Akış: Makale, kritik bir pazar ihtiyacını (yapay zeka öğretmenlerini değerlendirme) belirlemekten, sorunu parçalarına ayırmaya (pedagojik yeterlilik nedir?) ve nihayetinde titiz, teori odaklı bir çözüm inşa etmeye ustaca ilerliyor. Beş görevli çerçeve, ezberlemeyi gerçek anlayıştan temiz bir şekilde ayıran bir zorluk gradyanı oluşturan öldürücü özelliğidir.

Güçlü ve Zayıf Yönler: En büyük gücü, pedagojik temellere dayanmasıdır. Genel kıyaslamaların aksine, YDÇÖ alanı için ve bu alan tarafından inşa edilmiştir. Bu, MMLU (Kitlesel Çoklu Görev Dil Anlama) gibi disiplinler arası uzman düzeyinde bilgiyi bir araya getiren kıyaslamaların arkasındaki felsefeyi yansıtır, ancak CPG-EVAL tek bir uygulamalı alanda daha derine iner. Potansiyel bir kusur, şu anki odak noktasının iyileştirme yerine değerlendirme üzerinde olmasıdır. Hastalığı mükemmel bir şekilde teşhis eder ancak sınırlı bir reçete sunar. Gelecekteki çalışmalar, CPG-EVAL performansını, RAG (Alıntı ile Güçlendirilmiş Üretim)'in daha önceki kıyaslamalarla tanımlanan halüsinasyon sorunlarını ele almak için nasıl geliştirildiğine benzer şekilde, spesifik ince ayar veya uyum teknikleriyle bağlantılandırmalıdır.

Harekete Geçirilebilir İçgörüler: EdTech şirketleri için bu, zorunlu bir ön inceleme aracıdır—bir Büyük Dil Modeli tabanlı Çince öğretmenini CPG-EVAL çalıştırmadan asla konuşlandırmayın. Model geliştiricileri için, kıyaslama, anayasal yapay zekanın ötesinde yeni bir sınır olan "öğretimsel uyum" için net bir yol haritası sağlar. Girişim görevlerindeki düşük puanlar, DALL-E 3 veya AlphaCode 2'de kullanılan sentetik veri stratejilerine benzer şekilde, titizlikle hazırlanmış, pedagojik olarak yapılandırılmış veri kümeleri üzerinde eğitimin gerekli olduğunu gösterir. Eğitimciler ve politika yapıcılar için, bu çalışma, yapay zeka destekli eğitimde standartlar ve sertifikasyon için güçlü bir argümandır. Yapay zeka öğretmenlerine körü körüne güvenme çağı sona erdi.

6. Teknik Detaylar ve Matematiksel Formülasyon

PDF önizlemesi karmaşık formülleri detaylandırmasa da, değerlendirme mantığı formalize edilebilir. Temel metrik, $n$ örnekten oluşan $B$ kıyaslamasındaki $T_i$ görevi için bir $M$ modelinin doğruluğudur:

\[ \text{Doğruluk}(M, T_i) = \frac{1}{|D_{T_i}|} \sum_{x \in D_{T_i}} \mathbb{I}(\hat{y}_x = y_x) \]

Burada $D_{T_i}$, $i$ görevi için veri kümesi, $\hat{y}_x$ modelin $x$ örneği için tahmini, $y_x$ doğru etiket ve $\mathbb{I}$ gösterge fonksiyonudur.

Ana yenilik, özellikle girişim görevleri için $D_{T_i}$'nin yapılandırılmasıdır. Bunlar muhtemelen kontrollü negatif örnekler veya düşmanca bozulmalar içerir. Örneğin, tamamlanmış eylem ve durum değişikliği için "$\text{了}$" (le) arasındaki ayrımı test eden bir görevde, bir girişim örneği şöyle olabilir: "他病了三天。" (Üç gündür hastaydı.) vs. "他病三天了。" (Üç gündür hastadır.). İnce fark, derin sözdizimsel ve anlamsal anlayışı test eder.

7. Analiz Çerçevesi: Örnek Vaka

Senaryo: Bir Büyük Dil Modelinin, YDÇÖ'de klasik bir zorluk olan "$\text{把}$" (bǎ) yapısını anlayışını değerlendirme.

CPG-EVAL Görev Uygulaması:

Tanıma (Görev 1): Sun: "我把书放在桌子上。" (Kitabı masanın üzerine koydum.) Model bunu doğru olarak değerlendirmelidir.
İnce Ayrım (Görev 2): "我把书看了。" (Kitabı okudum.) ile "书被我看了。" (Kitap benim tarafımdan okundu.) karşılaştırması. Model, odak noktasının failden nesneye kaymasını açıklamalıdır.
Kategorik Ayırt Etme (Görev 3): Verilen bir hata: "我放书在桌子上。" (Kitabı masanın üzerine koydum.)—"$\text{把}$" eksik. Model, hata türünü "Gerektiğinde BA-yapısının eksik olması" olarak sınıflandırmalıdır.
Girişim - Tek (Görev 4): "$\text{把}$" kullanmayan ancak kullanabilecek kafa karıştırıcı doğru bir cümle verin: "我打开了门。" (Kapıyı açtım.) vs. "我把门打开了。" Model, her ikisinin de dilbilgisel olarak geçerli ancak pragmatik olarak farklı olduğunu tanımalıdır.
Girişim - Çoklu (Görev 5): Bazıları "$\text{把}$"ı doğru, bazıları yanlış kullanan ve bazıları alternatif yapılar kullanan bir cümle kümesi verin. Sorun: "Hangi iki cümle, nesne üzerinde aynı dilbilgisel odağı gösteriyor?" Bu, cümleler arası akıl yürütme gerektirir.

Bu vaka, CPG-EVAL'ın basit örüntü eşleştirmeden sofistike pedagojik akıl yürütmeye nasıl geçtiğini gösterir.

8. Gelecekteki Uygulamalar ve Araştırma Yönleri

Kıyaslama Genişletmesi: CPG-EVAL'ı karmaşık pedagojik dilbilgisine sahip diğer dillere (ör. Korece, Arapça) genişletmek.
Değerlendirmeden Geliştirmeye: CPG-EVAL'ı öğretimsel uyum ince ayarı için bir eğitim sinyali olarak kullanmak, özellikle öğretmen rolleri için optimize edilmiş Büyük Dil Modelleri yaratmak.
Eğitim Platformlarıyla Entegrasyon: EdTech platformları içine CPG-EVAL benzeri değerlendirme modülleri yerleştirerek yapay zeka öğretmen kalitesinin sürekli izlenmesini sağlamak.
Çok Modlu Değerlendirme: Gelecekteki kıyaslamalar, bir yapay zekanın dilbilgisini diyagramlar, jestler veya kod değiştirme kullanarak açıklama yeteneğini, saf metnin ötesine geçerek değerlendirebilir.
Boylamsal ve Uyarlanabilir Değerlendirme: Bir modelin açıklamalarını simüle edilmiş bir öğrencinin gelişen yeterlilik seviyesine uyarlama yeteneğini izleyen, gerçek kişiselleştirilmiş yapay zeka öğretmenliğine doğru bir adım olan kıyaslamalar geliştirmek.

9. Kaynaklar

Wang, D. (2025). CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models. arXiv preprint arXiv:2504.13261.
Bin-Hady, W. R. A., Al-Kadi, A., Hazaea, A., & Ali, J. K. M. (2023). Exploring the dimensions of ChatGPT in English language learning: A global perspective. Library Hi Tech.
Kohnke, L., Moorhouse, B. L., & Zou, D. (2023). ChatGPT for language teaching and learning. RELC Journal.
Srivastava, A., et al. (2022). Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615.
Liang, P., et al. (2023). Holistic Evaluation of Language Models. Transactions on Machine Learning Research.
Hendrycks, D., et al. (2021). Measuring Massive Multitask Language Understanding. Proceedings of ICLR.
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems.