CPG-EVAL: Penanda Aras Bertingkat untuk Menilai Kompetensi Tatabahasa Pedagogi Cina Model Bahasa Besar

1. Pengenalan

Kertas kerja ini dibuka dengan analogi yang provokatif: menggunakan Model Bahasa Besar (LLM) seperti ChatGPT dalam peranan pendidikan tanpa penilaian yang sewajarnya adalah ibarat membenarkan guru yang tidak bertauliah mengajar pelajar. Ini menonjolkan satu jurang yang kritikal. Walaupun LLM menunjukkan potensi dalam pendidikan bahasa asing (contohnya, penjanaan kandungan, pembetulan ralat), kompetensi tatabahasa pedagogi teras mereka—keupayaan untuk memahami dan menerangkan peraturan tatabahasa dengan cara yang boleh diajar dan sedar konteks—masih belum diukur sepenuhnya. Penulis berhujah bahawa penanda aras NLP sedia ada tidak mencukupi untuk tugas khusus domain ini. Oleh itu, mereka memperkenalkan CPG-EVAL (Penilaian Tatabahasa Pedagogi Cina), penanda aras berdedikasi dan bertingkat pertama yang direka untuk menilai pengetahuan LLM tentang tatabahasa pedagogi secara sistematik dalam konteks Pengajaran Bahasa Cina sebagai Bahasa Asing (TCFL).

2. Kerja Berkaitan

Kertas kerja ini meletakkan CPG-EVAL dalam dua aliran penyelidikan. Pertama, ia mengkaji semula aplikasi LLM yang semakin berkembang dalam pendidikan bahasa, merangkumi bidang seperti penilaian penulisan automatik, latihan perbualan, dan pembangunan sumber (contohnya, Bin-Hady et al., 2023; Kohnke et al., 2023). Kedua, ia membincangkan evolusi penanda aras AI, daripada tugas umum (contohnya, GLUE, SuperGLUE) kepada penilaian yang lebih khusus. Penulis menyatakan kekurangan penanda aras yang berasaskan teori pedagogi dan kepakaran pengajaran bahasa, yang CPG-EVAL bertujuan untuk menangani dengan menjembatani linguistik pengiraan dan linguistik gunaan untuk TCFL.

3. Penanda Aras CPG-EVAL

3.1. Asas Teori & Prinsip Reka Bentuk

CPG-EVAL berasaskan sistem klasifikasi tatabahasa pedagogi yang disahkan melalui amalan TCFL yang meluas. Reka bentuknya dipandu oleh prinsip penjajaran pengajaran, memastikan tugas mencerminkan senario pengajaran dunia sebenar. Penanda aras ini menilai bukan sahaja ketepatan tatabahasa, tetapi juga keupayaan model untuk melaksanakan tugas yang relevan dengan guru atau tutor, seperti mengenal pasti ralat, menerangkan peraturan, dan memilih contoh pengajaran yang sesuai.

3.2. Taksonomi Tugasan & Kerangka Penilaian

Penanda aras ini merangkumi lima tugas teras, mewujudkan kerangka penilaian bertingkat:

Pengiktirafan Tatabahasa: Mengenal pasti sama ada ayat yang diberikan menggunakan titik tatabahasa sasaran dengan betul.
Pembezaan Halus: Membezakan antara pembinaan atau penggunaan tatabahasa yang hampir serupa tetapi berbeza secara halus.
Diskriminasi Kategori: Mengklasifikasikan ralat tatabahasa atau ayat ke dalam kategori pedagogi tertentu (contohnya, penyalahgunaan "了", susunan kata yang salah).
Rintangan terhadap Gangguan Linguistik (Contoh Tunggal): Menilai keupayaan model untuk mengendalikan satu contoh yang mengelirukan atau mengelirukan.
Rintangan terhadap Gangguan Linguistik (Pelbagai Contoh): Versi yang lebih mencabar di mana model mesti membuat penaakulan merentasi pelbagai contoh yang berpotensi mengelirukan.

Struktur ini direka untuk menyelidik kedalaman pemahaman pedagogi yang berbeza, daripada pengiktirafan asas kepada penaakulan lanjutan dalam keadaan keliru.

4. Persediaan Eksperimen & Keputusan

4.1. Model & Protokol Penilaian

Kajian ini menilai pelbagai LLM, termasuk model berskala kecil (contohnya, model di bawah 10B parameter) dan model berskala besar (contohnya, GPT-4, Claude 3). Penilaian dijalankan dalam tetapan zero-shot atau few-shot untuk menilai keupayaan semula jadi. Prestasi diukur terutamanya oleh ketepatan pada tugas yang ditakrifkan.

4.2. Penemuan Utama & Analisis Prestasi

Keputusan mendedahkan hierarki prestasi yang ketara:

Model berskala kecil boleh mencapai kejayaan yang munasabah pada tugas contoh tunggal yang lebih mudah (seperti Pengiktirafan Tatabahasa asas) tetapi prestasi mereka merudum pada tugas yang melibatkan pelbagai contoh atau gangguan linguistik yang kuat. Ini mencadangkan mereka kekurangan penaakulan tatabahasa yang teguh dan boleh digeneralisasikan.
Model berskala besar (contohnya, GPT-4) menunjukkan rintangan terhadap gangguan yang jauh lebih baik dan mengendalikan tugas pelbagai contoh dengan lebih berkesan, menunjukkan penaakulan dan pemahaman kontekstual yang lebih kuat. Walau bagaimanapun, ketepatan mereka masih jauh daripada sempurna, menunjukkan ruang penambahbaikan yang ketara.
Prestasi keseluruhan merentasi semua model menonjolkan bahawa LLM semasa, tanpa mengira saiz, masih belum kompeten secara boleh dipercayai dalam tatabahasa pedagogi untuk bahasa Cina. Penanda aras ini berjaya mendedahkan kelemahan khusus, seperti kekeliruan antara partikel tatabahasa yang serupa atau kegagalan untuk menggunakan peraturan yang konsisten merentasi contoh.

Penerangan Carta (Dibayangkan): Carta bar pelbagai akan menunjukkan skor ketepatan (0-100%) untuk 4-5 keluarga model merentasi 5 tugas CPG-EVAL. Korelasi positif yang jelas antara skala model dan prestasi akan kelihatan, dengan jurang antara model besar dan kecil melebar secara dramatik untuk Tugas 4 dan terutamanya Tugas 5 (tugas gangguan). Semua model akan menunjukkan skor terendah mereka pada Tugas 5.

Metrik Utama: Jurang Prestasi

~40%

Perbezaan ketepatan antara model besar dan kecil pada tugas gangguan kompleks.

Skala Penanda Aras

5 Tingkat

Reka bentuk tugas bertingkat yang menyelidik tahap kecekapan berbeza.

Batasan Teras Didedahkan

Ketidakselarasan Pengajaran

LLM kekurangan kemahiran penerangan tatabahasa yang boleh diajar dan sedar konteks.

5. Inti Pati & Perspektif Penganalisis

Inti Pati: CPG-EVAL bukan sekadar satu lagi ujian ketepatan; ia adalah pemeriksaan realiti untuk gembar-gembur AI EdTech. Ia secara empirikal menunjukkan bahawa "kepintaran" tatabahasa LLM yang paling maju pun adalah cetek dan tidak selaras dari segi pedagogi. Mereka lulus sebagai penutur kasual tetapi gagal sebagai guru yang sistematik.

Aliran Logik: Kertas kerja ini bergerak dengan cemerlang daripada mengenal pasti keperluan pasaran kritikal (menilai guru AI) kepada mendekonstruksi masalah (apakah kompetensi pedagogi?) dan akhirnya membina penyelesaian yang ketat dan didorong teori. Kerangka lima tugas adalah ciri utamanya, mewujudkan kecerahan kesukaran yang memisahkan hafalan daripada pemahaman sebenar dengan jelas.

Kekuatan & Kelemahan: Kekuatan terbesarnya ialah asas pedagoginya. Tidak seperti penanda aras generik, ia dibina untuk dan oleh domain TCFL. Ini mencerminkan falsafah di sebalik penanda aras seperti MMLU (Pemahaman Bahasa Pelbagai Tugas Besar-besaran) yang mengagregatkan pengetahuan peringkat pakar merentasi disiplin, tetapi CPG-EVAL menyelami lebih dalam ke satu bidang gunaan tunggal. Satu kelemahan berpotensi ialah fokus semasanya pada penilaian berbanding penambahbaikan. Ia mendiagnosis penyakit dengan cemerlang tetapi menawarkan preskripsi yang terhad. Kerja masa depan mesti menghubungkan prestasi pada CPG-EVAL kepada teknik penalaan halus atau penjajaran tertentu, sama seperti bagaimana RAG (Penjanaan Ditambah Pencarian) dibangunkan untuk menangani isu halusinasi yang dikenal pasti oleh penanda aras terdahulu.

Wawasan Boleh Tindak: Untuk syarikat EdTech, ini adalah alat uji saksama wajib—jangan sekali-kali menggunakan tutor bahasa Cina berasaskan LLM tanpa menjalankan CPG-EVAL. Untuk pembangun model, penanda aras ini menyediakan peta jalan yang jelas untuk "penjajaran pengajaran," satu sempadan baru di luar AI perlembagaan. Skor rendah pada tugas gangguan mencadangkan bahawa latihan pada set data terkurasi dan berstruktur pedagogi—serupa dengan strategi data sintetik yang digunakan dalam DALL-E 3 atau AlphaCode 2—adalah penting. Untuk pendidik dan pembuat dasar, kajian ini adalah hujah yang kuat untuk piawaian dan pensijilan dalam pendidikan berbantukan AI. Era kepercayaan membuta tuli pada tutor AI sudah berakhir.

6. Butiran Teknikal & Formulasi Matematik

Walaupun pratonton PDF tidak memperincikan formula kompleks, logik penilaian boleh diformalkan. Metrik teras ialah ketepatan untuk model $M$ pada tugas $T_i$ daripada penanda aras $B$ yang merangkumi $n$ contoh:

\[ \text{Ketepatan}(M, T_i) = \frac{1}{|D_{T_i}|} \sum_{x \in D_{T_i}} \mathbb{I}(\hat{y}_x = y_x) \]

di mana $D_{T_i}$ ialah set data untuk tugas $i$, $\hat{y}_x$ ialah ramalan model untuk contoh $x$, $y_x$ ialah label emas, dan $\mathbb{I}$ ialah fungsi penunjuk.

Inovasi utama ialah pembinaan $D_{T_i}$, terutamanya untuk tugas gangguan. Ini mungkin melibatkan contoh negatif terkawal atau gangguan bersifat adversari. Sebagai contoh, dalam tugas menguji perbezaan antara "$\text{了}$" (le) untuk tindakan selesai berbanding perubahan keadaan, contoh gangguan mungkin: "他病了三天。" (Dia telah sakit selama tiga hari.) berbanding "他病三天了。" (Dia telah sakit selama tiga hari.). Perbezaan halus ini menguji pemahaman sintaksis dan semantik yang mendalam.

7. Kerangka Analisis: Contoh Kes

Skenario: Menilai pemahaman LLM tentang pembinaan "$\text{把}$" (bǎ), satu cabaran klasik dalam TCFL.

Aplikasi Tugas CPG-EVAL:

Pengiktirafan (Tugas 1): Dibentangkan: "我把书放在桌子上。" (Saya meletakkan buku di atas meja.) Model mesti menilainya sebagai betul.
Pembezaan Halus (Tugas 2): Kontras "我把书看了。" (Saya membaca buku.) dengan "书被我看了。" (Buku itu dibaca oleh saya.). Model mesti menerangkan peralihan fokus daripada agen kepada pesakit.
Diskriminasi Kategori (Tugas 3): Diberikan ralat: "我放书在桌子上。" (Saya letak buku di atas meja.)—kehilangan "$\text{把}$". Model mesti mengklasifikasikan jenis ralat sebagai "Kehilangan pembinaan BA di mana diperlukan."
Gangguan - Tunggal (Tugas 4): Berikan ayat betul yang mengelirukan yang tidak menggunakan "$\text{把}$" tetapi boleh: "我打开了门。" (Saya membuka pintu.) berbanding "我把门打开了。" Model mesti mengenal pasti kedua-duanya adalah sah dari segi tatabahasa tetapi berbeza dari segi pragmatik.
Gangguan - Pelbagai (Tugas 5): Berikan satu set ayat, ada yang menggunakan "$\text{把}$" dengan betul, ada yang salah, dan ada yang menggunakan struktur alternatif. Tanya: "Dua ayat manakah menunjukkan fokus tatabahasa yang sama pada objek?" Ini memerlukan penaakulan merentasi ayat.

Kes ini menunjukkan bagaimana CPG-EVAL bergerak daripada pemadanan corak mudah kepada penaakulan pedagogi yang canggih.

8. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Pengembangan Penanda Aras: Meluaskan CPG-EVAL kepada bahasa lain (contohnya, Korea, Arab) dengan tatabahasa pedagogi yang kompleks.
Daripada Penilaian kepada Peningkatan: Menggunakan CPG-EVAL sebagai isyarat latihan untuk penalaan halus penjajaran pengajaran, mencipta LLM yang dioptimumkan khusus untuk peranan pengajaran.
Integrasi dengan Platform Pendidikan: Menyepadukan modul penilaian seperti CPG-EVAL dalam platform EdTech untuk pemantauan berterusan kualiti tutor AI.
Penilaian Multimodal: Penanda aras masa depan boleh menilai keupayaan AI untuk menerangkan tatabahasa menggunakan gambar rajah, gerak isyarat, atau pertukaran kod, bergerak melampaui teks tulen.
Penilaian Longitudinal & Adaptif: Membangunkan penanda aras yang menjejaki keupayaan model untuk menyesuaikan penerangannya kepada tahap kemahiran pelajar simulasi yang berkembang, satu langkah ke arah tutor AI peribadi sebenar.

9. Rujukan

Wang, D. (2025). CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models. arXiv preprint arXiv:2504.13261.
Bin-Hady, W. R. A., Al-Kadi, A., Hazaea, A., & Ali, J. K. M. (2023). Exploring the dimensions of ChatGPT in English language learning: A global perspective. Library Hi Tech.
Kohnke, L., Moorhouse, B. L., & Zou, D. (2023). ChatGPT for language teaching and learning. RELC Journal.
Srivastava, A., et al. (2022). Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615.
Liang, P., et al. (2023). Holistic Evaluation of Language Models. Transactions on Machine Learning Research.
Hendrycks, D., et al. (2021). Measuring Massive Multitask Language Understanding. Proceedings of ICLR.
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems.