CPG-EVAL: बड़ी भाषा मॉडल की चीनी शिक्षण व्याकरण क्षमता का मूल्यांकन करने के लिए एक बहु-स्तरीय बेंचमार्क

1. परिचय

यह लेख एक विचारोत्तेजक सादृश्य के साथ शुरू होता है: उचित मूल्यांकन के बिना शिक्षण की भूमिकाओं में चैटजीपीटी जैसे बड़े भाषा मॉडल तैनात करना, अयोग्य शिक्षकों को छात्रों को पढ़ाने की अनुमति देने के समान है। यह एक महत्वपूर्ण खालीपन को उजागर करता है। हालांकि बड़े भाषा मॉडल विदेशी भाषा शिक्षण (जैसे सामग्री निर्माण, त्रुटि सुधार) में संभावना दिखाते हैं, लेकिन उनकी मूलशिक्षण व्याकरण क्षमता—अर्थात्, व्याकरण नियमों को सिखाने योग्य, संदर्भ-जागरूक तरीके से समझने और समझाने की क्षमता—काफी हद तक अमापी रह गई है। लेखकों का तर्क है कि मौजूदा प्राकृतिक भाषा प्रसंस्करण बेंचमार्क इस विशिष्ट क्षेत्र के कार्य के लिए पर्याप्त नहीं हैं। इसलिए, वेCPG-EVAL(चाइनीज पेडागोगिकल ग्रामर एवैल्यूएशन) का परिचय देते हैं, जो चीनी को विदेशी भाषा के रूप में सिखाने के संदर्भ में बड़े भाषा मॉडल के शिक्षण व्याकरण ज्ञान का व्यवस्थित रूप से मूल्यांकन करने के लिए डिज़ाइन किया गया पहला विशेष, बहु-स्तरीय बेंचमार्क है।

2. संबंधित कार्य

यह लेख CPG-EVAL को दो शोध धाराओं में रखता है। पहला, भाषा शिक्षा में बड़े भाषा मॉडल के बढ़ते अनुप्रयोगों की समीक्षा करता है, जिसमें स्वचालित लेखन मूल्यांकन, संवाद अभ्यास और संसाधन विकास जैसे क्षेत्र शामिल हैं (उदाहरण के लिए Bin-Hady et al., 2023; Kohnke et al., 2023)। दूसरा, सामान्य कार्यों (जैसे GLUE, SuperGLUE) से लेकर अधिक विशिष्ट मूल्यांकनों तक कृत्रिम बुद्धिमत्ता बेंचमार्क के विकास पर चर्चा करता है। लेखक बताते हैं कि वर्तमान मेंशिक्षण सिद्धांत和भाषा शिक्षण विशेषज्ञताका बेंचमार्क है, और CPG-EVAL का लक्ष्य इस अंतर को भरना है, जो कम्प्यूटेशनल भाषाविज्ञान और अनुप्रयुक्त भाषाविज्ञान को संयोजित करके इसे विदेशी चीनी भाषा शिक्षण की सेवा में लगाकर प्राप्त किया जाता है।

3. The CPG-EVAL Benchmark

3.1. सैद्धांतिक आधार एवं डिज़ाइन सिद्धांत

CPG-EVAL एक व्यापक विदेशी चीनी भाषा शिक्षण अभ्यास द्वारा सत्यापित शिक्षण व्याकरण वर्गीकरण प्रणाली पर आधारित है। इसका डिजाइनशिक्षण संगतिके सिद्धांत का पालन करता है, यह सुनिश्चित करते हुए कि कार्य वास्तविक दुनिया के शिक्षण परिदृश्यों को प्रतिबिंबित करते हैं। यह बेंचमार्क न केवल व्याकरणिक शुद्धता का मूल्यांकन करता है, बल्कि मॉडल की उन कार्यों को निष्पादित करने की क्षमता का भी मूल्यांकन करता है जो एक शिक्षक या ट्यूटर से संबंधित हैं, जैसे कि त्रुटियों की पहचान करना, नियमों की व्याख्या करना और उपयुक्त शिक्षण उदाहरणों का चयन करना।

3.2. कार्य वर्गीकरण एवं मूल्यांकन ढांचा

यह बेंचमार्क पांच मुख्य कार्यों को समाहित करता है, जो एक बहु-स्तरीय मूल्यांकन ढांचा बनाते हैं:

व्याकरणिक पहचान:यह निर्धारित करना कि दिए गए वाक्य में लक्षित व्याकरण बिंदु का सही उपयोग हुआ है या नहीं।
सूक्ष्म विभेदन:सूक्ष्म अंतर वाली व्याकरणिक संरचनाओं या प्रयोगों के बीच अंतर करना।
श्रेणी विवेक:将语法错误或句子归类到特定的教学类别中（例如，“了”的误用、词序错误）。
भाषाई हस्तक्षेप प्रतिरोध क्षमता (एकल उदाहरण):एकल भ्रामक या गुमराह करने वाले उदाहरण को संसाधित करने की मॉडल की क्षमता का मूल्यांकन करें।
भाषाई हस्तक्षेप प्रतिरोध क्षमता (बहु-उदाहरण):अधिक चुनौतीपूर्ण संस्करण में, मॉडल को कई संभावित भ्रमित करने वाले उदाहरणों के बीच तर्क करना होगा।

यह संरचना मूल पहचान से लेकर भ्रमित करने वाली स्थितियों में उन्नत तर्क तक शिक्षण समझ की विभिन्न गहराइयों का अन्वेषण करने के लिए बनाई गई है।

4. प्रयोगात्मक सेटअप और परिणाम

4.1. मॉडल और मूल्यांकन प्रोटोकॉल

इस अध्ययन ने बड़े भाषा मॉडलों की एक श्रृंखला का मूल्यांकन किया, जिसमें छोटे पैमाने (उदाहरण के लिए, 10 बिलियन से कम पैरामीटर वाले मॉडल) और बड़े पैमाने के मॉडल (उदाहरण के लिए GPT-4, Claude 3) शामिल हैं। उनकी अंतर्निहित क्षमताओं का आकलन करने के लिए मूल्यांकन शून्य-नमूना या कम-नमूना सेटिंग्स में किया गया। प्रदर्शन मुख्य रूप से परिभाषित कार्यों पर सटीकता द्वारा मापा गया।

4.2. प्रमुख निष्कर्ष और प्रदर्शन विश्लेषण

परिणाम एक उल्लेखनीय प्रदर्शन पदानुक्रम को प्रकट करते हैं:

छोटे पैमाने के मॉडलसरल एकल-उदाहरण कार्यों (जैसे बुनियादी व्याकरण पहचान) पर संतोषजनक सफलता प्राप्त कर सकते हैं, लेकिन बहु-उदाहरण या मजबूत भाषाई व्यवधान वाले कार्यों पर उनका प्रदर्शनतेजी से गिरता है।यह दर्शाता है कि उनमें मजबूत, सामान्यीकरण योग्य व्याकरणिक तर्क क्षमता का अभाव है।
बड़े पैमाने के मॉडल(उदाहरण के लिए GPT-4) काफी मजबूत व्याकुलता प्रतिरोध दिखाते हैं और बहु-उदाहरण कार्यों को अधिक प्रभावी ढंग से संभाल सकते हैं, जो उनकी मजबूत तर्क और प्रसंग समझ क्षमता का संकेत देता है। हालांकि, उनकी सटीकता अभी भी पूर्णता से बहुत दूर है, जो दर्शाता है किसुधार की भारी संभावना है。
सभी मॉडलों का समग्र प्रदर्शन दर्शाता है कि वर्तमान बड़े भाषा मॉडल, चाहे उनका आकार कुछ भी हो, चीनी शिक्षण व्याकरण में विश्वसनीय रूप से दक्ष स्तर तक नहीं पहुंचे हैं। यह बेंचमार्क विशिष्ट कमजोरियों को सफलतापूर्वक उजागर करता है, जैसे समान व्याकरणिक कणों में भ्रम, या कई उदाहरणों में एक सुसंगत नियम लागू करने में असमर्थता।

चार्ट विवरण (कल्पना):एक मल्टी-बार चार्ट 4-5 मॉडल श्रृंखलाओं के CPG-EVAL के 5 कार्यों पर सटीकता स्कोर (0-100%) प्रदर्शित करेगा। मॉडल आकार और प्रदर्शन के बीच सकारात्मक सहसंबंध स्पष्ट रूप से दिखाई देगा, विशेष रूप से कार्य 4 और कार्य 5 (व्याकुलता कार्य) के लिए, जहां बड़े और छोटे मॉडलों के बीच का अंतर काफी बढ़ जाता है। सभी मॉडलों का सबसे कम स्कोर कार्य 5 पर होगा।

प्रमुख मीट्रिक: प्रदर्शन अंतर

~40%

जटिल व्यवधान कार्यों पर बड़े मॉडल और छोटे मॉडल की सटीकता में अंतर।

बेंचमार्क पैमाना

5 स्तर

बहु-स्तरीय कार्य डिजाइन, विभिन्न क्षमता स्तरों की खोज।

उजागर मूलभूत सीमाएं

शिक्षण में असंगति

बड़ी भाषा मॉडल में सिखाने योग्य, संदर्भ-जागरूक व्याकरणिक व्याख्या कौशल का अभाव है।

5. मूल अंतर्दृष्टि और विश्लेषण परिप्रेक्ष्य

मूल अंतर्दृष्टि:CPG-EVAL केवल एक और सटीकता परीक्षण नहीं है; यह हैएआई एडटेक प्रचार की एक वास्तविकता जाँचयह अनुभवजन्य रूप से सिद्ध करता है कि यहां तक कि सबसे उन्नत बड़े भाषा मॉडल की व्याकरणिक "बुद्धिमत्ता" भी सतही और शैक्षणिक आवश्यकताओं के साथ असंगत है। वे आकस्मिक वार्ताकार के रूप में काम कर सकते हैं, लेकिन एक व्यवस्थित शिक्षक के रूप में अयोग्य हैं।

तार्किक संरचना:यह लेख एक महत्वपूर्ण बाजार आवश्यकता (AI शिक्षकों का मूल्यांकन) से शुरू होकर, समस्या का विश्लेषण (शिक्षण क्षमता क्या है?) करता है, और अंत में एक कठोर, सिद्धांत-संचालित समाधान का निर्माण करता है। पांच-कार्य ढांचा इसकी मुख्य ताकत है, जो एक कठिनाई प्रवणता बनाता है और रटने वाले ज्ञान और वास्तविक समझ के बीच स्पष्ट अंतर करता है।

शक्तियाँ और सीमाएँ:इसका सबसे बड़ा लाभ इसकाशैक्षणिक आधारसामान्य बेंचमार्क के विपरीत, यह चीनी-भाषा शिक्षण के क्षेत्र के लिए और उसके द्वारा निर्मित है। यह इसी तरह केMMLU (Massive Multitask Language Understanding)बेंचमार्क के पीछे का विचार, जो क्रॉस-डिसिप्लिनरी विशेषज्ञ-स्तरीय ज्ञान को एकत्रित करता है, लेकिन CPG-EVAL एकल अनुप्रयोग डोमेन में और गहराई तक जाता है। एक संभावित कमी इसका वर्तमान ध्यान हैमूल्यांकनबजायसुधार। यह स्थिति का उत्कृष्ट निदान करता है, लेकिन सीमित नुस्खे प्रदान करता है। भविष्य के कार्यों को CPG-EVAL पर प्रदर्शन को विशिष्ट फाइन-ट्यूनिंग या संरेखण तकनीकों से जोड़ना चाहिए, जैसे किRAG (रिट्रीवल-ऑगमेंटेड जेनरेशन)को शुरुआती बेंचमार्क द्वारा पाए गए भ्रम की समस्या को हल करने के लिए कैसे विकसित किया गया था।

क्रियान्वयन योग्य अंतर्दृष्टि:के लिएएडटेक कंपनियों, यह एक अनिवार्य ड्यू डिलिजेंस टूल है—बड़े भाषा मॉडल-आधारित चीनी ट्यूटर्स को तैनात करने से पहले CPG-EVAL चलाना आवश्यक है। के लिएमॉडल डेवलपर्स, यह बेंचमार्क "शिक्षण संरेखण" के लिए एक स्पष्ट रोडमैप प्रदान करता है, जो कॉन्स्टिट्यूशनल AI से आगे का नया मोर्चा है। विचलनकारी कार्यों पर कम स्कोर इंगित करता है कि सावधानीपूर्वक क्यूरेटेड, शैक्षणिक रूप से संरचित डेटासेट पर प्रशिक्षण—जोDALL-E 3或AlphaCode 2में उपयोग की गई सिंथेटिक डेटा रणनीति के समान है—महत्वपूर्ण है। के लिएशिक्षक और नीति निर्माताइस अध्ययन ने कृत्रिम बुद्धिमत्ता-सहायता प्राप्त शिक्षा में मानकों और प्रमाणन के लिए एक मजबूत तर्क प्रस्तुत किया है। एआई शिक्षकों पर अंधविश्वास का युग समाप्त हो चुका है।

6. तकनीकी विवरण और गणितीय सूत्र

हालांकि PDF पूर्वावलोकन में जटिल सूत्रों का विस्तृत विवरण नहीं है, लेकिन मूल्यांकन तर्क को औपचारिक रूप दिया जा सकता है। मुख्य मापदंड मॉडल $M$ का बेंचमार्क $B$ में कार्य $T_i$ पर सटीकता है, जिसमें $n$ उदाहरण शामिल हैं:

\[ \text{शुद्धता}(M, T_i) = \frac{1}{|D_{T_i}|} \sum_{x \in D_{T_i}} \mathbb{I}(\hat{y}_x = y_x) \]

जहाँ $D_{T_i}$ कार्य $i$ का डेटासेट है, $\hat{y}_x$ उदाहरण $x$ के लिए मॉडल की भविष्यवाणी है, $y_x$ सही लेबल है, और $\mathbb{I}$ सूचक फलन है।

关键创新在于$D_{T_i}$的构建，特别是针对干扰任务。这些任务可能涉及受控的负例或对抗性扰动。例如，在一个测试区分表示动作完成的“$\text{了}$”与状态改变的“$\text{了}$”的任务中，一个干扰实例可能是：“वह तीन दिन से बीमार है।"और"वह तीन दिन से बीमार है।"सूक्ष्म अंतर गहन वाक्य-रचना और अर्थ-समझ की परीक्षा लेते हैं।"

7. विश्लेषणात्मक ढांचा: उदाहरणात्मक केस स्टडी

दृश्य:评估大语言模型对“$\text{把}$”字句的理解，这是对外汉语教学中的经典难点。

CPG-EVAL कार्य अनुप्रयोग:

पहचान (कार्य 1):प्रस्तुत करना: "मैंने किताब मेज़ पर रख दी।" मॉडल को इसे सही मानना चाहिए।
सूक्ष्म विवेचन (कार्य 2):तुलना करें "मैंने किताब पढ़ी।"और"किताब मेरे द्वारा पढ़ी गई।"मॉडल को एजेंट से रिसीवर की ओर ध्यान के स्थानांतरण की व्याख्या करनी चाहिए।"
श्रेणी विभेदन (कार्य 3):एक त्रुटि दी गई है: "मैंने किताब मेज़ पर रख दी।”——缺少“$\text{把}$”。模型必须将错误类型归类为“在需要处缺失‘把’字结构”。
Interference - Single Instance (Task 4):提供一个未使用“$\text{把}$”但可能使用的、令人困惑的正确句子：“मैंने दरवाज़ा खोला।"और"मैंने दरवाज़ा खोल दिया।"मॉडल को यह पहचानना चाहिए कि दोनों व्याकरणिक रूप से सही हैं, परंतु प्रयोगात्मक स्तर पर भिन्न हैं।"
Interference - Multiple Instances (Task 5):提供一组句子，一些正确使用“$\text{把}$”，一些错误使用，还有一些使用替代结构。提问：“哪两个句子展示了相同的、聚焦于宾语的语法焦点？”这需要进行跨句推理。

यह मामला दर्शाता है कि कैसे CPG-EVAL सरल पैटर्न मिलान से जटिल शैक्षणिक तर्क में संक्रमण करता है।

8. भविष्य के अनुप्रयोग एवं शोध संभावनाएं

बेंचमार्क विस्तार:CPG-EVAL को अन्य भाषाओं (जैसे कोरियाई, अरबी) जिनकी शिक्षण व्याकरण जटिल है, तक विस्तारित करना।
मूल्यांकन से संवर्धन तक:CPG-EVAL का उपयोगशिक्षण-संरेखित फाइन-ट्यूनिंगके लिए प्रशिक्षण संकेत के रूप में करना, ताकि विशेष रूप से शिक्षण भूमिका के लिए अनुकूलित बड़े भाषा मॉडल बनाए जा सकें।
शैक्षिक प्लेटफ़ॉर्म के साथ एकीकरण:एआई ट्यूटर्स की गुणवत्ता की निरंतर निगरानी के लिए शिक्षा प्रौद्योगिकी प्लेटफ़ॉर्म के भीतर CPG-EVAL जैसे मूल्यांकन मॉड्यूल को एम्बेड करना।
बहु-मॉडल मूल्यांकन:भविष्य के बेंचमार्क शुद्ध पाठ से परे जाकर, एआई की चार्ट, हावभाव या कोड-स्विचिंग का उपयोग करके व्याकरण समझाने की क्षमता का मूल्यांकन कर सकते हैं।
अनुदैर्ध्य एवं अनुकूली मूल्यांकन:ऐसे बेंचमार्क विकसित करना जो सिम्युलेटेड छात्रों की बदलती दक्षता के अनुसार मॉडल की व्याख्या क्षमताओं को समायोजित करने की निगरानी कर सकें, यह वास्तविक व्यक्तिगत एआई ट्यूटरिंग की दिशा में एक कदम है।

9. संदर्भ सूची

Wang, D. (2025). CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models. arXiv preprint arXiv:2504.13261.
Bin-Hady, W. R. A., Al-Kadi, A., Hazaea, A., & Ali, J. K. M. (2023). Exploring the dimensions of ChatGPT in English language learning: A global perspective. लाइब्रेरी हाई टेक.
Kohnke, L., Moorhouse, B. L., & Zou, D. (2023). ChatGPT for language teaching and learning. RELC जर्नल.
श्रीवास्तव, ए., एट अल. (2022). बियॉन्ड द इमिटेशन गेम: भाषा मॉडल की क्षमताओं का मात्रात्मक मूल्यांकन और एक्सट्रपलेशन। arXiv प्रीप्रिंट arXiv:2206.04615.
लिआंग, पी., एट अल. (2023). भाषा मॉडल का समग्र मूल्यांकन। ट्रांजैक्शन्स ऑन मशीन लर्निंग रिसर्च.
Hendrycks, D., et al. (2021). Measuring Massive Multitask Language Understanding. Proceedings of ICLR.
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems.