CPG-EVAL: बड़ी भाषा मॉडल की चीनी शिक्षण व्याकरण क्षमता का मूल्यांकन करने के लिए एक बहु-स्तरीय बेंचमार्क

1. परिचय

ChatGPT जैसे बड़े भाषा मॉडल (LLMs) विदेशी भाषा शिक्षा क्षेत्र में तेजी से एकीकृत हो रहे हैं, जिसने विशेष मूल्यांकन ढांचे की तत्काल आवश्यकता पैदा कर दी है। हालांकि ये मॉडल स्वतंत्र सीखने और सामग्री निर्माण का समर्थन करने में क्षमता दिखाते हैं, लेकिन उनकी मूल शिक्षण व्याकरण क्षमता - प्रभावी भाषा शिक्षण के लिए महत्वपूर्ण - काफी हद तक अमूल्यांकित रही है। यह लेख CPG-EVAL की शुरुआत करके इस महत्वपूर्ण अंतर को भरता है, जो विदेशियों को चीनी भाषा शिक्षण (TCFL) के संदर्भ में बड़े भाषा मॉडलों की शिक्षण व्याकरण ज्ञान का व्यवस्थित रूप से मूल्यांकन करने के लिए विशेष रूप से डिजाइन किया गया पहला बेंचमार्क है।

यह लेख तर्क देता है कि जिस प्रकार मानव शिक्षकों को प्रमाणन की आवश्यकता होती है, उसी प्रकार शैक्षिक भूमिकाओं में तैनात AI प्रणालियों को भी सख्त, क्षेत्र-विशिष्ट मूल्यांकन से गुजरना चाहिए। CPG-EVAL व्याकरणिक पहचान, सूक्ष्म भेदभाव, श्रेणी निर्णय और भाषाई हस्तक्षेप के प्रति प्रतिरोध का मूल्यांकन करने के लिए एक सैद्धांतिक रूप से संचालित, बहु-स्तरीय ढांचा प्रदान करता है।

2. संबंधित कार्य

प्राकृतिक भाषा प्रसंस्करण क्षेत्र में मौजूदा बेंचमार्क, जैसे GLUE, SuperGLUE और MMLU, मुख्य रूप से सामान्य भाषा समझ और तर्क क्षमता का आकलन करते हैं। हालांकि, उनमें शैक्षिक उपयुक्तता के मूल्यांकन के लिए आवश्यक शैक्षिक विशिष्टता का अभाव है। शिक्षा में बड़े भाषा मॉडल के अनुप्रयोग पर शोध ने त्रुटि सुधार और संवाद अभ्यास जैसे क्षेत्रों का पता लगाया है, लेकिन भाषा शिक्षण विशेषज्ञता पर आधारित, व्याकरण-केंद्रित एक व्यवस्थित मूल्यांकन अभी तक अनुपस्थित रहा है। CPG-EVAL बेंचमार्क डिजाइन को चीनी भाषा शिक्षण में स्थापित शैक्षिक व्याकरण वर्गीकरण प्रणाली के साथ एकीकृत करके इस अंतर को पाटता है।

3. CPG-EVAL बेंचमार्क

CPG-EVAL को एक व्यापक, बहु-कार्य बेंचमार्क के रूप में निर्मित किया गया है, जिसका उद्देश्य शिक्षण व्याकरण क्षमता के विभिन्न आयामों की जांच करना है।

3.1. सैद्धांतिक आधार

यह बेंचमार्क व्यापक रूप से अभ्यास-सिद्ध शिक्षण व्याकरण वर्गीकरण प्रणाली में निहित है, जो विदेशी चीनी भाषा शिक्षण में सत्यापित है। यह वाक्यविन्यास की शुद्धता से परे जाकर, वास्तविक शिक्षण परिदृश्यों के लिए उपयुक्त ज्ञान का मूल्यांकन करता है, जो व्याकरणिकता निर्णय, त्रुटि स्पष्टीकरण और नियम प्रतिपादन जैसी अवधारणाओं पर केंद्रित है।

3.2. कार्य डिजाइन एवं संरचना

CPG-EVAL में पाँच मुख्य कार्य शामिल हैं, जो एक क्रमिक मूल्यांकन सीढ़ी का निर्माण करने का लक्ष्य रखते हैं।

कार्य 1: व्याकरणिकता निर्णय। – वाक्यों की शुद्धता का द्विआधारी वर्गीकरण।
कार्य 2: सूक्ष्म-स्तरीय त्रुटि पहचान – सटीक त्रुटि घटक का सटीक स्थान निर्धारण।
कार्य 3: त्रुटि वर्गीकरण – त्रुटियों को वर्गीकृत करें (उदाहरण के लिए, काल, पहलू, शब्द क्रम)।
कार्य 4: शिक्षण स्पष्टीकरण उत्पन्न करना – त्रुटियों के लिए सीखने वालों के लिए समझने में आसान स्पष्टीकरण प्रदान करें।
कार्य 5: भ्रमित करने वाले उदाहरणों के प्रति प्रतिरोध क्षमता – मॉडल के प्रदर्शन का मूल्यांकन करें जब वह कई संभावित भ्रमित करने वाले उदाहरणों का सामना करता है।

3.3. मूल्यांकन मापदंड

कार्य 1-3 के लिए, प्रदर्शन को मापने के लिए मानक वर्गीकरण मेट्रिक्स (शुद्धता, F1 स्कोर) का उपयोग करें। जनरेटिव कार्यों (कार्य 4) के लिए, BLEU, ROUGE जैसे मेट्रिक्स का उपयोग किया जाता है, और स्पष्टता, शुद्धता और शैक्षणिक उपयुक्तता के लिए मैन्युअल मूल्यांकन के साथ संयुक्त किया जाता है। कार्य 5 अलग-थलग उदाहरणों की तुलना में प्रदर्शन में गिरावट की डिग्री का मूल्यांकन करता है।

4. प्रयोगात्मक सेटअप और परिणाम

4.1. मूल्यांकित मॉडल

इस अध्ययन ने बड़े भाषा मॉडलों की एक श्रृंखला का मूल्यांकन किया, जिसमें GPT-3.5, GPT-4, Claude 2 और कई ओपन-सोर्स मॉडल (उदाहरण के लिए, LLaMA 2, ChatGLM) शामिल हैं। मॉडलों का मूल्यांकन ज़ीरो-शॉट या फ़्यू-शॉट प्रॉम्प्टिंग के माध्यम से किया गया, ताकि वास्तविक दुनिया के परिनियोजन परिदृश्यों का अनुकरण किया जा सके, क्योंकि ऐसे परिदृश्यों में बड़े पैमाने पर कार्य-विशिष्ट फाइन-ट्यूनिंग संभव नहीं हो सकती है।

4.2. प्रमुख निष्कर्ष

प्रदर्शन अंतराल

छोटे मॉडल (उदाहरण के लिए, 7 बिलियन पैरामीटर) सरल व्याकरणिक निर्णय कार्यों पर लगभग 65% सटीकता प्राप्त कर सकते हैं, लेकिन जटिल त्रुटि व्याख्या कार्यों पर यह 40% से नीचे गिर जाती है।

पैमाने का लाभ

बड़े मॉडल (उदाहरण के लिए, GPT-4) ने कई उदाहरणों और भ्रमित करने वाले कार्यों पर 15-25% की पूर्ण प्रदर्शन वृद्धि दिखाई है, जो बेहतर तर्क क्षमता और व्याकुलता प्रतिरोध का प्रदर्शन करते हैं।

प्रमुख कमजोरियाँ

सभी मॉडल कार्य 5 (भ्रमित करने वाले उदाहरण) पर खराब प्रदर्शन करते हैं, यहाँ तक कि सर्वश्रेष्ठ प्रदर्शन करने वाले मॉडल ने भी 30% से अधिक के प्रदर्शन में गिरावट दिखाई, जो सूक्ष्म व्याकरणिक भेदभाव में उनकी नाजुकता को उजागर करता है।

4.3. परिणाम विश्लेषण

परिणाम एक स्पष्ट कठिनाई पदानुक्रम को प्रकट करते हैं। हालांकि अधिकांश मॉडल सतही शुद्धता (कार्य 1) को संभाल सकते हैं, लेकिन शिक्षण सिद्धांतों के अनुरूप स्पष्टीकरण प्रदान करने (कार्य 4) और भाषाई हस्तक्षेप के तहत सटीकता बनाए रखने (कार्य 5) की उनकी क्षमता गंभीर रूप से सीमित है। यह इंगित करता है कि वर्तमान बड़े भाषा मॉडल में घोषणात्मक व्याकरण ज्ञान तो है, लेकिन प्रभावी शिक्षण के लिए आवश्यक प्रक्रियात्मक ज्ञान और सशर्त ज्ञान का अभाव है।

चार्ट विवरण (कल्पना): एक मल्टी-लाइन चार्ट y-अक्ष पर मॉडल प्रदर्शन (सटीकता/F1 स्कोर) और x-अक्ष पर पाँच कार्यों को प्रदर्शित करेगा। विभिन्न मॉडलों (GPT-4, GPT-3.5, LLaMA 2) की रेखाएँ कार्य 1 से कार्य 5 तक तीव्र गिरावट दिखाएँगी, जिसमें छोटे मॉडलों के गिरावट ढलान अधिक तीव्र होंगे। एक अन्य बार चार्ट प्रत्येक मॉडल के कार्य 5 में कार्य 1 की तुलना में प्रदर्शन गिरावट को दर्शाएगा, जो "इंटरफेरेंस वल्नरेबिलिटी गैप" को उजागर करेगा।

5. चर्चा एवं निहितार्थ

यह अध्ययन निष्कर्ष निकालता है कि इस तरह के लक्षित मूल्यांकन के बिना बड़े भाषा मॉडल को शिक्षण उपकरण के रूप में तैनात करना समय से पहले है। महत्वपूर्ण प्रदर्शन अंतर, विशेष रूप से जटिल, शिक्षण-संबंधित कार्यों में, शिक्षण के साथ बेहतर संरेखण की आवश्यकता को रेखांकित करते हैं। निष्कर्ष निम्नलिखित की मांग करते हैं: 1) अधिक कठोर, शिक्षाशास्त्र-प्रथम बेंचमार्क का विकास; 2) शैक्षिक तर्क पर केंद्रित विशेष प्रशिक्षण डेटा का निर्माण; 3) ऐसी मॉडल फाइन-ट्यूनिंग या प्रॉम्प्ट रणनीतियों का कार्यान्वयन जो शिक्षण आउटपुट को बढ़ा सकें।

6. तकनीकी विश्लेषण एवं ढांचा

Core Insights

CPG-EVAL केवल एक और सटीकता रैंकिंग नहीं है; यह 'AI+शिक्षा' की लहर की एक वास्तविकता जांच है। यह बेंचमार्क एक मूलभूत असंतुलन को उजागर करता है: बड़े भाषा मॉडल इंटरनेट-स्केल कॉर्पोरा में अगले टोकन की भविष्यवाणी के लिए अनुकूलित हैं, न कि शिक्षाशास्त्र के लिए आवश्यक संरचित, त्रुटि-संवेदनशील और स्पष्टीकरण-संचालित तर्क के लिए। यह केवल धूप वाली हाईवे पर स्वायत्त वाहनों का मूल्यांकन करने जैसा है – CPG-EVAL भाषा शिक्षण में कोहरा, बारिश और जटिल चौराहे लाता है।

तार्किक संरचना

इस पेपर का तर्क कठोर और आलोचनात्मक है। यह एक अकाट्य आधार (अप्रमाणित AI "शिक्षक") से शुरू होता है, एक विशिष्ट क्षमता अंतर (शिक्षण व्याकरण) की पहचान करता है, और मॉडल की कमजोरियों पर क्रमिक हमला करने के लिए एक बेंचमार्क का निर्माण करता है। सरल निर्णय से लेकर व्यवधान के तहत मजबूत व्याख्या करने के कार्यों तक की प्रगति, नैदानिक मूल्यांकन का एक आदर्श उदाहरण है। यह "क्या मॉडल उत्तर दे सकता है?" के प्रश्न से आगे बढ़कर "क्या मॉडल पढ़ा सकता है?" की ओर मुड़ता है।

शक्तियाँ और सीमाएँ

शक्तियाँ: इसकी ताकत क्षेत्र-विशिष्टता है। सामान्य बेंचमार्क के विपरीत, CPG-EVAL के कार्य सीधे वास्तविक कक्षा चुनौतियों से लिए गए हैं। "भ्रमित करने वाले उदाहरणों के प्रति प्रतिरोध" को शामिल करना विशेष रूप से चतुराई भरा है, जो मॉडल की मेटा-भाषाई जागरूकता - एक मूल शिक्षक कौशल - का परीक्षण करता है। शिक्षण सिद्धांतों के साथ संरेखण की मांग, केवल डेटा पैमाने की नहीं, वर्तमान AI प्रवृत्तियों के लिए एक आवश्यक सुधार है।

कमियाँ: यह बेंचमार्क वर्तमान में एकल-भाषी (चीनी) है, जो इसकी सार्वभौमिकता को सीमित करता है। मूल्यांकन बहुआयामी है, लेकिन व्याख्यात्मक कार्यों के लिए अभी भी आंशिक रूप से स्वचालित मेट्रिक्स (BLEU/ROUGE) पर निर्भर करता है, जो शिक्षण गुणवत्ता के लिए अपर्याप्त प्रॉक्सी हैं। विशेषज्ञ मानव मूल्यांकन, जैसेHugging Face BigScience टीमसमग्र मूल्यांकन प्रयासों में किया गया है, उसी तरह से, उनके दावों को मजबूत करेगा।

क्रियान्वयन योग्य अंतर्दृष्टि

के लिएएडटेक कंपनियाँ: बड़े भाषा मॉडल्स को तैयार-से-उपयोग ट्यूटर्स के रूप में बाज़ार में पेश करना बंद करें। आंतरिक सत्यापन के लिए CPG-EVAL जैसे ढांचों का उपयोग करें। केवल अधिक सामान्य पाठ के बजाय, फ़ाइन-ट्यूनिंग के लिए उच्च-गुणवत्ता, शैक्षणिक रूप से एनोटेट डेटासेट में निवेश करें।

के लिएशोधकर्ता: यह कार्य लंबवत और क्षैतिज रूप से विस्तारित किया जाना चाहिए। लंबवत रूप से, अधिक इंटरैक्टिव, संवाद-आधारित शिक्षण परिदृश्यों को शामिल किया जाए। क्षैतिज रूप से, अन्य भाषाओं (उदाहरण के लिए, अंग्रेजी, स्पेनिश) के लिए समतुल्य बेंचमार्क बनाए जाएं। इस क्षेत्र को एक "PedagogyGLUE" सूट की आवश्यकता है।

के लिएशिक्षक और नीति निर्माता: पारदर्शिता की मांग करें। किसी भी AI टूल को अपनाने से पहले, उसका "CPG-EVAL स्कोर" या समतुल्य मेट्रिक पूछें। इस तरह के बेंचमार्क के आधार पर प्रमाणन मानक स्थापित करें। अन्य AI क्षेत्रों में पूर्व उदाहरण मौजूद हैं;NIST Artificial Intelligence Risk Management Frameworkविशिष्ट संदर्भों के मूल्यांकन पर जोर देना, जो शिक्षा क्षेत्र में सख्त जरूरत है।

Technical Details and Analytical Framework

इस बेंचमार्क का डिज़ाइन शिक्षण क्षमता को अंतर्निहित रूप से कई क्षमताओं के एक फ़ंक्शन के रूप में मॉडल करता है। हम मॉडल के शिक्षण कार्य $T$ पर अपेक्षित प्रदर्शन $P$ को इस प्रकार औपचारिक रूप दे सकते हैं:

$P(T) = f(K_d, K_p, K_c, R)$

जहाँ:
$K_d$ = घोषणात्मक ज्ञान (व्याकरण नियम),
$K_p$ = प्रक्रियात्मक ज्ञान (नियमों को कैसे लागू करें),
$K_c$ = सशर्त ज्ञान (नियमों को कब/क्यों लागू करें),
$R$ = व्यवधानों और सीमांत मामलों के प्रति सुदृढ़ता।

CPG-EVAL के कार्य इन चरों पर मैप होते हैं: कार्य 1-3 $K_d$ की जांच करते हैं, कार्य 4 $K_p$ और $K_c$ की जांच करता है, और कार्य 5 सीधे $R$ का परीक्षण करता है। परिणाम बताते हैं कि हालांकि स्केलिंग $K_d$ और कुछ हद तक $R$ में सुधार करती है, $K_p$ और $K_c$ अभी भी प्रमुख बाधाएं बने हुए हैं।

विश्लेषणात्मक ढांचा उदाहरण केस

परिदृश्य: एक बड़े भाषा मॉडल द्वारा "*कल मैं स्कूल गया।" वाक्य में त्रुटि की व्याख्या का मूल्यांकन करें।

CPG-EVAL फ्रेमवर्क विश्लेषण:
1. कार्य 1 (निर्णय): मॉडल ने वाक्य को व्याकरणिक रूप से गलत के रूप में सही ढंग से चिह्नित किया। [परीक्षण $K_d$]
2. कार्य 2 (पहचान): 模型识别出“去”是错误。[测试$K_d$]
3. कार्य 3 (वर्गीकरण): अनुवाद: मॉडल ने "टेंस असंगति" के रूप में गलत वर्गीकृत किया।[टेस्ट $K_d$]
4. कार्य 4 (स्पष्टीकरण): मॉडल आउटपुट: "पिछली क्रिया के लिए, भूतकाल 'went' का प्रयोग किया जाना चाहिए। क्रिया-विशेषण 'yesterday' पिछले समय का संकेत देता है।" [$K_p$, $K_c$ का परीक्षण — नियमों को प्रासंगिक संकेतों से जोड़ना]।
5. टास्क 5 (कन्फ्यूजन): जब "कल मैं गया..." और "हर दिन मैं जाता हूं..." प्रस्तुत किए जाते हैं, तो मॉडल को दोनों की सही व्याख्या करनी चाहिए, न कि अत्यधिक सामान्यीकरण करना। [टेस्ट $R$]।

एक मॉडल 1-3 पास कर सकता है, लेकिन टास्क 4 पर फेल हो सकता है क्योंकि यह "yesterday" से जुड़ाव के बिना एक अस्पष्ट नियम ("पास्ट टेंस का उपयोग करें") देता है, और टास्क 5 पर फेल हो सकता है क्योंकि यह पास्ट टेंस नियम को दूसरे उदाहरण में आदतन क्रिया पर कठोरता से लागू करता है।

7. भविष्य के अनुप्रयोग एवं दिशाएं

CPG-EVAL ढांचा कई महत्वपूर्ण प्रगतियों का मार्ग प्रशस्त करता है:

विशिष्ट मॉडल प्रशिक्षण: यह बेंचमार्क एक प्रशिक्षण लक्ष्य के रूप में उपयोग किया जा सकता है, ताकि "शिक्षक बड़े भाषा मॉडल" को बेहतर शिक्षण व्याकरण कौशल के साथ फाइन-ट्यून किया जा सके, सामान्य चैट अनुकूलन से आगे बढ़कर।
गतिशील मूल्यांकन उपकरण: अनुकूली शिक्षण प्लेटफॉर्म में CPG-EVAL शैली के मूल्यांकन को एकीकृत करना, ताकि ट्यूशन में मॉडल की ताकत और कमजोरियों का गतिशील, वास्तविक समय में निदान किया जा सके और तदनुसार छात्र प्रश्नों को रूट किया जा सके।
क्रॉस-लैंग्वेज बेंचमार्क: अन्य व्यापक रूप से पढ़ाई जाने वाली भाषाओं (जैसे, अंग्रेजी, स्पेनिश, अरबी) के लिए समान बेंचमार्क विकसित करना, ताकि बड़े भाषा मॉडल की वैश्विक शिक्षण तत्परता की व्यापक तस्वीर प्राप्त की जा सके।
शैक्षिक सिद्धांतों के साथ एकीकरण: भविष्य के पुनरावृत्तियों में द्वितीय भाषा अधिगम के अधिक सूक्ष्म पहलुओं को शामिल किया जा सकता है, जैसे अधिगम क्रम, सामान्य शिक्षार्थी प्रक्षेपवक्र और विभिन्न सुधारात्मक प्रतिपुष्टि रणनीतियों की प्रभावशीलता, जैसा कि Ellis (2008) जैसे मौलिक कार्यों में चर्चा की गई है।
प्रमाणित AI शिक्षक की ओर: CPG-EVAL भविष्य के संभावित AI शैक्षिक उपकरण प्रमाणन कार्यक्रमों के लिए एक आधारभूत मीट्रिक प्रदान करता है, जो कक्षा में तैनाती से पहले मूल शैक्षणिक क्षमता सुनिश्चित करता है।

8. संदर्भ सूची

Wang, D. (2025). CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models. arXiv preprint arXiv:2504.13261.
Brown, T., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
Ellis, R. (2008). The Study of Second Language Acquisition (द्वितीय संस्करण)। ऑक्सफोर्ड यूनिवर्सिटी प्रेस।
लियांग, पी., एट अल। (2023)। भाषा मॉडलों का समग्र मूल्यांकन। Transactions on Machine Learning Research.
OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
NIST. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). National Institute of Standards and Technology.
Hugging Face. (2023). Evaluating Large Language Models. Hugging Face Blog. Retrieved from https://huggingface.co/blog/evaluation-llms
Bin-Hady, W. R. A., et al. (2023). Exploring the role of ChatGPT in language learning and teaching. Journal of Computer Assisted Learning.