CPG-EVAL: Kigezo cha Kutathmini Uwezo wa Sarufi ya Kufundishia ya Kichina kwa Mfano Mkubwa wa Lugha

1. Utangulizi

Karatasi huanza kwa mlinganisho wa kusisimua: kutumia Mifano Mikubwa ya Lugha (LLMs) kama vile ChatGPT katika majukumu ya kielimu bila tathmini sahihi ni sawa na kuruhusu walimu wasioidhinishwa kuwafundisha wanafunzi. Hii inaangazia pengo kubwa. Ingawa LLMs zinaonyesha matumaini katika elimu ya lugha ya kigeni (k.m., utengenezaji wa maudhui, kusahihisha makosa), uwezo wao wa kimsingi wa sarufi ya kufundishia—uwezo wa kuelewa na kuelezea kanuni za sarufi kwa namna inayoweza kufundishwa na inayozingatia muktadha—bado haujapimwa kikamilifu. Waandishi wanasema kuwa viwango vya sasa vya NLP havitoshi kwa kazi hii maalum ya taaluma. Kwa hivyo, wanaanzisha CPG-EVAL (Tathmini ya Sarufi ya Kufundishia ya Kichina), kigezo cha kwanza maalum, cha ngazi nyingi kilichoundwa kwa kimfumo kutathmini ujuzi wa LLMs kuhusu sarufi ya kufundishia katika muktadha wa Kufundisha Kichina kama Lugha ya Kigeni (TCFL).

2. Kazi Zinazohusiana

Karatasi hii huweka CPG-EVAL ndani ya mitiririko miwili ya utafiti. Kwanza, inapitia matumizi yanayozidi kuongezeka ya LLMs katika elimu ya lugha, ikijumuisha maeneo kama vile tathmini ya kiotomatiki ya uandishi, mazoezi ya mazungumzo, na ukuzaji wa rasilimali (k.m., Bin-Hady et al., 2023; Kohnke et al., 2023). Pili, inajadili mageuzi ya viwango vya AI, kutoka kwa kazi za jumla (k.m., GLUE, SuperGLUE) hadi tathmini maalum zaidi. Waandishi wanaona ukosefu wa viwango vinavyotegemea nadharia ya kufundishia na utalamu wa kufundisha lugha, ambayo CPG-EVAL inalenga kushughulikia kwa kuunganisha isimu ya kompyuta na isimu ya matumizi kwa TCFL.

3. Kigezo cha CPG-EVAL

3.1. Msingi wa Kinadharia & Kanuni za Ubunifu

CPG-EVAL imejikita kwenye mfumo wa uainishaji wa sarufi ya kufundishia uliothibitishwa kupitia mazoezi makubwa ya TCFL. Ubunifu wake unaongozwa na kanuni za usawazishaji wa mafundisho, kuhakikisha kazi zinaonyesha hali halisi za kufundishia. Kigezo hiki hakitatathmini usahihi wa kisarufi tu, bali pia uwezo wa mfano wa kufanya kazi zinazohusiana na mwalimu au msaidizi, kama vile kutambua makosa, kuelezea kanuni, na kuchagua mifano sahihi ya mafundisho.

3.2. Uainishaji wa Kazi & Mfumo wa Tathmini

Kigezo hiki kinajumuisha kazi tano muhimu, na kuunda mfumo wa tathmini wa ngazi nyingi:

Utambuzi wa Sarufi: Kutambua ikiwa sentensi fulani inatumia kipengele cha kisarufi lengwa kwa usahihi.
Utofautishaji wa Kina: Kutofautisha kati ya miundo au matumizi ya kisarufi inayofanana kwa ujanja.
Ubaguzi wa Kategoria: Kuainisha makosa ya kisarufi au sentensi katika kategoria maalum za kufundishia (k.m., matumizi mabaya ya "了", mpangilio mbaya wa maneno).
Ukinzani dhidi ya Misukosuko ya Lugha (Mfano Mmoja): Kutathmini uwezo wa mfano wa kushughulikia mfano mmoja unaochanganya au unaokosea.
Ukinzani dhidi ya Misukosuko ya Lugha (Mifano Mingi): Toleo gumu zaidi ambapo mfano lazima ufanye mantiki kwenye mifano mingi inayoweza kuchanganya.

Muundo huu umebuniwa kuchunguza kina tofauti ya uelewa wa kufundishia, kutoka utambuzi wa msingi hadi mantiki ya hali ya juu chini ya mchanganyiko.

4. Usanidi wa Majaribio & Matokeo

4.1. Mifano & Itifaki ya Tathmini

Utafiti huu unatathmini anuwai ya LLMs, ikiwa ni pamoja na mifano midogo (k.m., mifano yenye vigeuzi chini ya bilioni 10) na mifano mikubwa (k.m., GPT-4, Claude 3). Tathmini hufanywa katika mazingira ya "zero-shot" au "few-shot" ili kukadiria uwezo wa asili. Utendaji hupimwa hasa kwa usahihi kwenye kazi zilizobainishwa.

4.2. Uchunguzi Muhimu & Uchambuzi wa Utendaji

Matokeo yanaonyesha safu kubwa ya utendaji:

Mifano midogo inaweza kufanikiwa kwa maana kwenye kazi rahisi, za mfano mmoja (kama Utambuzi wa Msingi wa Sarufi) lakini utendaji wao unashuka kwa kasi kwenye kazi zinazohusisha mifano mingi au misukosuko kali ya lugha. Hii inaonyesha kwamba hawana mantiki thabiti, inayoweza kujumlishwa ya kisarufi.
Mifano mikubwa (k.m., GPT-4) inaonyesha ukinzani bora zaidi dhidi ya misukosuko na inashughulikia kazi za mifano mingi kwa ufanisi zaidi, ikionyesha mantiki na uelewa wa muktadha wenye nguvu. Hata hivyo, usahihi wao bado haujakamilika, na unaonyesha nafasi kubwa ya uboreshaji.
Utendaji wa jumla kwenye mifano yote unaonyesha kwamba LLMs za sasa, bila kujali ukubwa, bado hazina uwezo wa kuaminika katika sarufi ya kufundishia ya Kichina. Kigezo hiki kinafanikiwa kufichua udhaifu maalum, kama vile mchanganyiko kati ya chembe za kisarufi zinazofanana au kushindwa kutumia kanuni thabiti kwenye mifano.

Maelezo ya Chati (Yaliyodhaniwa): Chati yenye mistari mingi ingeonyesha alama za usahihi (0-100%) kwa familia 4-5 za mifano kwenye kazi 5 za CPG-EVAL. Uhusiano wazi chanya kati ya ukubwa wa mfano na utendaji ungeonekana, na pengo kati ya mifano mikubwa na midogo likiongezeka kwa kasi kwa Kazi ya 4 na hasa Kazi ya 5 (kazi za misukosuko). Mifano yote ingeonyesha alama zao za chini kabisa kwenye Kazi ya 5.

Kipimo Muhimu: Pengo la Utendaji

~40%

Tofauti ya usahihi kati ya mifano mikubwa na midogo kwenye kazi ngumu za misukosuko.

Kiwango cha Kigezo

Ngazi 5

Ubunifu wa kazi wa ngazi nyingi unaochunguza viwango tofauti vya uwezo.

Kikomo Kikuu Kilichofichuliwa

Kutolingana kwa Mafundisho

LLMs hazina ujuzi wa kufundishia, wa kuelezea sarufi kwa kuzingatia muktadha.

5. Uelewa Mkuu & Mtazamo wa Mchambuzi

Uelewa Mkuu: CPG-EVAL sio jaribio lingine la usahihi tu; ni ukaguzi wa ukweli kwa madaa ya EdTech ya AI. Inaonyesha kwa majaribio kwamba "akili" ya kisarufi ya hata LLMs za kisasa zaidi ni ya juu-juu na hailingani na mafundisho. Zinaweza kuwa wasemaji wa kawaida lakini zinasita kuwa walimu wa kimfumo.

Mtiririko wa Mantiki: Karatasi hii inatoka kwa utambuzi wa hitaji muhimu la soko (kutathmini walimu wa AI) hadi kuchambua tatizo (uwezo wa kufundishia ni nini?) na hatimaye kujenga suluhisho kamili, linaloongozwa na nadharia. Mfumo wa kazi tano ndio kipengele chake kikuu, na kuunda mwinuko wa ugumu unaotenganisha kukariri na uelewa wa kweli.

Nguvu & Kasoro: Nguvu yake kubwa ni msingi wake wa kufundishia. Tofauti na viwango vya jumla, imejengwa kwa na kwa taaluma ya TCFL. Hii inafanana na falsafa nyuma ya viwango kama vile MMLU (Uelewa wa Lugha wa Kazi Nyingi Mkubwa) ambayo inakusanya ujuzi wa kiwango cha mtaalamu katika taaluma mbalimbali, lakini CPG-EVAL inaingia kwa kina katika taaluma moja, ya matumizi. Kasoro inayowezekana ni mwelekeo wake wa sasa wa tathmini kuliko uboreshaji. Inatambua ugonjwa kwa ustadi lakini inatoa dawa ndogo. Kazi ya baadaye lazima iunganishe utendaji kwenye CPG-EVAL na mbinu maalum za "fine-tuning" au "alignment", sawa na jinsi RAG (Uzalishaji Ulioimarishwa na Upatikanaji) ilivyotengenezwa kushughulikia matatizo ya kupotoshwa yaliyotambuliwa na viwango vya awali.

Uchunguzi Unaoweza Kutekelezwa: Kwa makampuni ya EdTech, hii ni zana ya lazima ya utunzaji—kamwe usitumie kisaidizi cha Kichina kinachotegemea LLM bila kukimbia CPG-EVAL. Kwa watengenezaji wa mifano, kigezo hiki kinatoa ramani wazi ya "usawazishaji wa mafundisho," mpaka mpya zaidi ya AI ya kikatiba. Alama za chini kwenye kazi za misukosuko zinaonyesha kwamba kufunza kwenye seti za data zilizopangwa, zenye muundo wa kufundishia—sawa na mikakati ya data ya sintetiki iliyotumika katika DALL-E 3 au AlphaCode 2—ni muhimu. Kwa walimu na watunga sera, utafiti huu ni hoja yenye nguvu kwa viwango na uthibitisho katika elimu inayosaidiwa na AI. Enzi ya kuamini kwa upofu kisaidizi wa AI imekwisha.

6. Maelezo ya Kiufundi & Uundaji wa Kihisabati

Ingawa hakiki ya PDF haijaelezea fomula ngumu, mantiki ya tathmini inaweza kuwekwa rasmi. Kipimo kikuu ni usahihi kwa mfano $M$ kwenye kazi $T_i$ kutoka kigezo $B$ kinachojumuisha mifano $n$:

\[ \text{Usahihi}(M, T_i) = \frac{1}{|D_{T_i}|} \sum_{x \in D_{T_i}} \mathbb{I}(\hat{y}_x = y_x) \]

ambapo $D_{T_i}$ ni seti ya data ya kazi $i$, $\hat{y}_x$ ni utabiri wa mfano kwa mfano $x$, $y_x$ ni lebo ya dhahabu, na $\mathbb{I}$ ni kitendakazi cha kiashiria.

Uvumbuzi mkuu ni uundaji wa $D_{T_i}$, hasa kwa kazi za misukosuko. Hizi huenda zikajumuisha mifano hasi iliyodhibitiwa au misukosuko ya kiadui. Kwa mfano, katika kazi inayojaribu utofautishaji kati ya "$\text{了}$" (le) kwa kitendo kilichokamilika dhidi ya mabadiliko ya hali, mfano wa misukosuko unaweza kuwa: "他病了三天。" (Amekuwa mgonjwa kwa siku tatu.) dhidi ya "他病三天了。" (Amekuwa mgonjwa kwa siku tatu.). Tofauti hii ya ujanja inajaribu uelewa wa kina wa kisintaksia na kisemantiki.

7. Mfumo wa Uchambuzi: Mfano wa Kesi

Hali: Kutathmini uelewa wa LLM kuhusu uundaji wa "$\text{把}$" (bǎ), changamoto ya kitamaduni katika TCFL.

Matumizi ya Kazi ya CPG-EVAL:

Utambuzi (Kazi 1): Wasilisha: "我把书放在桌子上。" (Niliweka kitabu mezani.) Mfano lazima uihukumu kuwa sahihi.
Utofautishaji wa Kina (Kazi 2): Linganisha "我把书看了。" (Nilisoma kitabu.) na "书被我看了。" (Kitabu kilisomwa na mimi.). Mfano lazima ueleze mabadiliko ya mwelekeo kutoka kwa mtendaji hadi mpokeaji.
Ubaguzi wa Kategoria (Kazi 3): Kwa kosa: "我放书在桌子上。" (Niliweka kitabu mezani.)—kukosa "$\text{把}$". Mfano lazima uainishe aina ya kosa kuwa "Kukosa uundaji wa BA inapohitajika."
Misukosuko - Mmoja (Kazi 4): Toa sentensi sahihi inayochanganya ambayo haitumii "$\text{把}$" lakini inaweza: "我打开了门。" (Niliufungua mlango.) dhidi ya "我把门打开了。" Mfano lazima utambue kuwa zote ni sahihi kisarufi lakini tofauti kimaadili.
Misukosuko - Mingi (Kazi 5): Toa seti ya sentensi, zingine zikitumia "$\text{把}$" kwa usahihi, zingine kwa usahihi, na zingine zikitumia miundo mbadala. Uliza: "Sentensi zipi mbili zinaonyesha mwelekeo sawa wa kisarufi kwenye kitu?" Hii inahitaji mantiki kwenye sentensi mbalimbali.

Kesi hii inaonyesha jinsi CPG-EVAL inavyohama kutoka kwa kulinganisha muundo rahisi hadi mantiki ya hali ya juu ya kufundishia.

8. Matumizi ya Baadaye & Mwelekeo wa Utafiti

Kupanuliwa kwa Kigezo: Kupanua CPG-EVAL kwa lugha zingine (k.m., Kikorea, Kiarabu) zenye sarufi ngumu za kufundishia.
Kutoka Tathmini hadi Uboreshaji: Kutumia CPG-EVAL kama ishara ya mafunzo kwa usawazishaji wa mafundisho kupitia "fine-tuning", kuunda LLMs zilizoboreshwa maalum kwa majukumu ya kufundisha.
Ujumuishaji na Majukwaa ya Kielimu: Kuunganisha moduli za tathmini zinazofanana na CPG-EVAL ndani ya majukwaa ya EdTech kwa ufuatiliaji endelevu wa ubora wa kisaidizi wa AI.
Tathmini ya Njia Nyingi: Viwango vya baadaye vinaweza kutathmini uwezo wa AI wa kuelezea sarufi kwa kutumia michoro, ishara, au kubadilisha lugha, kukwenda zaidi ya maandishi tu.
Tathmini ya Muda Mrefu & Inayojikokotoa: Kukuza viwango vinavyofuatilia uwezo wa mfano wa kurekebisha maelezo yake kulingana na kiwango kinachokua cha uwezo wa mwanafunzi anayedhaniwa, hatua kuelekea usaidizi wa kweli wa AI unaolenga mtu binafsi.

9. Marejeo

Wang, D. (2025). CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models. arXiv preprint arXiv:2504.13261.
Bin-Hady, W. R. A., Al-Kadi, A., Hazaea, A., & Ali, J. K. M. (2023). Exploring the dimensions of ChatGPT in English language learning: A global perspective. Library Hi Tech.
Kohnke, L., Moorhouse, B. L., & Zou, D. (2023). ChatGPT for language teaching and learning. RELC Journal.
Srivastava, A., et al. (2022). Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615.
Liang, P., et al. (2023). Holistic Evaluation of Language Models. Transactions on Machine Learning Research.
Hendrycks, D., et al. (2021). Measuring Massive Multitask Language Understanding. Proceedings of ICLR.
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems.