CPG-EVAL: Kigezo cha Kutathmini Uwezo wa Sarufi ya Kufundishia ya Kichina kwa Mfano Mkubwa wa Lugha

1. Utangulizi

Ujumuishaji wa haraka wa Mfano Mkubwa wa Lugha (LLMs) kama vile ChatGPT katika elimu ya lugha ya kigeni umeleta hitaji la dharura la mifumo maalum ya tathmini. Ingawa mifano hii inaonyesha matumaini katika kusaidia ujifunzaji wa kujitegemea na uzalishaji wa maudhui, uwezo wake wa msingi wa sarufi ya kufundishia—muhimu kwa mafundisho bora ya lugha—bado haujathminiwa kikamilifu. Karatasi hii inashughulikia pengo hili muhimu kwa kuanzisha CPG-EVAL, kigezo cha kwanza maalum kilichoundwa ili kutathmini kwa kimfumo ujuzi wa LLMs kuhusu sarufi ya kufundishia katika muktadha wa Kufundisha Kichina kama Lugha ya Kigeni (TCFL).

Karatasi hii inadai kuwa kama walimu wanahitaji cheti, mifumo ya AI inayotumika katika majukumu ya kielimu lazima ipitie tathmini madhubuti, maalum ya taaluma. CPG-EVAL hutoa mfumo unaoongozwa na nadharia, wenye viwango mbalimbali ili kutathmini utambuzi wa sarufi, utofautishaji wa kina, ubaguzi wa kategoria, na ukinzani dhidi ya usumbufu wa lugha.

2. Kazi Zinazohusiana

Vigezo vilivyopo katika NLP, kama vile GLUE, SuperGLUE, na MMLU, kimsingi hutathmini uelewa wa jumla wa lugha na mantiki. Hata hivyo, vinakosa mwelekeo wa kufundisha unaohitajika kwa kutathmini ufaafu wa mafundisho. Utafiti kuhusu LLMs katika elimu umechunguza matumizi kama vile kusahihisha makosa na mazoezi ya mazungumzo, lakini tathmini ya kimfumu, inayolenga sarufi na kujengwa juu ya utaalamu wa kufundisha lugha imekuwa ikikosekana. CPG-EVAL hujaza pengo hili kwa kusawazisha ubunifu wa kigezo na mifumo thabiti ya uainishaji wa sarufi ya kufundishia kutoka TCFL.

3. Kigezo cha CPG-EVAL

CPG-EVAL imejengwa kama kigezo cha kina, chenye kazi nyingi ili kuchunguza vipimo tofauti vya uwezo wa sarufi ya kufundishia.

3.1. Msingi wa Kinadharia

Kigezo hiki kimejengwa juu ya mfumo wa uainishaji wa sarufi ya kufundishia uliothibitishwa kupitia mazoezi makubwa ya mafundisho ya TCFL. Kinaenda zaidi ya usahihi wa kisintaksia ili kutathmini ujuzi unaoweza kutumika katika hali halisi za kufundisha, ukilenga dhana kama vile hukumu za kisarufi, ufafanuzi wa makosa, na uundaji wa kanuni.

3.2. Ubunifu na Muundo wa Kazi

CPG-EVAL inajumuisha kazi tano muhimu zilizoundwa kuunda ngazi ya tathmini inayoendelea:

Kazi 1: Hukumu ya Kisarufi – Uainishaji wa uwili wa usahihi wa sentensi.
Kazi 2: Utambuzi wa Kina wa Makosa – Kutambua kwa usahihi sehemu iliyokosekana.
Kazi 3: Uainishaji wa Makosa – Kuainisha aina ya kosa (mfano, wakati, hali, mpangilio wa maneno).
Kazi 4: Uzalishaji wa Ufafanuzi wa Kufundishia – Kutoa ufafanuzi unaoeleweka kwa mwanafunzi kuhusu kosa.
Kazi 5: Ukinzani dhidi ya Mfano Unaochanganya – Kutathmini utendaji wakati unapowasilishwa na mifano mingi, inayoweza kuchanganya.

3.3. Vipimo vya Tathmini

Utendaji hupimwa kwa kutumia vipimo vya kawaida vya uainishaji (Usahihi, Alama-F1) kwa Kazi 1-3. Kwa kazi za kuzalisha (Kazi 4), vipimo kama vile BLEU, ROUGE, na tathmini ya kibinadamu juu ya uwazi, usahihi, na ufaafu wa kufundishia hutumiwa. Kazi 5 hutathmini upungufu wa utendaji ikilinganishwa na mfano pekee.

4. Usanidi wa Majaribio na Matokeo

4.1. Mfano Ulioathminiwa

Utafiti huu unatathmini anuwai ya LLMs, ikiwa ni pamoja na GPT-3.5, GPT-4, Claude 2, na mifano kadhaa ya wazi (mfano, LLaMA 2, ChatGLM). Mifano hii inaulizwa kwa njia ya "zero-shot" au "few-shot" ili kuiga utumizi wa ulimwenguni halisi ambapo urekebishaji maalum wa kazi hauwezekani kikamilifu.

4.2. Matokeo Muhimu

Tofauti ya Utendaji

Mifano midogo (mfano, parameta 7B) hufikia usahihi wa ~65% kwenye hukumu rahisi za kisarufi lakini hushuka chini ya 40% kwenye kazi ngumu za kufafanua makosa.

Faida ya Ukubwa

Mifano mikubwa (mfano, GPT-4) inaonyesha uboreshaji kamili wa 15-25% kwenye kazi za mfano nyingi na zinazochanganya, ikionyesha mantiki bora na ukinzani dhidi ya usumbufu.

Udhaifu Muhimu

Mifano yote inapambana sana na Kazi 5 (mifano inayochanganya), hata wanaoongoza wakiwa na upungufu wa utendaji wa >30%, ikionyesha udhaifu katika ubaguzi wa kina wa kisarufi.

4.3. Uchambuzi wa Matokeo

Matokeo yanaonyesha ngazi wazi ya ugumu. Ingawa mifano mingi inaweza kushughulikia usahihi wa uso (Kazi 1), uwezo wao wa kutoa maelezo yenye msingi wa kufundishia (Kazi 4) na kudumisha usahihi chini ya usumbufu wa lugha (Kazi 5) ni mdogo sana. Hii inaonyesha kuwa LLMs za sasa zina ujuzi wa sarufi unaoelezwa lakini hazina ujuzi wa taratibu na masharti unaohitajika kwa kufundisha kwa ufanisi.

Maelezo ya Chati (Yaliyodhaniwa): Chati yenye mistari mingi ingeonyesha utendaji wa mfano (Usahihi/F1) kwenye mhimili wa y kwenye kazi tano kwenye mhimili wa x. Mistari kwa mifano tofauti (GPT-4, GPT-3.5, LLaMA 2) ingeonyesha kushuka kwa kasi kutoka Kazi 1 hadi Kazi 5, na mteremko ukiwa mkali zaidi kwa mifano midogo. Chati tofauti ya baa ingeonyesha upungufu wa utendaji katika Kazi 5 ikilinganishwa na Kazi 1 kwa kila mfano, ikionyesha "pengo la udhaifu wa usumbufu."

5. Majadiliano na Maana

Utafiti unahitimisha kuwa kutumia LLMs kama zana za kufundishia bila tathmini maalum kama hii ni mapema. Pengo kubwa la utendaji, hasa katika kazi ngumu zinazohusiana na kufundisha, inasisitiza hitaji la usawazishaji bora wa mafundisho. Matokeo yanatoa wito kwa: 1) Kuunda vigezo vikali zaidi, vinavyolenga kufundisha kwanza; 2) Kuunda data maalum ya mafunzo inayolenga mantiki ya kielimu; 3) Kutekeleza mikakati ya urekebishaji wa mfano au kusisitiza inayoboresha matokeo ya kufundishia.

6. Uchambuzi wa Kiufundi na Mfumo

Uelewa Muhimu

CPG-EVAL sio orodha nyingine ya usahihi; ni ukaguzi wa ukweli kwa hypu ya AI-katika-elimu. Kigezo hiki kinafunua kutolingana kwa msingi: LLMs zimeboreshwa kwa utabiri wa token inayofuata kwenye mkusanyiko wa mtandao, sio kwa mantiki iliyoundwa, nyeti kwa makosa, na inayoongozwa na maelezo inayohitajika katika kufundishia. Hii ni sawa na kutathmini gari linalojiendesha pekee kwenye maili za barabara kuu zenye jua—CPG-EVAL inaletwa kunguru, mvua, na makutano magumu ya kufundisha lugha.

Mtiririko wa Mantiki

Mantiki ya karatasi hii ni sahihi na yenye kulaumiwa. Inaanza kutoka dhana isiyokanushwa (walimu wa AI "wasio na cheti"), inatambua pengo maalum la uwezo (sarufi ya kufundishia), na kujenga kigezo kinachoshambulia udhaifu wa mfano hatua kwa hatua. Maendeleo ya kazi kutoka hukumu rahisi hadi ufafanuzi thabiti chini ya usumbufu ni darasa kuu la tathmini ya utambuzi. Inaenda zaidi ya "je, mfano unaweza kujibu?" hadi "je, mfano unaweza kufundisha?"

Nguvu na Kasoro

Nguvu: Mwelekeo maalum wa taaluma ndio kipengele chake kikuu. Tofauti na vigezo vya jumla, kazi za CPG-EVAL zimetolewa kutoka kwa changamoto halisi za darasani. Ujumuishaji wa "ukinzani dhidi ya mfano unaochanganya" ni bora sana, ukijaribu ufahamu wa metalinguistic wa mfano—ujuzi muhimu wa mwalimu. Wito wa usawazishaji na nadharia ya kufundisha, sio ukubwa wa data pekee, ni marekebisho muhimu kwa mienendo ya sasa ya ukuzaji wa AI.

Kasoro: Kigezo hiki kwa sasa ni cha lugha moja (Kichina), na hivyo kinapunguza uwezekano wa kujumlisha. Tathmini, ingawa ina pande nyingi, bado inategemea kwa kiasi kipimo vipimo vya kiotomatiki (BLEU/ROUGE) kwa kazi za kufafanua, ambavyo ni dhamana duni ya ubora wa kufundishia. Kutegemea zaidi tathmini ya kibinadamu ya wataalam, kama inavyoonekana katika kazi ya Timu ya BigScience ya Hugging Face kwenye tathmini ya jumla, ningekuwa imeimarisha madai yake.

Uelewa Unaoweza Kutekelezwa

Kwa Makampuni ya EdTech: Acha kukuza LLMs kama walimu tayari. Tumia mifumo kama CPG-EVAL kwa uthibitishaji wa ndani. Wekeza katika urekebishaji wa data ya ubora wa juu, iliyotiwa alama ya kufundishia, sio maandishi ya jumla zaidi.

Kwa Watafiti: Kazi hii inapaswa kupanuliwa wima na mlalo. Wima, kwa kujumuisha hali za kufundisha zinazoshirikisha zaidi, zenye mazungumzo. Mlalo, kwa kuunda sawa kwa lugha zingine (mfano, Kiingereza, Kihispania). Taaluma inahitaji "PedagogyGLUE" suite.

Kwa Walimu na Watunga Sera: Omba uwazi. Kabla ya kupitisha zana yoyote ya AI, uliza "alama ya CPG-EVAL" yake au sawa. Anzisha viwango vya uthibitishaji kulingana na vigezo kama hivi. Kielelezo kipo katika taaluma zingine za AI; Mfumo wa Usimamizi wa Hatari wa AI wa NIST unasisitiza tathmini maalum ya muktadha, ambayo elimu inakosa sana.

Maelezo ya Kiufundi na Mfumo wa Uchambuzi

Ubunifu wa kigezo hiki kwa njia isiyo wazi unamfano uwezo wa kufundishia kama kazi ya uwezo mbalimbali. Tunaweza kuunda rasmi utendaji unaotarajiwa $P$ kwenye kazi ya kufundisha $T$ kama:

$P(T) = f(K_d, K_p, K_c, R)$

Ambapo:
$K_d$ = Ujuzi Unaoelezwa (kanuni za sarufi),
$K_p$ = Ujuzi wa Taratibu (jinsi ya kutumia kanuni),
$K_c$ = Ujuzi wa Masharti (lini/kwa nini kutumia kanuni),
$R$ = Uthabiti dhidi ya usumbufu na hali ngumu.

Kazi za CPG-EVAL zinalingana na vigezo hivi: Kazi 1-3 huchunguza $K_d$, Kazi 4 huchunguza $K_p$ na $K_c$, na Kazi 5 inajaribu moja kwa moja $R$. Matokeo yanaonyesha kuwa wakati kuongeza ukubwa kunaboresha $K_d$ na kwa kiasi fulani $R$, $K_p$ na $K_c$ bado ni vikwazo vikubwa.

Mfano wa Mfumo wa Uchambuzi

Hali: Kutathmini ufafanuzi wa LLM kuhusu kosa katika "*Jana ninaenda shule."

Uchambuzi wa Mfumo wa CPG-EVAL:
1. Kazi 1 (Hukumu): Mfano unatiwa lebo kwa usahihi sentensi kama isiyo ya kisarufi. [Inajaribu $K_d$]
2. Kazi 2 (Utambuzi): Mfano unatambua "ninaenda" kama kosa. [Inajaribu $K_d$]
3. Kazi 3 (Uainishaji): Mfano unaainisha kosa kama "Kutolingana kwa Wakati." [Inajaribu $K_d$]
4. Kazi 4 (Ufafanuzi): Mfano unazalisha: "Kwa vitendo vya zamani, tumia wakati uliopita 'nilienda'. Kielezi 'jana' kinaonyesha wakati uliopita." [Inajaribu $K_p$, $K_c$—kuunganisha kanuni na kidokezo cha muktadha].
5. Kazi 5 (Kuchanganya): Ikionyeshwa "Jana ninaenda..." na "Kila siku nilienda...", mfano lazima ufafanue vyema zote mbili, usitumie kanuni kwa ujumla. [Inajaribu $R$].

Mfano unaweza kupita 1-3 lakini kushindwa 4 kwa kutoa kanuni isiyoeleweka ("tumia wakati uliopita") bila uhusiano na "jana," na kushindwa 5 kwa kutumia kanuni ya wakati uliopita kwa ukali kwa kitendo cha kawaida katika mfano wa pili.

7. Matumizi ya Baadaye na Mwelekeo

Mfumo wa CPG-EVAL unatengeneza njia ya maendeleo kadhaa muhimu:

Mafunzo Maalum ya Mfano: Kigezo hiki kinaweza kutumika kama lengo la mafunzo ili kurekebisha "LLMs za Mwalimu" zenye ujuzi wa juu wa sarufi ya kufundishia, kuendelea zaidi ya uboreshaji wa mazungumzo ya jumla.
Zana za Tathmini Dinamiki: Kujumuisha tathmini ya aina ya CPG-EVAL katika majukwaa ya kujifunza yanayobadilika ili kutambua kwa wakati halisi nguvu na udhaifu wa mfano wa kufundisha, na kuelekeza maswali ya mwanafunzi ipasavyo.
Vigezo vya Kuvuka Lugha: Kuunda vigezo sawa kwa lugha zingine zinazofundishwa sana (mfano, Kiingereza, Kihispania, Kiarabu) ili kuunda ramani kamili ya uandaa wa kufundishia wa LLMs ulimwenguni.
Ujumuishaji na Nadharia ya Kuelimisha: Matoleo ya baadaye yanaweza kujumuisha vipengele vya kina zaidi vya upatikanaji wa lugha ya pili, kama vile mpangilio wa upatikanaji, njia za kawaida za mwanafunzi, na ufanisi wa mikakati tofauti ya maoni ya kusahihisha, kama ilivyojadiliwa katika kazi muhimu kama Ellis (2008).
Kuelekea Walimu wa AI Walioidhibitishwa: CPG-EVAL hutoa kipimo cha msingi kwa programu za baadaye za uthibitishaji kwa zana za kielimu za AI, kuhakikisha kiwango cha chini cha uwezo wa kufundishia kabla ya kutumiwa darasani.

8. Marejeo

Wang, D. (2025). CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models. arXiv preprint arXiv:2504.13261.
Brown, T., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
Ellis, R. (2008). The Study of Second Language Acquisition (2nd ed.). Oxford University Press.
Liang, P., et al. (2023). Holistic Evaluation of Language Models. Transactions on Machine Learning Research.
OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
NIST. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). National Institute of Standards and Technology.
Hugging Face. (2023). Evaluating Large Language Models. Hugging Face Blog. Retrieved from https://huggingface.co/blog/evaluation-llms
Bin-Hady, W. R. A., et al. (2023). Exploring the role of ChatGPT in language learning and teaching. Journal of Computer Assisted Learning.