1. Utangulizi na Msingi
Uundaji wa mifano ya utabiri katika elimu, hasa Ufuatiliaji wa Ujuzi (KT), unalenga kuiga hali ya ujuzi ya mwanafunzi inayobadilika ili kutabiri utendaji wa baadaye na kubinafsisha mafunzo. Mbinu za jadi zinazotegemea tafsiri ya binadamu ya data ya utendaji zinaweza kuwa na upendeleo wa kiakili (mfano, upendeleo wa chanya, mipaka ya kumbukumbu). Ufuatiliaji wa Ujuzi wa Kikokotoo, ulioanzishwa na Corbett na Anderson, unapunguza haya kwa kutumia data ya mwingiliano wa wanafunzi.
Wakati utafiti mwingi unapendelea usahihi wa mfano, karatasi hii inabadilisha mwelekeo kwa kipimo muhimu lakini kisichochunguzwa vya kutosha: haki ya algorithm. Haki inahakikisha kuwa mifano haiwadhuru kimfumo makundi kulingana na sifa nyeti (mfano, aina ya kifaa, nchi ya asili). Katika muktadha wa Ujifunzaji wa Lugha ya Pili (SLA) kupitia majukwaa kama Duolingo, upendeleo unaweza kuendeleza ukosefu wa usawa wa kielimu.
Maswali Muhimu ya Utafiti: Utafiti huu unakagua haki ya mifano ya KT kwenye: 1) Mfumo tofauti wa vifaa (iOS, Android, Wavuti), na 2) Wanaojifunza kutoka nchi zilizoendelea dhidi ya nchi zinazoendelea.
2. Mbinu na Usanidi wa Majaribio
Utafiti huu unatumia mfumo wa uchambuzi wa kulinganisha ili kutathmini utendaji wa utabiri na haki ya mifano.
2.1 Seti za Data: Mafunzo ya Duolingo
Mafunzo matatu tofauti kutoka kwa Kazi ya Pamoja ya Duolingo ya 2018 juu ya Ujifunzaji wa Lugha ya Pili yalitumika:
- en_es: Wazungumzaji wa Kiingereza wanaojifunza Kihispania.
- es_en: Wazungumzaji wa Kihispania wanaojifunza Kiingereza.
- fr_en: Wazungumzaji wa Kifaransa wanaojifunza Kiingereza.
2.2 Mifano ya Utabiri Iliyokaguliwa
Utafiti huu unalinganisha aina mbili kuu za mifano:
- Mifano ya Kujifunza kwa Mashine (ML): Inaweza kujumuisha mifano ya jadi kama Uregeshaji wa Kimantiki, Misitu ya Nasibu, au Ufuatiliaji wa Ujuzi wa Bayes (BKT).
- Mifano ya Kujifunza kwa kina (DL): Inaweza kujumuisha mifano ya mlolongo kama mitandao ya Kumbukumbu Fupi ya Muda Mrefu (LSTM) au Ufuatiliaji wa Ujuzi wa Kina (DKT), ambayo ina uwezo wa kukamata utegemezi wa wakati katika mifuatano ya kujifunza.
2.3 Vipimo vya Haki na Mfumo wa Tathmini
Haki ilitathminiwa kwa kutumia vipimo vya haki vya kikundi. Kwa utabiri wa jozi (mfano, je, mwanafunzi atajibu kipengele kifuatacho kwa usahihi?), vipimo vya kawaida vinajumuisha:
- Usawa wa Kidemografia: Viwango sawa vya utabiri kwenye makundi.
- Fursa Sawa: Viwango sawa vya chanya vya kweli kwenye makundi.
- Usawa wa Utabiri: Usahihi sawa kwenye makundi.
3. Matokeo ya Majaribio na Uvumbuzi
Uchambuzi ulitoa uvumbuzi muhimu minne, ukionyesha kubadilishana kati ya usahihi na haki.
Uvumbuzi Muhimu Kwa Mtazamo Mmoja
- Ukuu wa DL: Mifano ya DL kwa ujumla ilifanya vizuri zaidi kuliko ML katika usahihi na haki.
- Upendeleo wa Simu ya Mkononi: ML na DL zote zilionyesha upendeleo kuwapendelea watumiaji wa simu ya mkononi (iOS/Android) kuliko watumiaji wa wavuti.
- Upendeleo wa Maendeleo: Mifano ya ML ilionyesha upendeleo mkubwa dhidi ya wanaojifunza kutoka nchi zinazoendelea kuliko mifano ya DL.
- Uchaguzi Unaotegemea Muktadha: Uchaguzi bora wa mfano (DL dhidi ya ML) unategemea mafunzo maalum.
3.1 Ufanisi: Ulinganisho wa Usahihi
Mifano ya Kujifunza kwa kina ilionyesha faida dhahiri katika usahihi wa utabiri kwenye mafunzo yaliyokaguliwa. Hii inalingana na uwezo uliothibitishwa wa mifano ya mlolongo ya neva kama DKT kuiga njia tata, zisizo za mstari za kujifunza kwa ufanisi zaidi kuliko mifano rahisi ya ML, kama ilivyoelezwa katika karatasi ya msingi ya DKT na Piech et al.
3.2 Haki Kwenye Mfumo Mbalimbali wa Vifaa
Upendeleo thabiti na unaoonekana ulionekana ukipendelea watumiaji wa programu ya simu ya mkononi (iOS, Android) kuliko watumiaji wa kivinjari cha wavuti. Hii inaweza kutokana na:
- Tofauti za ubora wa data (mfano, muundo wa mwingiliano, urefu wa kikao).
- Uhusiano usiotarajiwa kati ya uchaguzi wa jukwaa na ushiriki wa mjifunzaji au sababu za kijamii na kiuchumi zilizomo kwenye data ya mafunzo.
3.3 Haki Kwenye Viwango Mbalimbali vya Maendeleo ya Nchi
Algorithm za Kujifunza kwa Mashine zilionyesha upendeleo wa wazi zaidi dhidi ya wanaojifunza kutoka nchi zinazoendelea ikilinganishwa na algorithm za Kujifunza kwa kina. Hii inaonyesha kuwa mifano ya DL, kwa uwezo wake mkubwa, inaweza kujifunza muundo thabiti zaidi, unaoweza kutumika kwa ujumla ambao hauna usikivu kwa uhusiano wa uwongo unaohusishwa na hali ya maendeleo.
3.4 Uchambuzi wa Kubadilishana: Usahihi dhidi ya Haki
Utafiti huu unapendekeza mbinu ya kina, inayolenga muktadha maalum:
- Kwa mafunzo ya en_es na es_en, Kujifunza kwa kina ni sahihi zaidi, kukiwa na usawa bora.
- Kwa mafunzo ya fr_en, Kujifunza kwa Mashine kilionekana kuwa chaguo sahihi zaidi, labda kutokana na sifa za seti ya data ambapo mifano rahisi inatumika kwa ujumla kwa haki zaidi.
4. Uchambuzi wa Kina wa Kiufundi
4.1 Ufuatiliaji wa Ujuzi: Mfumo Rasmi
Kimsingi, KT inaiga hali ya ujuzi ya mjifunzaji kama kigeugeu cha siri kinachobadilika baada ya muda. Kwa kuzingatia mlolongo wa mwingiliano wa mjifunzaji (mfano, majaribio ya mazoezi) $X = \{x_1, x_2, ..., x_t\}$, lengo ni kutabiri uwezekano wa usahihi kwenye kipengele kifuatacho, $P(r_{t+1} = 1 | X)$.
Ufuatiliaji wa Ujuzi wa Kina (DKT) hutumia Mtandao wa Neva Unaorudiwa (RNN) kuiga hii:
$h_t = \text{RNN}(x_t, h_{t-1})$
$P(r_{t+1}) = \sigma(W \cdot h_t + b)$
ambapo $h_t$ ni hali ya siri inayowakilisha hali ya ujuzi kwa wakati $t$, na $\sigma$ ni kitendakazi cha sigmoid.
4.2 Uundaji wa Vipimo vya Haki
Acha $A \in \{0,1\}$ iwe sifa nyeti (mfano, $A=1$ kwa mtumiaji wa simu ya mkononi, $A=0$ kwa mtumiaji wa wavuti). Acha $\hat{Y}$ iwe utabiri wa mfano. Usawa wa Kidemografia unahitaji:
$P(\hat{Y}=1 | A=1) = P(\hat{Y}=1 | A=0)$
Fursa Sawa (kuzingatia usahihi kama matokeo chanya) inahitaji:
$P(\hat{Y}=1 | A=1, Y=1) = P(\hat{Y}=1 | A=0, Y=1)$
Upendeleo ulioonekana katika utafiti unaweza kupimwa kama tofauti au uwiano kati ya uwezekano huu wa masharti kwa makundi tofauti.
5. Mfumo wa Uchambuzi na Mfano wa Kesi
Mfumo wa Kukagua Haki ya KT: Watengenezaji wa Edtech wanaweza kupitisha mbinu hii iliyopangwa:
- Tathmini ya Kujitenga: Kamwe usiripoti usahihi wa jumla tu. Daima hesabu vipimo vya utendaji (usahihi, AUC) na vipimo vya haki (tofauti ya usawa wa kidemografia, tofauti ya fursa sawa) kando kwa kila kikundi kidogo nyeti (kwa jukwaa, nchi, jinsia ikiwepo).
- Uchambuzi wa Sababu ya Msingi: Kwa upendeleo uliotambuliwa, chunguza uhusiano wa vipengele. Je, "idadi ya vikao" inahusishwa na jukwaa na matokeo ya utabiri? Je, vigeugeu vya wakala vya hali ya kijamii na kiuchumi vinaweza kuingia kwenye mfano kupitia data ya tabia?
- Uchaguzi wa Mkakati wa Kupunguza: Kulingana na sababu, chagua mbinu ya kupunguza: usindikaji wa awali (kupima upya uzito wa data), usindikaji wa ndani (kuongeza vikwazo vya haki kwenye kitendakazi cha hasara, kama katika mbinu kama zile za jamii ya mkutano wa FAT*), au usindikaji wa baadaye (kusanidi kizingiti kwa kila kikundi).
Mfano wa Kesi - Upendeleo wa Simu ya Mkononi: Fikiria mfano wa KT unaotegemea LSTM uliofunzwa kwenye data ya Duolingo unaonyesha uwezekano wa mafanikio wa juu zaidi kwa asilimia 15 kwa watumiaji wa iOS dhidi ya watumiaji wa Wavuti, ukizingatia utendaji halisi. Ukaguzi wetu unaonyesha kuwa kipengele cha "wakati wa siku" ndio kiendeshi muhimu: watumiaji wa iOS hufanya mazoezi zaidi kwa muda mfupi, mara kwa mara (safari), wakati watumiaji wa Wavuti wana vikao virefu, visivyo mara kwa mara. Mfano unahusisha "muundo wa safari" na ushiriki wa juu na kuongeza utabiri, kuwadhuru kwa haki watumiaji wa Wavuti ambao wanaweza kujifunza kwa ufanisi kwa muundo tofauti. Kupunguza: Tungeweza kutumia neno la kawaida linalolenga haki wakati wa mafunzo ambalo linawalazimisha mfano kwa tofauti katika usambazaji wa utabiri kati ya makundi ya jukwaa, ukiongozwa na kazi ya watafiti kama Zemel et al. juu ya kujifunza uwakilishi wa haki.
6. Uchambuzi Muhimu na Ufasiri wa Mtaalamu
Uelewa wa Msingi: Karatasi hii inatoa ukweli muhimu, usiofurahisha kwa sekta ya EdTech inayokua kwa kasi: mifano yako ya kisasa ya ufuatiliaji wa ujuzi kwa uwezekano mkubwa inaingiza upendeleo wa kimfumo unaowapendelea watumiaji matajiri, wanaoanza kwa simu ya mkononi, na mataifa yaliyoendelea. Utafutaji wa usahihi umepofusha uwanja huu kwa deni la maadili linalokua katika algorithm zake. Uvumbuzi kwamba upendeleo unaendelea hata katika mifano changamano ya Kujifunza kwa kina ni kinyume cha kusisimua kwa imani kwamba mifano changamana zaidi kimsingi hujifunza uwakilishi "wenye haki zaidi".
Mtiririko wa Kimantiki: Waandishi wanakwenda kimantiki kutoka kuanzisha dhana ya KT hadi kufichua upendeleo wake wa haki. Kwa kutumia seti ya data ya Duolingo iliyothibitishwa inatoa uaminifu na uwezo wa kurudiwa. Uchambuzi uliogawanyika—upendeleo wa jukwaa na upendeleo wa kisiasa—unashika kwa ujanvi shoka kuu mbili za mgawanyiko wa kidijitali. Ulinganisho kati ya ML ya jadi na DL ya kisasa sio tu kiufundi bali ni kimkakati, kusaidia watendaji kuchagua zana kwa kuzingatia athari za kiadili.
Nguvu na Kasoro: Nguvu kuu ni mwelekeo wake unaoweza kutekelezwa, wa kimajaribio kwenye data ya ulimwengu halisi na uvumbuzi wazi wa kulinganisha. Inapita zaidi ya majadiliano ya kinadharia ya haki. Hata hivyo, kasoro kubwa ni ukosefu wa maelezo ya kiufundi. Kwa nini upendeleo wa simu ya mkononi unatokea? Je, ni kitu cha data, tofauti ya tabia ya mtumiaji, au kikomo cha mfano? Karatasi hii inatambua ugonjwa lakini haitoi uchambuzi wa kutosha wa sababu. Zaidi ya hayo, pendekezo la kutumia ML kwa mafunzo ya `fr_en` kulingana na haki, licha ya usahihi wake wa chini, inaleta shida ya ulimwengu halisi: ni kiasi gani cha usahihi tungependa kujitoa kwa ajili ya haki, na nani anaamua?
Uelewa Unaoweza Kutekelezwa: Kwa viongozi wa bidhaa na wahandisi, utafiti huu ni amri ya mabadiliko. Kwanza, ukaguzi wa haki lazima uwe KPI ya kawaida pamoja na upimaji wa A/B kwa uanzishwaji wa mifano mipya, sawa na mazoezi yanayopendekezwa na mpango wa PAIR wa Google. Pili, upendeleo ulioonekana unapendekeza hitaji la utengenezaji wa vipengele maalum vya jukwaa au usanidi. Labda watumiaji wa wavuti wanahitaji mfano tofauti kidogo wa utabiri. Tatu, utafiti huu unasisitiza hitaji la data za mafunzo zenye utofauti zaidi na zinazowakilisha. Ushirikiano na mashirika yasiyo ya kiserikali au taasisi za kielimu katika maeneo yanayoendelea kunaweza kusaidia kusawazisha seti za data. Hatimaye, uwanja huu lazima utengeneze na upitishie Usanifu wa KT wa "Haki-kwa-Kusudi", ukichanganya vikwazo tangu mwanzo, badala ya kurekebisha haki baadaye.
7. Matumizi ya Baadaye na Mwelekeo wa Utafiti
- Kufundisha Kibinafsi Kinalenga Haki: ITS ya baadaye inaweza kurekebisha kwa nguvu sio tu hali ya ujuzi, bali pia kupinga upendeleo uliotabiriwa. Ikiwa mfumo unagundua mwanafunzi anatoka kikundi kisichowakilishwa kwa kiasi kikubwa ambacho mfano hauna uhakika, inaweza kutoa msaada zaidi wa kiunga au kukusanya data zaidi ili kupunguza kutokuwa na uhakika kwa haki.
- Uhamishaji wa Mfano wa Kitamaduni na Kimatumizi ya Lugha: Utafiti unapaswa kuchunguza haki katika ujifunzaji wa kuhamisha. Je, mfano wa KT uliofunzwa kwa wanaojifunza wazungumzaji wa Kiingereza una haki wakati umeboreshwa kwa wazungumzaji wa Kihispania? Mbinu kutoka kwa kukabiliana na kikoa zinaweza kuunganishwa na vikwazo vya haki.
- Haki Inayoelezeka (XFairness): Zaidi ya kupima upendeleo, tunahitaji zana za kuelezea ni vipengele gani vinachangia matokeo yasiyo ya haki. Hii inalingana na harakati pana zaidi ya XAI (AI Inayoelezeka) na ni muhimu kwa uaminifu wa mtengenezaji na kupunguza kwa ufanisi.
- Utafiti wa Muda Mrefu wa Haki: Je, upendeleo wa algorithm unaongezeka au kupungua wakati wa safari ya mwaka kadhaa ya mjifunzaji? Utafiti wa muda mrefu unahitajika ili kuelewa athari zinazokua za mzunguko wa maoni wenye upendeleo katika mifumo inayobadilika.
- Unganisho na Sayansi ya Kujifunza: Kazi ya baadaye lazima iunganishe pengo na nadharia ya ufundishaji. "Haki" inamaanisha nini kutoka kwa mtazamo wa mzigo wa kiakili au motisha? Haki inapaswa kuendana na kanuni za usawa wa kielimu, sio tu usawa wa kitakwimu.
8. Marejeo
- Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
- Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
- Zemel, R., Wu, Y., Swersky, K., Pitassi, T., & Dwork, C. (2013). Learning fair representations. International conference on machine learning (pp. 325-333). PMLR.
- Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys (CSUR), 54(6), 1-35.
- Google PAIR. (n.d.). People + AI Guidebook. Imepatikana kutoka https://pair.withgoogle.com/
- Duolingo. (2018). Duolingo Second Language Acquisition Shared Task. Proceedings of the 2018 EMNLP Workshop W-NUT.
- Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning: Limitations and Opportunities. fairmlbook.org.