Uundaji wa Mfumo wa Pamoja kwa Ujifunzaji wa Lugha ya Pili: Njia ya Ushindi katika Kazi ya Pamoja ya SLAM ya 2018
Uchambuzi wa mfumo wa pamoja unaounganisha Miti ya Uamuzi ya Kupandishwa Gradient na RNNs kwa kutabiri mapengo ya maarifa ya mwanafunzi katika ujifunzaji wa lugha, ukifikia alama za juu katika Kazi ya Pamoja ya SLAM ya 2018.
Nyumbani »
Nyaraka »
Uundaji wa Mfumo wa Pamoja kwa Ujifunzaji wa Lugha ya Pili: Njia ya Ushindi katika Kazi ya Pamoja ya SLAM ya 2018
1. Utangulizi
Kutabiri kwa usahihi hali ya maarifa ya mwanafunzi ni msingi wa kujenga mifumo bora ya ujifunzaji iliyobinafsishwa. Karatasi hii inawasilisha mfumo wa pamoja mpya ulioundwa kutabiri makosa ya kiwango cha neno yanayofanywa na wanafunzi wa lugha, kazi muhimu katika kutambua mapengo ya maarifa. Mfumo huu uliundwa kwa na ukafikia alama ya juu kabisa kwenye vipimo vyote viwili vya tathmini (AUC na F1-score) kwenye seti zote tatu za data za lugha (Kiingereza, Kihispania, Kifaransa) katika Kazi ya Pamoja ya 2018 ya Uundaji wa Ujifunzaji wa Lugha ya Pili (SLAM), ambayo ilitumia data ya mfuatano kutoka Duolingo. Kazi hii inaunganisha mbinu za hali ya juu za mashine kujifunza na changamoto ya vitendo ya kuunda mchakato tata na wa mfuatano wa upatikanaji wa lugha.
2. Data na Usanidi wa Tathmini
Utafiti huu unatokana na data kutoka Kazi ya Pamoja ya SLAM ya 2018, ikitoa kiwango cha kawaida cha kulinganisha katika uwanja huu.
2.1. Seti za Data za Kazi ya Pamoja ya SLAM ya 2018
Data inajumuisha mifuatano ya mwingiliano ya wanafunzi wasiojulikana kutoka kwa watumiaji wa Duolingo wakati wa siku zao 30 za kwanza za kujifunza Kiingereza, Kihispania, au Kifaransa. Sifa kuu ni kwamba sentensi ya asili iliyowekwa na mtumiaji haitoleti; badala yake, seti ya data inajumuisha sentensi sahihi "inayolingana zaidi" kutoka kwa seti iliyobainishwa mapema, iliyopangwa kwa kutumia mbinu ya kichocheaji cha hali mahususi. Lengo la utabiri ni lebo ya jozi kwa kila kitokeo (neno) katika sentensi hii iliyolinganishwa, ikionyesha kama mtumiaji alifanya kosa kwenye neno hilo.
2.2. Ufafanuzi wa Kazi na Vipimo vya Tathmini
Kazi hii imewekwa kama shida ya uainishaji wa jozi katika kiwango cha kitokeo. Data imegawanywa kwa muda kwa kila mtumiaji: 10% ya mwisho ya matukio kwa ajili ya majaribio, 10% ya mwisho ya yaliyobaki kwa ajili ya maendeleo, na yaliyobaki kwa ajili ya mafunzo. Utendaji wa mfumo unatathminiwa kwa kutumia Eneo Chini ya Mkunjo wa ROC (AUC) na alama ya F1, vipimo vinavyolinganisha usahihi na ukumbusho kwa ajili ya kazi za uainishaji zisizo sawa ambazo ni kawaida katika data ya elimu.
2.3. Vikwazo kwa Mazingira ya Uzalishaji
Waandishi wanaonya kwa ukosoaji kwamba usanidi wa kazi ya pamoja haionyeshi kabisa mazingira ya uzalishaji ya wakati halisi kwa ujifunzaji unaokabiliana. Tofauti tatu muhimu zinatolewa: (1) Mfumo unapewa jibu sahihi "linalolingana zaidi", ambalo lingekuwa halijulikani mapema kwa maswali yasiyo na mwisho. (2) Kuna uvujaji wa data unaowezekana kutokana na sifa zinazojumuisha taarifa za baadaye. (3) Tathmini haijumuishi watumiaji wa "mwanzo baridi", kwani mifumo imefunzwa na kupimwa kwenye data kutoka kwa seti ile ile ya wanafunzi.
3. Njia
Mchango wa msingi ni mfumo wa pamoja unaounganisha kwa mkakati nguvu za mifumo miwili tofauti ya mashine kujifunza.
3.1. Sababu za Muundo wa Mfumo wa Pamoja
Mfumo wa pamoja unatumia nguvu za ziada za Miti ya Uamuzi ya Kupandishwa Gradient (GBDT) na Mitandao ya Neva ya Kurudia (RNNs). GBDT ni bora katika kujifunza mwingiliano tata, usio na mstari kutoka kwa data ya sifa zilizoundwa, wakati RNNs, hasa mitandao ya Kumbukumbu ya Muda Mfupi-Mrefu (LSTM), ni ya hali ya juu zaidi kwa kukamata utegemezi wa muda na mifumo ya mfuatano katika data.
3.2. Sehemu ya Miti ya Uamuzi ya Kupandishwa Gradient (GBDT)
Sehemu hii inachakata seti tajiri ya sifa zilizotengenezwa kwa mikono zinazopatikana kwa kila kitokeo cha zoezi. Hizi zinaweza kujumuisha sifa za leksia (ugumu wa neno, sehemu ya usemi), sifa za historia ya mtumiaji (usahihi wa zamani kwenye neno/dhana hili), sifa za muktadha wa zoezi, na sifa za muda. Mfumo wa GBDT unajifunza kutabiri uwezekano wa kosa $P(y=1|\mathbf{x}_{\text{feat}})$ ambapo $\mathbf{x}_{\text{feat}}$ ni vekta ya sifa.
3.3. Sehemu ya Mtandao wa Neva wa Kurudia (RNN)
Sehemu hii inachakata mfuatano wa mwingiliano wa zoezi kwa mtumiaji. Inachukua kama pembejeo uwakilishi wa kila tukio la zoezi (unaoweza kujumuisha vitambulisho vya vitokeo vilivyopachikwa na sifa zingine) na kusasisha vekta ya hali iliyofichwa $\mathbf{h}_t$ ambayo inasimbua hali ya maarifa ya mwanafunzi kwa muda. Utabiri wa kitokeo katika hatua $t$ unatokana na hali hii iliyofichwa: $P(y=1|\mathbf{h}_t)$.
3.4. Mkakati wa Kuchanganya Mfumo wa Pamoja
Utabiri wa mwisho ni mchanganyiko wenye uzani au kijifunzaji meta (kama vile urejeshaji wa kimantiki) unaochukua utabiri kutoka kwa mifumo ya GBDT na RNN kama pembejeo. Hii inaruhusu mfumo wa pamoja kupima uzito wa umuhimu wa mifumo ya msingi wa sifa dhidi ya mifumo ya mfuatano kwa nguvu. Utabiri uliochanganywa unaweza kuwekwa rasmi kama: $P_{\text{ensemble}} = \alpha \cdot P_{\text{GBDT}} + (1-\alpha) \cdot P_{\text{RNN}}$ au kupitia kazi iliyojifunza $g(P_{\text{GBDT}}, P_{\text{RNN}})$.
4. Matokeo na Majadiliano
4.1. Utendaji kwenye Kazi ya Pamoja ya SLAM
Mfumo wa pamoja uliopendekezwa ulifikia alama ya juu kabisa kwenye AUC na alama ya F1 kwa seti zote tatu za data za lugha (Kiingereza, Kihispania, Kifaransa) katika Kazi ya Pamoja ya SLAM ya 2018. Hii inaonyesha usahihi wake bora wa utabiri ikilinganishwa na mifumo mingine iliyowasilishwa, ambayo inaweza kujumuisha RNN safi (kama vile aina za DKT) au njia nyingine za jadi.
Matokeo Muhimu: Utendaji wa juu katika vipimo vyote na seti za data unathibitisha ufanisi wa njia ya mfumo wa pamoja wa mseto kwa kazi hii maalum ya kufuatilia maarifa.
4.2. Uchambuzi wa Utabiri wa Mfumo
Waandishi wanajadili kesi ambapo utabiri wa mfumo ungeweza kuboreshwa, kuna uwezekano kuhusiana na miundo nadra ya lugha, mazoezi yenye utata mkubwa, au hali zenye historia ya mtumiaji iliyochache sana. Uchambuzi unasisitiza kwamba ingawa mfumo wa pamoja una nguvu, utabiri kamili bado ni changamoto kutokana na kelele na utata wa asili wa ujifunzaji wa binadamu.
4.3. Ulinganisho na Mifumo ya Jadi (IRT, BKT, DKT)
Karatasi hii inajielekeza dhidi ya misingi iliyowekwa: Nadharia ya Majibu ya Kipengee (IRT) na Kufuatilia Maarifa ya Bayes (BKT), ambazo zinaeleweka zaidi lakini mara nyingi hazibadiliki kwa urahisi, na Kufuatilia Maarifa ya Kina (DKT), njia ya kwanza ya msingi wa RNN. Mafanikio ya mfumo wa pamoja yanaonyesha kwamba kuchanganya nguvu ya uwakilishi wa ujifunzaji wa kina na usimamizi imara wa sifa wa mifumo ya msingi wa miti kunaweza kushinda mfumo wowote mmoja.
5. Maelezo ya Kiufundi na Uundaji wa Kihisabati
Nguvu ya mfumo wa pamoja iko katika uundaji wake. GBDT inaboresha kazi ya hasara $\mathcal{L}_{\text{GBDT}} = \sum_{i} l(y_i, F(\mathbf{x}_i))$, ambapo $F$ ni mfumo wa nyongeza wa miti. RNN, ambayo kwa uwezekano ni LSTM, inasasisha hali yake ya seli $\mathbf{c}_t$ na hali iliyofichwa $\mathbf{h}_t$ kupitia mifumo ya mlango:
$\mathbf{f}_t = \sigma(\mathbf{W}_f \cdot [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_f)$ (Mlango wa Kusahau)
$\mathbf{i}_t = \sigma(\mathbf{W}_i \cdot [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_i)$ (Mlango wa Pembejeo)
$\tilde{\mathbf{c}}_t = \tanh(\mathbf{W}_c \cdot [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_c)$ (Hali ya Mgombea)
$\mathbf{c}_t = \mathbf{f}_t \circ \mathbf{c}_{t-1} + \mathbf{i}_t \circ \tilde{\mathbf{c}}_t$
$\mathbf{o}_t = \sigma(\mathbf{W}_o \cdot [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_o)$ (Mlango wa Matokeo)
$\mathbf{h}_t = \mathbf{o}_t \circ \tanh(\mathbf{c}_t)$
Tabaka la utabiri la mwisho linahesabu $P_{\text{RNN}}(y_t=1) = \sigma(\mathbf{W}_p \mathbf{h}_t + b_p)$.
6. Mfumo wa Uchambuzi: Uelewa wa Msingi na Ukosoaji
Uelewa wa Msingi: Fomula ya ushindi ya karatasi hii sio algoriti mpya ya mapinduzi, bali ni mchanganyiko wa vitendo kabisa. Inakubali siri chafu ya data halisi ya EdTech: ni mchanganyiko mchafu wa sifa zilizoundwa kwa uangalifu (metadata ya zoezi, sifa za watumiaji) na magogo ya tabia ya mfuatano ya mbichi. Mfumo wa pamoja unatenda kama injini ya mchakato wa jozi: GBDT inachakata sifa za kudumu, za jedwali kwa ufanisi mkali, wakati RNN inatoa ufahamu kuhusu safari inayobadilika ya mwanafunzi. Hii si kuhusu ubunifu wa AI bali ni zaidi kuhusu vitendo vya uhandisi—kutumia zana sahihi kwa kila sehemu ya kazi.
Mkondo wa Kimantiki: Hoja ni thabiti. Anza na kiwango cha kulinganisha kilichobainishwa vizuri, chenye hatari kubwa (SLAM). Tambua hali ya jozi ya data (yenye sifa nyingi + mfuatano). Pendekeza muundo wa mfumo unaoshughulikia moja kwa moja hali hii ya jozi. Thibitisha kwa matokeo ya juu. Kisha, kwa umuhimu, rudi nyuma kuuliza juu ya uhalali wa kiwango cha kulinganisha katika ulimwengu halisi. Hatua hii ya mwisho ndiyo inayotenganisha zoezi la kitaaluma na utafiti uliotumika. Inaonyesha timu inafikiria kuhusu utekelezaji, sio tu orodha ya washindi.
Nguvu na Kasoro:Nguvu: Mfumo una ufanisi unaoonekana kwenye kazi. Majadiliano ya kutolingana kwa mazingira ya uzalishaji ni muhimu sana na mara nyingi hupitwa kwa haraka katika karatasi safi za utafiti. Hutoa mpango wazi wa mfumo wa hali ya juu wa kufuatilia maarifa.
Kasoro: Karatasi hii ni fupi ya mkutano, kwa hivyo maelezo ni machache. Mifumo imechanganywa kwa usahihi vipi? Wastani rahisi au kiongozi meta aliyejifunza? Sifa gani maalum zilichochea GBDT? Uchambuzi wa "kesi ambazo utabiri ungeweza kuboreshwa" hauna wazi. Zaidi ya hayo, gharama ya hesabu na ucheleweshaji wa kuendesha mifumo miwili tata kwa wakati mmoja kwa ubinafsishaji wa wakati halisi haijashughulikiwa—wasiwasi mkubwa kwa mifumo ya uzalishaji ambapo kasi ya hitimisho ni muhimu.
Ufahamu Unaotekelezeka: Kwa watendaji, hitimisho ni wazi: Usichague kati ya miti na mitandao—kuwaunganisha kunafanya kazi. Unapoijenga mfumo wako mwenyewe wa wanafunzi, wekeza katika kuunda seti imara ya sifa zinazoeleweka kwa mfumo wa msingi wa miti kutumia sambamba na mfumo wako wa mfuatano. Muhimu zaidi, tumia karatasi hii kama orodha ya ukaguzi ya kutathmini utafiti: daima uliza ikiwa usanidi wa tathmini una "uvujaji wa data" kutoka wakati ujao au hupuuza shida ya mwanzo baridi, kama ilivyoelezwa hapa. Kwa hatua zinazofuata, utafiti unapaswa kulenga (a) usafishaji wa mfumo ili kubana mfumo wa pamoja kuwa mfumo mmoja, wa kasi zaidi bila hasara kubwa ya utendaji, na (b) kuunda mifumo ya tathmini inayoiga uamuzi wa kweli wa wakati halisi, wa mfuatano, labda kuchota mwongozo kutoka kwa tathmini ya ujifunzaji wa kuimarisha katika mazingira yaliyosanidiwa.
7. Mfano wa Kesi ya Mfumo wa Uchambuzi
Hali: Kampuni ya EdTech inataka kutabiri ikiwa mwanafunzi atapata shida na hali ya kutohamishika ya Kifaransa katika zoezi lijalo.
Utumiaji wa Mfumo:
1. Uhandisi wa Sifa (Pembejeo ya GBDT): Unda sifa: usahihi wa kihistoria wa mwanafunzi kwenye mazoezi ya kutohamishika, muda tangu mazoezi ya mwisho ya kutohamishika, utata wa sentensi maalum, idadi ya maneno mapya ya msamiati katika zoezi.
2. Uundaji wa Mfuatano (Pembejeo ya RNN): Lishe RNN mfuatano wa mwingiliano wa mwisho wa mazoezi 20 ya mwanafunzi, kila moja ikiwakilishwa kama upachikaji wa aina ya zoezi na muundo wa usahihi.
3. Utabiri wa Mfumo wa Pamoja: GBDT inatoa uwezekano kulingana na sifa za kudumu (k.m., "hatari kubwa kutokana na muda mrefu tangu mazoezi"). RNN inatoa uwezekano kulingana na mfuatano wa hivi karibuni (k.m., "hatari ndogo kwa sababu mwanafunzi yuko kwenye mfululizo mzuri").
4. Uamuzi wa Meta: Kichanganyaji cha mfumo wa pamoja (k.m., mtandao mdogo wa neva) hupima ishara hizi zinazokinzana. Inaweza kuamua ukaribu wa mafanikio (ishara ya RNN) unazidi hatari ya athari ya nafasi (ishara ya GBDT) na kutoa uwezekano wa kosa uliotabiriwa wa wastani wa chini.
5. Hatua: Mfumo unatumia uwezekano huu. Ikiwa hatari inachukuliwa kuwa kubwa, inaweza kutoa dokezi mapema au kuchagua zoezi rahisi kidogo ili kuimarisha ujifunzaji.
8. Matumizi ya Baadaye na Mwelekeo wa Utafiti
Zaidi ya Utabiri wa Kosa la Jozi: Kupanua mfumo kutabiri aina ya kosa (k.m., kisarufi, leksia, tahajia) au kuunda upatikanaji wa ujuzi kama kigezo cha siri kinachoendelea.
Kufuatilia Maarifa ya Kuvuka Kikoa: Kutumia njia ya mfumo wa pamoja kwenye vikoa vingine vya ujifunzaji wa mfuatano kama hisabati (kutabiri makosa ya kutatua tatizo hatua kwa hatua) au usimbaji.
Ujumuishaji na Ujifunzaji wa Kuimarisha (RL): Kutumia utabiri sahihi wa mfumo wa pamoja wa mapengo ya maarifa kama "hali" ya uwakilishi kwa wakala wa RL anayeamua ni zoezi gani litaonyeshwa ijayo, kuelekea kuelewa kwa sera ya kielimu inayojitegemea kabisa.
Kuzingatia Uelewevu: Kukuza njia za kuelezea utabiri wa mfumo wa pamoja, labda kwa kutumia umuhimu wa sifa wa GBDT na mifumo ya umakini ya RNN, ili kutoa maoni yanayotekelezeka kwa wanafunzi na waalimu.
Muundo wa Mfumo Unaolenga Uzalishaji: Utafiti katika mbinu za usafishaji wa maarifa ili kuunda mfumo mmoja, mwepesi ambao huhifadhi usahihi wa mfumo wa pamoja kwa ajili ya utekelezaji wa ucheleweshaji mdogo katika programu za elimu za rununu.
9. Marejeo
Osika, A., Nilsson, S., Sydorchuk, A., Sahin, F., & Huss, A. (2018). Second Language Acquisition Modeling: An Ensemble Approach. arXiv preprint arXiv:1806.04525.
Settles, B., Brunk, B., Gustafson, L., & Hagiwara, M. (2018). Second Language Acquisition Modeling. Proceedings of the NAACL-HLT 2018 Workshop on Innovative Use of NLP for Building Educational Applications.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep Knowledge Tracing. Advances in Neural Information Processing Systems (NeurIPS).
Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User Modeling and User-Adapted Interaction.
Lord, F. M. (1952). A theory of test scores. Psychometric Monographs.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems (NeurIPS). (Imetajwa kama mfano wa mfumo wa mfumo wa mseto wa msingi unaoathiri vikoa vingine).
Duolingo. (n.d.). Duolingo Research. Imepatikana kutoka https://research.duolingo.com/ (Kama chanzo cha seti ya data na mchezaji muhimu katika utafiti uliotumika wa SLA).