Mradi MOSLA: Seti ya Takwimu ya Urefu, Yenye Hali Nyingi kwa Utafiti wa Ujifunzaji wa Lugha ya Pili

1. Utangulizi

Ujifunzaji wa lugha ya pili (SLA) ni mchakato tata na wenye mabadiliko ambao kihistoria umesomwa kupitia seti za takwimu zilizogawanyika, zenye hali moja, au za muda mfupi. Mradi MOSLA (Wakati wa Ujifunzaji wa Lugha ya Pili) unashughulikia mapungufu haya kwa kuunda seti ya takwimu ya kipekee ya urefu, yenye hali nyingi, lugha nyingi, na inayodhibitiwa. Mradi huu unarekodi wanafunzi wakijifunza Kiarabu, Kihispania, au Kichina kutoka mwanzo kwa zaidi ya miaka miwili kupitia mafunzo ya pekee ya mtandaoni, ukirekodi kila somo. Seti hii ya takwimu, inayojumuisha zaidi ya masaa 250 ya video, sauti, na rekodi za skrini, ikichanganywa na uwekaji alama wa nusu-otomatiki, inatoa rasilimali isiyo na kifani ya kusoma mwendo wa kina wa ujifunzaji wa lugha.

2. Njia ya Ukusanyaji wa Takwimu

Seti ya takwimu ya MOSLA ilijengwa chini ya itifaki madhubuti na inayodhibitiwa ili kuhakikisha uthabiti na uhalali wa utafiti.

2.1 Urejeshaji wa Washiriki & Uchaguzi wa Lugha

Washiriki walirejeshwa kujifunza mojawapo ya lugha tatu lengwa: Kiarabu, Kihispania, au Kichina cha Mandarin. Uchaguzi huu unajumuisha lugha zisizo na alfabeti ya Kilatini (Kiarabu na Kichina), na kupanua utumizi wa seti ya takwimu kuvuka lugha zaidi ya lugha za Indo-Uropa zinazosomwa kawaida.

2.2 Mazingira ya Kujifunza Yanayodhibitiwa

Kipengele muhimu cha muundo ni sharti la mfiduo unaodhibitiwa. Washiriki walikubali kujifunza lugha lengwa tu kupitia masomo ya mtandaoni yaliyotolewa kwa muda wa utafiti wa miaka miwili. Udhibiti huu hupunguza vigeugeu vinavyochanganyikiwa kutoka kwa mfiduo wa lugha ya nje, na kuruhusu usababishaji wazi zaidi wa mafanikio ya ustadi kwa njia ya mafunzo.

2.3 Usanidi wa Kurekodi Hali Nyingi

Masomo yote yalifanyika na kurekodiwa kupitia Zoom, yakikamata mitiririko mitatu iliyolinganishwa wakati:

Video: Mishiriki ya kamera ya wavuti ya mshiriki na mwalimu.
Sauti: Sauti kamili ya somo.
Shiriki Skrini: Skrini iliyoshirikiwa ya mwalimu iliyokuwa na nyenzo za kufundishia, slaidi, na programu.

Hii muundo wa tatu huunda rekodi tajiri, yenye muktadha wa mwingiliano wa kujifunza.

Seti ya Takwimu Kwa Ufupi

Muda: ~miaka 2 kwa kila mshiriki
Jumla ya Rekodi: >masaa 250
Hali: Video, Sauti, Skrini
Lugha Lengwa: 3 (Kiarabu, Kihispania, Kichina)
Udhibiti: Mafunzo ya pekee ya mtandaoni

3. Mfumo wa Uwekaji Alama wa Takwimu

Rekodi ghafi zilichakatwa kupitia mfumo wa nusu-otomatiki ili kutoa metadata iliyoundwa na inayoweza kutafutwa.

3.1 Mfumo wa Uwekaji Alama wa Nusu-otomatiki

Alama zilitolewa kwa kutumia mbinu mseto ya binadamu-mashine:

Ubaguzi wa Msemaji: Kugawa sauti katika maeneo yenye msemaji mmoja ("nani alisema lini?").
Utambulisho wa Msemaji: Kuweka alama kwa sehemu kama 'mwalimu' au 'mwanafunzi'.
Utambulisho wa Lugha: Kuweka alama kwa sehemu kulingana na lugha (mfano, L1/Kiingereza dhidi ya Lugha Lengwa).
Utambuzi wa Hotuba Otomatiki (ASR): Kutoa nakala za maandishi kwa sehemu zote za hotuba.

Alama za awali ziliundwa na waweka alama binadamu, na kuunda sehemu ndogo ya kiwango cha dhahabu iliyotumiwa kuboresha modeli za kisasa.

3.2 Uboreshaji wa Modeli & Utendaji

Modeli zilizofunzwa awali (mfano, za ASR, ubaguzi wa msemaji) ziliboreshwa kwa kutumia takwimu za MOSLA zilizowekwa alama na binadamu. Karatasi inaripoti mafanikio makubwa ya utendaji baada ya uboraishaji, na kuonyesha thamani ya takwimu maalum za kikoa hata kwa modeli kubwa zilizofunzwa awali. Hatua hii ilikuwa muhimu kwa kuongeza kiwango cha uwekaji alama kwa mkusanyiko wote wa masaa 250+.

4. Uchambuzi wa Lugha & Hali Nyingi

Seti ya takwimu iliyowekwa alama inawezesha uchambuzi mpya wa mchakato wa SLA.

4.1 Vipimo vya Maendeleo ya Ustadi

Mienendo ya urefu ilichambuliwa kwa kutumia vipimo kama vile:

Uwiano wa Lugha Lengwa: Asilimia ya usemi wa mwanafunzi katika lugha lengwa dhidi ya lugha yao ya asili kwa muda.
Utofauti wa Msamiati: Kupima ukuaji na utata wa msamiati (mfano, kupitia Uwiano wa Aina-Tokoni).
Urefu & Utata wa Usemi: Kufuatilia maendeleo ya miundo ya kisintaksia.

Vipimo hivi vinaonyesha picha ya kiasi ya maendeleo ya ustadi katika safari ya miaka miwili.

4.2 Ugunduzi wa Mwelekeo wa Skrini

Uchambuzi wa ubunifu hasa ulihusisha kutumia modeli za kina za kujifunza zenye hali nyingi kutabiri eneo la mwanafunzi la kuzingatia kwenye skrini iliyoshirikiwa kutoka kwa ishara za video na sauti zisizowekwa alama kabisa. Kwa kuunganisha ishara za sauti (mfano, kujadili neno maalum) na maudhui ya skrini, modeli inaweza kukisia kile mwanafunzi anachokiangalia, na kutoa ufahamu kuhusu umakini na ushiriki.

5. Uelewa Mkuu & Mtazamo wa Mchambuzi

Uelewa Mkuu: Mradi MOSLA sio seti nyingine tu ya takwimu; ni jukwaa la msingi linalofunua pengo kubwa kati ya tafiti za SLA zilizojitenga, za picha moja na ukweli wa mchafu, endelevu wa kujifunza. Thamani yake iko katika urefu unaodhibitiwa—kipengele kichache kama kinavyokuwa muhimu. Wakati miradi kama mkusanyiko wa Sauti ya Kawaida ya Mozilla inawezesha takwimu za hotuba, inakosa mwendo wa kujifunza ulioundwa na muktadha wa hali nyingi ambao MOSLA inatoa. Vile vile, Kazi ya Shiriki ya BEA-2019 ililenga ustadi wa uandishi uliojitenga, na kupoteza mwelekeo tajiri wa mwingiliano uliokamatwa hapa.

Mtiririko wa Mantiki: Mantiki ya mradi huu ni laini vizuri: 1) Tambua utupu wa kimetodolojia (ukosefu wa takwimu za SLA zenye udhibiti, hali nyingi, na urefu), 2) Unda suluhisho (itifati madhubuti ya washiriki + rekodi ya Zoom), 3) Tatua tatizo la kuongeza kiwango (uwekaji alama wa ML wenye mwingiliano wa binadamu), na 4) Onyesha matumizi (uchambuzi wa lugha + kazi mpya za hali nyingi). Mfumo huu wa mwanzo-hadi-mwisho kutoka kwa uundaji wa takwimu hadi matumizi ni muundo wa sayansi za kujifunza zenye uthibitisho.

Nguvu & Kasoro: Nguvu haina shaka: kiwango, udhibiti, na utajiri wa hali nyingi. Ni ndoto ya mtafiti kusoma mienendo ya wakati. Hata hivyo, kasoro ziko katika usawazishaji. Mazingira "yanayodhibitiwa" pia ndiyo bandia yake kubwa zaidi—ujifunzaji wa lugha ulimwenguni haudhibitiwi kabisa. Ukubwa wa sampuli, huku ukiumba seti ya takwimu ya kina ya urefu, unaweza kupunguza uwezekano wa kutumika kwa idadi mbalimbali za wanafunzi. Zaidi ya hayo, kikwazo cha kiufundi cha kutumia seti ngumu kama hii ya takwimu yenye hali nyingi bado kiko juu, na kunaweza kupunguza matumizi yake ya haraka.

Ufahamu Unaotekelezeka: Kwa watafiti, hatua ya haraka ni kuchunguza seti hii ya takwimu wazi. Kwa kampuni za EdTech, ufahamu ni kuhamia zaidi ya vipimo rahisi vya kukamilika na kuiga mchakato wa kujifunza kama MOSLA inavyofanya. Jaribio la ugunduzi wa mwelekeo wa skrini pekee linaonyesha siku zijazo ambapo majukwaa ya kujifunza yatakisi ushiriki wa kiakili kwa wakati halisi. Dhamira kubwa zaidi ni kwa taaluma kuhama kutoka "picha" za sehemu-nyingi hadi "filamu" za urefu za kujifunza. MOSLA imejenga kamera; sasa ni wakati wa jamii kuanza kutengeneza filamu.

6. Maelezo ya Utekelezaji wa Kiufundi

Mfumo wa uwekaji alama unategemea modeli kadhaa za mashine kujifunza. Mtazamo rahisi wa kazi ya ubaguzi wa msemaji na utambulisho unaweza kuwekwa kama tatizo la uboraishaji. Hebu $X = \{x_1, x_2, ..., x_T\}$ iwakilishe mlolongo wa vipengele vya sauti. Lengo ni kupata mlolongo wa lebo za msemaji $S = \{s_1, s_2, ..., s_T\}$ na utambulisho wa wasemaji $Y = \{y_1, y_2, ..., y_K\}$ ambao huongeza uwezekano wa baadae:

$P(S, Y | X) \propto P(X | S, Y) \cdot P(S) \cdot P(Y)$

Ambapo:

$P(X | S, Y)$ ni uwezekano wa vipengele vya sauti kutokana na sehemu za msemaji na utambulisho, mara nyingi huigwa kwa kutumia Modeli za Mchanganyiko wa Gaussian (GMMs) au uingizaji wa mtandao wa neva kina kama vekta-x.
$P(S)$ ni uwezekano wa awali juu ya mienendo ya zamu ya msemaji, ukihimili mwendelezo wa wakati (mfano, kwa kutumia modeli ya Markov iliyofichwa).
$P(Y)$ inawakilisha ujuzi wa awali wa utambulisho wa msemaji (mwalimu dhidi ya mwanafunzi).

Uboreshaji kwenye takwimu za MOSLA hasa huboresha makadirio ya $P(X | S, Y)$ kwa kurekebisha modeli ya sauti (mfano, kichujio cha vekta-x) kwa hali maalum za sauti na sifa za wasemaji wa darasani la mtandaoni.

7. Matokeo ya Majaribio & Ugunduzi

Karatasi inawasilisha ugunduzi muhimu kutoka kwa kuchambua seti ya takwimu ya MOSLA:

Mwendo wa Ustadi: Grafu zinaonyesha ongezeko wazi, lisilo la mstari katika asilimia ya matumizi ya lugha lengwa na wanafunzi kwa muda, na mipangilio na mruko inayolingana na vitengo tofauti vya mafunzo. Vipimo vya utofauti wa msamiati vinaonyesha mwelekeo thabiti wa kupanda, ukikasi baada ya miezi sita ya kwanza.
Faida ya Utendaji wa Modeli: Uboreshaji wa modeli ya Wav2Vec2.0 iliyofunzwa awali kwa ASR kwenye masaa 10 tu ya nakala za binadamu za MOSLA ulipunguza Kiwango cha Makosa ya Neno (WER) kwa zaidi ya 35% kwenye takwimu za MOSLA zilizohifadhiwa ikilinganishwa na modeli ya msingi. Mafanikio makubwa sawa yanaripotiwa kwa kazi za utambulisho wa msemaji na lugha.
Ugunduzi wa Mwelekeo wa Skrini: Modeli yenye hali nyingi (mfano, kibadilishaji cha maono kwa fremu za skrini ikichanganywa na koda sauti) ilifunzwa kuainisha eneo pana la mwelekeo wa skrini (mfano, "maandishi ya slaidi," "video," "ubao mweupe"). Modeli ilifikia usahihi mkubwa zaidi ya bahati nasibu, na kuonyesha kwamba uhusiano wa sauti-maono una ishara zenye maana kuhusu umakini wa mwanafunzi, hata bila vifaa vya kufuatilia macho.

Kielelezo 1 (Kiufikra): Karatasi inajumuisha kielelezo cha kiufikra kinachoonyesha mfumo wa MOSLA: Ukusanyaji wa Takwimu (rekodi za Zoom) -> Uwekaji Alama wa Takwimu (Ubaguzi, Utambulisho, ASR) -> Uchambuzi wa Hali Nyingi (Mwelekeo wa skrini) & Uchambuzi wa Lugha wa SLA (Vipimo vya ustadi). Kielelezo hiki kinasisitiza mbinu ya kina, inayolenga mfumo ya mradi huu.

8. Mfumo wa Uchambuzi: Uundaji wa Mwendo wa Ustadi

Kesi: Kuiga Mwendo wa "Matumizi ya Lugha Lengwa"

Watafiti wanaweza kutumia seti ya takwimu ya MOSLA kujenga modeli za mkunjo wa ukuaji. Mfano rahisi unachambua uwiano wa kila wiki wa usemi wa lugha lengwa (TL) na mwanafunzi. Hebu $R_t$ iwe uwiano wa TL kwenye wiki $t$.

Modeli ya msingi ya athari mchanganyiko ya mstari inaweza kubainishwa kama:

R_t ~ 1 + Time_t + (1 + Time_t | Learner_ID)

Ambapo:

1 + Time_t inaiga athari thabiti ya kukatiza kwa jumla na mteremko (mwendo wa wastani wa ukuaji).
(1 + Time_t | Learner_ID) inaruhusu mahali pa kuanzia (kukatiza) na kiwango cha ukuaji (mteremko) kubadilika nasibu kati ya wanafunzi binafsi.

Kwa kutumia takwimu za MOSLA, mtu anaweza kufaa modeli hii (mfano, kwa kutumia lme4 ya R au statsmodels ya Python) ili kukadiria ongezeko la kila wiki la wastani la matumizi ya TL na kiwango cha utofauti wa kibinafsi. Modeli ngumu zaidi zinaweza kujumuisha awamu ya mafunzo kama kichaguzi au kuiga ukuaji usio wa mstari kwa kutumia maneno ya polynomial au spline kwa Muda. Mfumo huu unahama zaidi ya kulinganisha majaribio ya kabla na baada hadi kuiga mkunjo wote wa kujifunza.

9. Matumizi ya Baadaye & Mwelekeo wa Utafiti

Seti ya takwimu ya MOSLA inafungua njia nyingi za kazi ya baadaye:

Njia za Kujifunza Zilizobinafsishwa: Algoriti zinaweza kuchambua mwendo wa awali wa mwanafunzi katika MOSLA kutabiri vikwazo vya baadaye na kupendekeza nyenzo za kukagua au kufanya mazoezi zilizobinafsishwa.
Tathmini ya Ustadi Otomatiki: Kuendeleza modeli za tathmini za kina, endelevu ambazo huenda zaidi ya majaribio ya kiwango, kwa kutumia ishara za hali nyingi (ufasaha, uchaguzi wa msamiati, matamshi, ushiriki) kama ilivyo katika utafiti wa ETS kuhusu tathmini otomatiki ya kuzungumza.
Uchambuzi wa Mwalimu: Kuchambua mikakati ya mwalimu na uhusiano wake na maendeleo ya mwanafunzi, na kutoa maoni yanayotokana na takwimu kwa mafunzo ya walimu.
Tafiti za Uhamisho wa Kuvuka Lugha: Kulinganisha muundo wa upatikanaji kati ya Kiarabu, Kihispania, na Kichina ili kuelewa jinsi vipengele maalum vya lugha (mfano, mfumo wa sauti, hati) vinavyoathiri mchakato wa kujifunza.
Modeli za Msingi za Hali Nyingi: MOSLA ni uwanja bora wa mafunzo ya kujenga modeli za AI zenye hali nyingi zinazoelewa mazungumzo ya kielimu, na kwa uwezekano kusababisha wakufunzi wa AI wenye hali ya juu zaidi.
Upanuzi: Matoleo ya baadaye yanaweza kujumuisha lugha zaidi, vikundi vikubwa na tofauti zaidi vya washiriki, takwimu za kibayolojia (kama kiwango cha moyo kwa msongo/mzigo wa kiakili), na ujumuishaji na takwimu za mfumo wa usimamizi wa kujifunza (LMS).

10. Marejeo

Geertzen, J., Alexopoulou, T., & Korhonen, A. (2014). Automatic Linguistic Annotation of Large Scale L2 Databases: The EF-Cambridge Open Language Database (EFCAMDAT). In Proceedings of the 9th Workshop on Innovative Use of NLP for Building Educational Applications.
Settles, B., T. LaFlair, G., & Hagiwara, M. (2018). Machine Learning-Driven Language Assessment. Transactions of the Association for Computational Linguistics.
Stasaski, K., Devlin, J., & Hearst, M. A. (2020). Measuring and Improving Semantic Diversity of Dialogue Generation. In Findings of the Association for Computational Linguistics: EMNLP 2020.
Hampel, R., & Stickler, U. (2012). The use of videoconferencing to support multimodal interaction in an online language classroom. ReCALL, 24(2), 116-137.
Mozilla Common Voice. (n.d.). Retrieved from https://commonvoice.mozilla.org/
Educational Testing Service (ETS). (2021). Automated Scoring of Speech. Research Report.
Hagiwara, M., & Tanner, J. (2024). Project MOSLA: Recording Every Moment of Second Language Acquisition. arXiv preprint arXiv:2403.17314.