SLABERT: Kuiga Upataji wa Lugha ya Pili kwa kutumia BERT

Jedwali la Yaliyomo

1. Utangulizi
2. Kazi Zinazohusiana
3. Mbinu
4. Majaribio
- 4.1 Mpangilio wa Majaribio
- 4.2 Matokeo
5. Uchambuzi
- 5.1 Uhamishaji Chanya dhidi ya Hasi
- 5.2 Umbali wa Familia za Lugha
6. Hitimisho
7. Uchambuzi wa Asili
8. Maelezo ya Kiufundi
9. Matokeo ya Majaribio
10. Uchunguzi Kifani
11. Maelekezo ya Baadaye
12. Marejeleo

1. Utangulizi

Utafiti wa upataji wa lugha ya pili (SLA) umechunguza kwa kina uhamishaji wa lugha mbalimbali, athari ya muundo wa lugha ya asili ya mzungumzaji [L1] katika upataji mafanikio wa lugha ya kigeni [L2]. Athari za uhamishaji huo zinaweza kuwa chanya (kuwezesha upataji) au hasi (kuzuia upataji). Tunaona kwamba fasihi ya NLP haijazingatia vya kutosha jambo la uhamishaji hasi. Ili kuelewa mifumo ya uhamishaji chanya na hasi kati ya L1 na L2, tunaiga upataji wa lugha ya pili kwa mpangilio katika LMs. Zaidi ya hayo, tunaunda hifadhidata ya MAO-CHILDES yenye lugha tano tofauti za kiaina, yaani, Kijerumani, Kifaransa, Kipolandi, Kiindonesia, na Kijapani ili kuelewa kiwango ambacho Hotuba ya Asili inayoelekezwa kwa Mtoto (CDS) [L1] inaweza kusaidia au kugongana na upataji wa lugha ya Kiingereza [L2].

2. Kazi Zinazohusiana

Uhamishaji wa lugha mbalimbali umepata uangalizi mkubwa katika utafiti wa NLP (Wu na Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017). Mengi ya utafiti huu umejikita katika athari za kivitendo kama vile kiwango ambacho kitenganishi sahihi kinaweza kuboresha uhamishaji wa lugha mbalimbali, na haujaangalia aina ya mahusiano ya uhamishaji wa mpangilio yanayojitokeza katika upataji wa lugha ya pili kwa binadamu. Mbinu kama Jaribio la Upendeleo wa Kuingiza Data kupitia Uhamishaji wa Muundo wa Lugha (TILT) (Papadimitriou na Jurafsky, 2020) inazingatia uhamishaji chanya na jozi tofauti za seti za mafunzo, kama vile muziki wa MIDI na Kihispania, ili kuangazia ni aina gani za data zinazochochea sifa za muundo zinazoweza kusambazwa ambazo data za lugha na zisizo za lugha zinashiriki.

3. Mbinu

3.1 Ujenzi wa Hifadhidata

Tuliunda hifadhidata ya MAO-CHILDES kutoka kwa hifadhidata ya CHILDES, tukichagua hotuba inayoelekezwa kwa mtoto kutoka kwa lugha tano: Kijerumani (Kijerumaniki), Kifaransa (Kiromania), Kipolandi (Kislavoni), Kiindonesia (Kiaustronesia), na Kijapani (Kijaponiki). Hifadhidata imepangwa kwa umri ili kuiga asili ya mpangilio ya upataji wa lugha. Kila kikundi cha lugha kina takriban matamshi 50,000 kutoka kwa walezi yaliyoelekezwa kwa watoto wenye umri wa miaka 2-5.

3.2 Usanifu wa Muundo

Muundo wetu wa SLABERT unategemea usanifu wa BERT-base (Devlin et al., 2019) wenye tabaka 12 za transformer, vipimo 768 vya siri, na vichwa 12 vya uangalizi. Tunatumia mchakato wa mafunzo wa hatua mbili: kwanza, muundo hufunzwa awali kwenye data ya L1 CDS, kisha husafishwa kwenye data ya L2 (Kiingereza) CDS. Mafunzo haya ya mpangilio yanaiga mchakato wa SLA wa binadamu ambapo L1 hupatikana kabla ya L2.

3.3 Utaratibu wa Mafunzo

Utaratibu wa mafunzo unafuata mbinu ya uhamishaji wa kujifunza kwa lugha mbalimbali inayotegemea TILT. Muundo hufunzwa kwanza kwenye data ya L1 kwa kutumia lengo la uundaji wa lugha iliyofichwa (MLM) kwa kiwango cha ufichaji cha 15%. Baadaye, muundo husafishwa kwenye data ya Kiingereza CDS kwa lengo sawa la MLM. Kazi ya hasara inafafanuliwa kama:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

ambapo $\mathcal{M}$ ni seti ya nafasi zilizofichwa na $x_{\backslash \mathcal{M}}$ inawakilisha vitambulisho ambavyo havijafichwa.

4. Majaribio

4.1 Mpangilio wa Majaribio

Tunatathmini muundo wetu kwenye kifaa cha majaribio cha sarufi cha BLiMP (Benchmark of Linguistic Minimal Pairs for English) (Warstadt et al., 2020), ambacho kina matukio 67 ya kisarufi yaliyopangwa katika kategoria 13. Tunalinganisha muundo uliofunzwa kwenye lugha tofauti za L1 dhidi ya muundo wa kimsingi uliofunzwa tu kwenye data ya Kiingereza CDS. Kipimo cha tathmini ni usahihi kwenye seti ya majaribio ya BLiMP.

4.2 Matokeo

Jedwali la 1 linaonyesha usahihi wa BLiMP kwa muundo uliofunzwa kwa lugha tofauti za L1. Kijerumani L1 kinaonyesha uhamishaji chanya wa juu zaidi (85.2%), wakati Kijapani L1 kinaonyesha uhamishaji wa chini zaidi (72.1%), sawa na utabiri wa umbali wa familia za lugha. Kifaransa na Kipolandi zinaonyesha matokeo ya kati (81.3% na 78.6% mtawalia). Kiindonesia kinaonyesha usahihi wa 76.4%.

5. Uchambuzi

5.1 Uhamishaji Chanya dhidi ya Hasi

Tunaona kwamba lugha kutoka kwa familia moja (Kijerumaniki) kama Kiingereza zinaonyesha uhamishaji chanya kwa kiasi kikubwa, wakati lugha kutoka kwa familia za mbali (Kijaponiki) zinaonyesha uhamishaji hasi mkubwa. Hii inalingana na utafiti wa SLA wa binadamu unaoonyesha kwamba umbali wa kiaina unatabiri athari za uhamishaji (Jarvis na Pavlenko, 2007).

5.2 Umbali wa Familia za Lugha

Tunahesabu umbali wa familia za lugha kwa kutumia vipimo vya umbali wa filojenetiki. Uwiano kati ya umbali wa familia za lugha na uhamishaji hasi ni muhimu kitakwimu (r ya Pearson = -0.89, p < 0.05). Hii inapendekeza kwamba mfumo wa SLABERT unaweza kutumika kama kielelezo cha kikompyuta cha kusoma mahusiano ya kiaina.

6. Hitimisho

Mfumo wetu wa SLABERT unafanikiwa kuiga athari za uhamishaji chanya na hasi za lugha mbalimbali katika upataji wa lugha ya pili. Tunakuta kwamba umbali wa familia za lugha unatabiri uhamishaji hasi, na data ya hotuba ya mazungumzo inaonyesha uwezeshaji mkubwa zaidi kwa upataji wa lugha kuliko data ya hotuba iliyoandikwa. Matokeo yetu yanahitaji utafiti zaidi kwa kutumia mifano ya Transformer ya SLA, na tunatoa msimbo wetu, data, na mifano ili kuhimiza hili.

7. Uchambuzi wa Asili

Ufahamu Mkuu: SLABERT ni jaribio la ujasiri la kuunganisha isimu za kikompyuta na utafiti wa upataji wa lugha ya pili, lakini linakabiliwa na kikomo cha msingi: linasawazisha mafunzo ya awali ya muundo wa lugha na upataji wa lugha ya binadamu, likipuuza vipimo vya mwili, kijamii, na kiakili vya SLA. Mchango mkuu wa karatasi ni kuonyesha kwamba BERT inaweza kuiga athari za uhamishaji wa lugha mbalimbali, lakini huu ni ushindi finyu.

Mtiririko wa Mantiki: Waandishi wanaanza kutoka kwa dhana iliyoimarishwa ya SLA ya uhamishaji wa lugha mbalimbali, kisha wanaunda mfumo wa kikompyuta kuiga. Mantiki ni sahihi: ikiwa LMs zinaweza kujifunza muundo wa lugha kutoka kwa data, basi mafunzo ya mpangilio kwenye L1 kisha L2 yanapaswa kufichua athari za uhamishaji. Ujenzi wa hifadhidata ya MAO-CHILDES ni uvumbuzi wa kivitendo, ukitoa data ya hotuba inayoelekezwa kwa mtoto yenye uhalali wa kiikolojia. Matumizi ya BLiMP kwa tathmini yanafaa, kwani inajaribu maarifa ya kisarufi.

Nguvu na Udhaifu: Nguvu kuu ni matumizi mapya ya uhamishaji wa kujifunza unaotegemea TILT kwa SLA, ambayo inafungua mwelekeo mpya wa utafiti. Kupata kwamba umbali wa familia za lugha unatabiri uhamishaji hasi ni kuvutia na kunalingana na tafiti za binadamu. Hata hivyo, karatasi ina udhaifu mkubwa. Kwanza, saizi ya sampuli ya lugha tano ni ndogo sana kwa hitimisho thabiti la kiaina. Pili, muundo hauzingatii athari za umri wa upataji, ambazo ni muhimu katika SLA ya binadamu (Lenneberg, 1967). Tatu, tathmini imezuiliwa kwa sarufi ya Kiingereza; hatujui kama muundo unajumlisha kwa L2 nyingine. Nne, karatasi inakosa ulinganisho na mifano ya jadi ya SLA kama Muundo wa Ushindani (MacWhinney, 2005).

Ufahamu Unaotekelezeka: Kwa watafiti, kazi hii inapendekeza kwamba mifano inayotegemea Transformer inaweza kuwa zana muhimu kwa utafiti wa SLA, lakini lazima iunganishwe na mifano ya kiakili. Kwa watendaji, kupata kwamba data ya hotuba ya mazungumzo ni bora zaidi kuliko data iliyoandikwa kuna athari kwa nyenzo za kufundisha lugha. Kazi ya baadaye inapaswa kupanua sampuli ya lugha, kujumuisha umri wa upataji kama kigezo, na kujaribu kwenye L2 nyingi. Utoaji wa karatasi wa msimbo na data unastahili sifa na unapaswa kuwezesha urudiaji na upanuzi.

8. Maelezo ya Kiufundi

Muundo wa SLABERT unatumia usanifu wa BERT-base wenye vigezo 110M. Vigezo vya mafunzo ni: kiwango cha kujifunza 2e-5, ukubwa wa kundi 32, urefu wa juu wa mfuatano 128, na mizunguko ya mafunzo 10 kwa mafunzo ya awali ya L1 na 5 kwa usafishaji wa L2. Uboreshaji unatumia AdamW na upunguzaji wa uzito 0.01. Lengo la MLM linaficha 15% ya vitambulisho, na 80% hubadilishwa na [MASK], 10% hubadilishwa na vitambulisho vya nasibu, na 10% havibadilishwa.

Uundaji wa hisabati wa lengo la uhamishaji wa kujifunza ni:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

ambapo $\lambda$ ni kipengele cha ukubwa kilichowekwa kuwa 0.5 katika majaribio yetu.

9. Matokeo ya Majaribio

Kielelezo cha 1 (hakijaonyeshwa) kinawasilisha chati ya pau inayolinganisha usahihi wa BLiMP katika lugha za L1. Msingi (Kiingereza pekee) unafikia usahihi wa 83.5%. Kijerumani L1 kinaonyesha uboreshaji wa juu zaidi (+1.7%), wakati Kijapani L1 kinaonyesha kushuka kwa kiwango kikubwa zaidi (-11.4%). Kifaransa na Kipolandi zinaonyesha athari za kati. Matokeo yanathibitisha kwamba umbali wa kiaina unahusiana na uhamishaji hasi.

Jedwali la 1: Usahihi wa BLiMP kwa Lugha ya L1

Lugha ya L1	Usahihi (%)	Mabadiliko kutoka Msingi
Kiingereza (Msingi)	83.5	-
Kijerumani	85.2	+1.7
Kifaransa	81.3	-2.2
Kipolandi	78.6	-4.9
Kiindonesia	76.4	-7.1
Kijapani	72.1	-11.4

10. Uchunguzi Kifani

Fikiria jambo la kisarufi la Kiingereza la makubaliano ya kiima na kitenzi. Katika Kijerumani, ambalo lina mifumo sawa ya makubaliano, muundo unaonyesha usahihi wa juu (92%). Katika Kijapani, ambalo halina makubaliano ya nafsi na idadi, muundo unaonyesha usahihi wa chini (65%). Hii inaonyesha uhamishaji hasi: sarufi ya L1 inaingilia upataji wa L2. Sampuli ya jozi ya sentensi kutoka BLiMP:

Kisarufi: "The dogs run fast."

Isiyo ya kisarufi: "The dogs runs fast."

Muundo wa Kijerumani L1 unatambua kwa usahihi sentensi ya kisarufi 92% ya wakati, wakati muundo wa Kijapani L1 unafanya hivyo 65% tu ya wakati.

11. Maelekezo ya Baadaye

Mfumo wa SLABERT unafungua njia kadhaa za utafiti wa baadaye. Kwanza, kupanua sampuli ya lugha ili kujumuisha lugha zaidi tofauti za kiaina (kwa mfano, Kiarabu, Kichina, Kiswahili) kunaweza kuimarisha matokeo. Pili, kujumuisha umri wa upataji kama kigezo kunaweza kuiga athari za kipindi muhimu katika SLA (Lenneberg, 1967). Tatu, kujaribu kwenye L2 nyingi (kwa mfano, Kihispania, Kifaransa) kungejaribu uwezo wa kujumlisha wa mfumo. Nne, kuchanganya SLABERT na mifano ya kiakili kama Muundo wa Ushindani (MacWhinney, 2005) kunaweza kutoa uigaji wa kweli zaidi. Tano, kutumia mfumo kusoma upungufu wa lugha (kupotea kwa L1 kutokana na utawala wa L2) ni ugani wa asili. Hatimaye, mfumo unaweza kutumika kuunda zana za kujifunza lugha za kibinafsi zinazojirekebisha kulingana na L1 ya mwanafunzi.

12. Marejeleo

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. Katika Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. Katika Proceedings of EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. Katika Proceedings of ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. Katika Proceedings of EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Katika Proceedings of NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. Katika Handbook of Bilingualism: Psycholinguistic Approaches.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. Katika Proceedings of EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. Katika Proceedings of EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. Katika Proceedings of ACL.