1. Gabatarwa & Bayyani
Wannan aikin yana bincika koyon harshe na biyu (L2) na tsarin harshe na jijiyoyi (LMs), yana mai da hankali daga binciken da aka saba yi na koyon harshensu na farko (L1). Babbar tambayar bincike ita ce: Ta yaya koyon L1 na LM ke shafar inganci da yanayin koyon nahawunsa na gaba a cikin L2? Binciken ya tsara yanayin koyon L2 mai kama da na ɗan adam don LMs masu amfani da harsuna biyu, yana horar da su a kan L1 (Faransanci, Jamusanci, Rashanci, Japananci) kafin a fallasa su da Ingilishi a matsayin L2. Manufar ita ce nazarin canja wuri tsakanin harsuna daga hangen nesa na harshe, ta amfani da gwaje-gwajen hukunci na nahawu don tantance ƙaddarawar tsarin jumla, wanda ya wuce ma'auni gabaɗaya kamar rudani.
2. Tsarin Gwaji & Hanyoyin Bincike
Tsarin gwajin yana kwaikwayon yanayin koyon L2 na ɗan adam tare da sarrafa fallasar bayanai.
2.1 Matakin Horarwa na Farko (L1)
Ana horar da tsarin harshe mai rufe fuska (misali, bisa tsarin gine-gine kamar BERT) daga farko akan tarin rubutu na harshe guda ɗaya na zaɓaɓɓen L1. Wannan matakin yana kafa ƙwarewar "asali" na harshe na farko na tsarin.
2.2 Matakin Koyon Harshe na Biyu (L2)
Daga nan sai a ci gaba da horar da tsarin da aka horar da L1 (gyara) akan ƙaramin tarin rubutun Ingilishi (L2). Binciken ya bincika yanayin bayanai daban-daban: rubutun harshe guda ɗaya na L2 kawai, ko haɗuwar nau'ikan fassarar layi-layi na L1-L2, tare da ƙuntata girman bayanan horarwa don kwaikwayon shigarwar L2 na ɗan adam na gaske.
2.3 Ƙima: Gwajin Hukunci na Nahawu
Ana bincika ilimin harshe na L2 na tsarin ta amfani da ma'auni na BLiMP (Ma'auni na Ƙananan Nau'i-nau'i na Harshe). BLiMP yana gwada takamaiman abubuwan nahawu (misali, yarjejeniyar mai magana da fi'ili, dogaro tsakanin cika da gibi) ta hanyar sa tsarin ya zaɓi tsakanin jumla mai nahawu da mara nahawu, yana ba da cikakken nazari na ƙaddarawar tsarin jumla.
3. Ra'ayoyin Ƙaddarawa & Hanyoyin Horarwa na L2
Gwaje-gwajen farko sun kwatanta yadda saitunan bayanan horarwa na L2 daban-daban ke shafar saurin koyo da inganci.
3.1 Saitunan Bayanai Na Harshe Guda ɗaya vs. Harsuna Biyu
Horarwa kawai akan rubutun harshe guda ɗaya na L2 kowane zamanni biyu ya haifar da saurin koyon nahawun L2 idan aka kwatanta da saitunan da suka fi rikitarwa.
3.2 Tasirin Rubutun Layi-layi
Abin ban mamaki, ciyar da nau'ikan fassarar L1-L2 ga LM yayin horarwar L2 ya rage saurin koyon ilimin nahawu na L2. Wannan yana nuna cewa daidaitawar layi-layi a fili na iya haifar da hayaniya ko siginar koyo mai cin karo da juna don ƙaddarawar tsarin jumla mai tsafta a farkon matakan koyon L2 na LMs.
4. Sakamakon Gwaji na Babba & Nazari
Babban binciken ya bayyana tasiri mai mahimmanci na L1 akan koyon L2 a cikin LMs.
Mahimman Fahimta
- Canja Wuri Mai Kyau: Horarwa na L1 yana haɓaka da inganta ƙaddarawar harshe a cikin L2.
- Dogaro akan L1: Zaɓin L1 yana shafar aikin L2 sosai.
- Ribobi Na Musamman na Nahawu: Amfanin bai yi daidai ba a cikin abubuwan harshe.
4.1 Ilimin L1 Yana Haɓaka Ƙaddarawar L2
Tsare-tsare tare da horarwa na L1 sun sami mafi kyawun aiki akan ma'auni na BLiMP na Ingilishi bayan fallasar L2 idan aka kwatanta da tsare-tsaren da aka horar da Ingilishi daga farko tare da daidaitattun bayanai. Wannan yana nuna cewa ilimin harshe na baya, ko da daga wani harshe daban, yana ba da ra'ayi mai amfani na ƙaddarawa don koyon sabbin tsarin nahawu.
4.2 Tasiri Daban-daban na Zaɓin L1
Ingancin canja wuri ya bambanta da L1. Tsare-tsare tare da Faransanci ko Jamusanci a matsayin L1 sun nuna ƙarfin ƙaddarawar L2 (Ingilishi) fiye da waɗanda ke da Rashanci ko Japananci a matsayin L1. Wannan ya yi daidai da matakan wahalar koyon harshe na ɗan adam (misali, Chiswick & Miller, 2004), inda kusancin harshe (misali, tushen Jamusanci gama gari don Ingilishi/Jamusanci) ke sauƙaƙa canja wuri.
4.3 Tasirin Canja Wuri Na Musamman na Nahawu
Ƙarfafawa daga horarwa na L1 ya fi bayyana ga abubuwan tsarin siffa (misali, haɗa fi'ili) da tsarin jumla (misali, tsarin kalmomi). Ribobin sun yi ƙanƙanta ga abubuwan ma'ana kawai ko waɗanda ke buƙatar haɗa tsarin jumla da ma'ana. Wannan yana nuna ilimin L1 da farko yana taimakawa wajen koyon ƙa'idodin tsarin gine-gine na L2.
5. Nazarin Tsarin Koyon L2
5.1 Ci Gaba & Rashin Ingancin Bayanai
An gano koyon ilimin L2 yana da rashin ingancin bayanai. Aikin ya inganta sosai kawai bayan an fallasa tsarin ga duka ƙaramin bayanan L2 sau da yawa (misali, zamanni 50-100), ba kamar ɗan adam ba wanda zai iya ƙaddarawa daga ƴan misalai.
5.2 Lalacewar Ilimin L1
Yayin horarwar L2, aikin tsarin akan ayyukansa na asali na L1 ya lalace. Wannan al'amari, wanda yayi kama da "manta mai ban tsoro" a cikin ci gaba da koyo, yana nuna babban bambanci da daidaiton harsuna biyu na ɗan adam kuma yana nuna buƙatar dabarun kiyaye daidaiton ilimin harshe.
6. Cikakkun Bayanai na Fasaha & Tsarin Lissafi
Tushen LM yana dogara ne akan tsarin Transformer da manufar ƙirar harshe mai rufe fuska (MLM). Yayin horarwa na L1, tsarin yana koyo ta hanyar hasashen alamomin da aka rufe bazuwa $w_t$ a cikin jerin $\mathbf{x} = (w_1, ..., w_T)$ bisa ga mahallinsu. Manufar ita ce haɓaka yuwuwar log:
$$\mathcal{L}_{MLM} = \mathbb{E}_{\mathbf{x} \sim \mathcal{D}} \sum_{t \in M} \log P(w_t | \mathbf{x}_{\backslash t}; \theta)$$
inda $M$ shine saitin wuraren da aka rufe, $\mathcal{D}$ shine tarin rubutun L1, kuma $\theta$ sune sigogin tsarin. Yayin koyon L2, ana amfani da wannan manufar akan tarin rubutun L2 $\mathcal{D}_{L2}$, farawa daga sigogi $\theta_{L1}$ da aka gyara zuwa $\theta_{L1+L2}$. Hukuncin nahawu akan BLiMP yana amfani da maki yuwuwar dangin tsarin don ƙaramin nau'i-nau'i $(s_{grammatical}, s_{ungrammatical})$:
$$P(s_{grammatical}) > P(s_{ungrammatical})$$
inda $P(s) = \prod_{t=1}^{T} P(w_t | w_{
7. Sakamako & Bayanin Chati
Hoto na 1 (Zanen Tsarin Gwaji): Zanen yana zayyana tsarin matakai uku a zahiri. Daga hagu zuwa dama: 1) Akwatuna da yawa masu lakabin "LM a cikin Fr," "LM a cikin Ge," da sauransu, suna wakiltar tsare-tsaren L1 daban-daban bayan horarwa. 2) Kibiya mai lakabin "Fallasa zuwa L2 (Ingilishi)" tana nufa daga waɗannan tsare-tsaren zuwa akwati na tsakiya mai ɗauke da rubutun "Tarin Rubutu" da alamar ma'auni na BLiMP. 3) Wata kibiya mai lakabin "Gwada ilimin L2" tana nufa daga akwatin tsakiya zuwa akwatin ƙarshe yana nuna sakamakon ƙima "Aa" (mai yiwuwa yana wakiltar maki daidaito). Zanen yana isar da saƙo mai inganci inda tsare-tsare tare da tushen L1 daban-daban ana sanya su ga tsarin koyo da ƙima iri ɗaya na L2.
Hoto na Sakamako Mai Muhimmanci (Ana nufi): Duk da yake ba a zana shi a fili a cikin rubutun da aka bayar ba, sakamakon yawanci ana gabatar da shi a cikin chat ɗin sanduna ko zane-zanen layi wanda ke nuna: 1) Maki daidaito na BLiMP don Ingilishi (L2) akan axis-y, rukuni ta L1 na tsarin (Faransanci, Jamusanci, Rashanci, Japananci) akan axis-x, yana nuna fa'idar Faransanci/Jamusanci a fili. 2) Zanen layi yana nuna daidaiton L2 (axis-y) akan zamanni/maimaitawar horarwa (axis-x) don tsare-tsaren L1 daban-daban, yana nuna jinkirin, lanƙwan koyo mara ingancin bayanai. 3) Guntun sandunan rukuni yana nuna ribobin riba daga horarwa na L1 don rukunin BLiMP daban-daban (Tsarin Siffa, Tsarin Jumla, Ma'ana, da sauransu), yana nuna manyan ribobi don abubuwan tsarin jumla na yau da kullun.
8. Tsarin Nazari: Misalin Lamari
Nazarin Lamari: Nazarin Canja Wuri L1-L2 don Yarjejeniyar Mai Magana da Fi'ili
1. Al'amari: Ingilishi yana buƙatar jujjuyawar fi'ili don yarda da adadin mai magana (misali, "Kare yana gudu" da "Karnuka suna gudu").
2. Hasashen Tasirin L1: LM da aka horar da Faransanci (wanda ke da yarjejeniya mai yawa tsakanin mai magana da fi'ili) na iya samun wakilci mai ƙarfi don ra'ayin "yarjejeniya" tsakanin abubuwan jumla idan aka kwatanta da LM da aka horar da Japananci (wanda ba shi da haɗa fi'ili don lamba). Wannan ra'ayi na tsarin gine-gine na iya sauƙaƙa koyon takamaiman fahimtar wannan doka a cikin Ingilishi.
3. Gwaji tare da BLiMP: Ana gabatar da tsarin da ƙananan nau'i-nau'i kamar:
Mai Nahawu: Makullin ɗakunan ajiya *yana* kan tebur.
Mara Nahawu: Makullin ɗakunan ajiya *suna* kan tebur.
Dole ne tsarin ya ba da yuwuwar mafi girma ga jumlar mai nahawu.
4. Sakamakon Da Ake Tsammani: Ana hasashen tsarin L1-Faransanci zai sami mafi girman daidaito akan wannan rukunin BLiMP da wuri a cikin horarwar L2 fiye da tsarin L1-Japananci, yana nuna canja wuri mai kyau na ra'ayin nahawu na gine-gine.
5. Aikace-aikacen Tsarin: Za'a iya tsara wannan lamarin ta hanyar bincika wakilcin ciki na tsarin (misali, ta amfani da masu rarrabe cututtuka) bayan horarwa na L1 don ganin ko za'a iya horar da "mai gano yarjejeniyar lamba" cikin sauƙi daga haɗakar tsarin L1-Faransanci. Sa'an nan, bin diddigin lanƙwan aiki akan yarjejeniyar Ingilishi yayin horarwar L2 yana ƙididdige fa'idar canja wuri.
9. Hangen Nesa na Aikace-aikace & Hanyoyin Gaba
- Horar da Tsarin Harsuna Da Yawa Mai Inganci: Fahimta na iya jagorantar dabarun koyon tsarin karatu—horarwa a kan harsunan da suke "kusanci" da harshe kafin a kai hari nesa don inganta ingancin samfurin da aikin ƙarshe.
- Kayan Aikin Koyon Harshe Na Musamman:
- Rage Manta Mai Ban Tsoro: Aikin gaba dole ne ya magance lalacewar L1 yayin koyon L2. Dabarun daga ci gaba da koyo (misali, ƙarfafa nauyin roba, sake kwaikwayon gogewa) za'a iya haɗa su don ƙirƙirar tsare-tsaren da ke kiyaye ƙwarewar harsuna da yawa mai ƙarfi.
- Zurfin Binciken Harshe: Faɗaɗa nazari fiye da tsarin jumla zuwa fahimtar mahallin, magana, da ƙwarewar zamantakewa a cikin koyon L2 na LMs.
- Koyon L2 Tsakanin Hanyoyi Daban-daban: Bincika yadda tsarin gani-da-harshe ke koyon "harshe na biyu" a cikin mahallin hanyoyi daban-daban.
10. Nassoshi
- Oba, M., Kuribayashi, T., Ouchi, H., & Watanabe, T. (2023). Koyon Harshe Na Biyu na Tsarin Harshe na Jijiyoyi. arXiv preprint arXiv:2306.02920.
- Brown, T. B., da sauransu. (2020). Tsarin Harshe ƴan Gwaji ne Masu Koyo. Ci gaba a cikin Tsarin Bayanai na Jijiyoyi, 33, 1877-1901.
- Vaswani, A., da sauransu. (2017). Hankali Shine Abinda Kake Bukata Kawai. Ci gaba a cikin Tsarin Bayanai na Jijiyoyi, 30.
- Chiswick, B. R., & Miller, P. W. (2004). Nisa na Harshe: Ma'auni na Ƙididdiga na Nisa Tsakanin Ingilishi da Sauran Harsuna. Jaridar Ci gaban Harsuna Da Yawa da Al'adu Da Yawa, 26(1), 1-11.
- Warstadt, A., Singh, A., & Bowman, S. R. (2020). BLiMP: Ma'auni na Ƙananan Nau'i-nau'i na Harshe. Proceedings of the Society for Computation in Linguistics, 3(1), 217-229.
- Devlin, J., da sauransu. (2019). BERT: Horarwa na Farko na Masu Canzawa Masu Zurfi Biyu don Fahimtar Harshe. Proceedings of NAACL-HLT 2019.
- Kirkpatrick, J., da sauransu. (2017). Shawo kan manta mai ban tsoro a cikin hanyoyin sadarwar jijiyoyi. Proceedings of the National Academy of Sciences, 114(13), 3521-3526.
11. Nazari na Asali & Sharhin Kwararru
Babban Fahimta
Wannan takarda ba wani ƙarin binciken NLP ba ce; juyawa ce mai ƙarfi, wajibi daga kula da LMs a matsayin masu sarrafa "harshe" gabaɗaya zuwa kallon su a matsayin tsarin fahimi da aka kwaikwayi tare da yanayin ci gaba. Babban fahimta shine cewa "harshen asali" na LM yana sassaƙa ra'ayoyinsa na koyo, yana sa canja wuri tsakanin harsuna ba kyauta ba ce amma tsari, mai iya hasashe, kuma tsari mara daidaituwa. Gano cewa bayanan layi-layi na iya hana koyon tsarin jumla wani abu ne mai ban mamaki ga dokar horarwa ta harsuna da yawa, yana nuna cewa koyon L2 na farko a cikin injina, kamar a cikin ɗan adam, na iya amfana da ƙarin nutsewa, fallasar harshe guda ɗaya fiye da ayyukan fassara a fili.
Kwararar Ma'ana
Ma'anar marubutan tana da tsafta abin yabawa: 1) Ware mai canzawa (asin L1) yayin sarrafa gine-gine da bayanan L2. 2) Yi amfani da ƙima mai tushe a harshe (BLiMP) maimakon gyara na musamman, wanda sau da yawa yana haɗa ilimin harshe da dabarun aiki na musamman. 3) Kwatanta da ma'auni na ɗan adam (matakan wahalar harshe), yana ba da mahimmin batu na tabbatar da waje da yawa ba su taɓa yin binciken ML kawai ba. Wannan tsattsauran hanyar bincike yana ba su damar matsawa daga haɗin kai (L1 yana shafar aikin L2) zuwa ga hasashe na injiniya (ilimin tsarin gine-gine yana canzawa).
Ƙarfi & Kurakurai
Ƙarfi: Babban ƙarfin binciken shine gina gada tsakanin fannoni daban-daban. Ta hanyar tsara matsalar dangane da ka'idar SLA, yana haifar da hasashe da ba a saba da su ga NLP ba (misali, gwada canja wuri daban-daban a cikin abubuwan nahawu). Saitin bayanai mai sarrafawa, ma'aunin ɗan adam, sabon abu ne mai ban sha'awa ga tsarin "ƙarin bayanai koyaushe yana da kyau", yana tilasta wa tsare-tsaren ƙaddarawa, ba ƙwaƙwalwa ba.
Kurakurai Masu Muhimmanci: Giwa a cikin ɗaki shine sikelin. Ana gudanar da gwaje-gwajen tare da ƙananan LMs. Kamar yadda binciken "Dokokin Sikelin" daga OpenAI da sauransu ya nuna, halayen tsarin na iya canzawa sosai da girman. Shin fa'idar L1-Faransanci ta ci gaba da riƙe don tsarin sigogi 500B, ko girman iyawa yana mamaye ra'ayi na ƙaddarawa? Bugu da ƙari, mai da hankali kan tsarin jumla ta BLiMP, duk da cikakken bayani, ya yi watsi da fadin filin canja wuri na ma'ana da fahimtar mahallin, waɗanda su ma suke da mahimmanci ga iya magana. An lura da manta mai ban tsoro na L1 kuma yana nuna iyakacin gine-gine idan aka kwatanta da ƙarfin jijiyoyi na kwakwalwar ɗan adam.
Fahimta Mai Aiki
Ga masu aiki, wannan binciken yana ba da tsarin zane don horarwa na dabara. Kar a horar kawai akan miyar harsuna bazuwar. Idan manufar ita ce aiki mai inganci a cikin harshe X, da farko a horar da 'yan uwansa mafi kusancin harshe don tayar da koyon tsarin. Ga masu bincike, ajanda a bayyane take: 1) Ƙara girman gwaje-gwajen zuwa girman LLM na zamani don gwada ƙarfin waɗannan binciken. 2) Haɗa dabarun ci gaba da koyo daga farko don yaƙar lalacewar L1—wannan ba matsala ce ta keɓance ba amma ta tsakiya don gina wakilai masu ƙarfi na harsuna da yawa. 3) Ƙirƙirar ƙarin cikakkun ma'auni na harshe waɗanda suka wuce ƙananan nau'i-nau'i don haɗa da daidaituwar magana da dacewar fahimtar mahallin, watakila ana samun su daga tsarin kamar Tsarin Turai Gama gari don Magana game da Harsuna (CEFR). A ƙarshe, wannan aikin yana canza manufa daga gina tsare-tsaren da suka san harsuna zuwa gina tsare-tsaren da suka koya su ta hanyar da ta dace da ɗan adam—wani buri mai girman kai da wadata.