SLABERT: BERT के साथ द्वितीय भाषा अधिग्रहण का मॉडलिंग

विषय सूची

1. परिचय
2. संबंधित कार्य
3. पद्धति
4. प्रयोग
- 4.1 प्रयोगात्मक सेटअप
- 4.2 परिणाम
5. विश्लेषण
- 5.1 सकारात्मक बनाम नकारात्मक स्थानांतरण
- 5.2 भाषा परिवार दूरी
6. निष्कर्ष
7. मूल विश्लेषण
8. तकनीकी विवरण
9. प्रयोगात्मक परिणाम
10. केस स्टडी
11. भविष्य की दिशाएँ
12. संदर्भ

1. परिचय

द्वितीय भाषा अधिग्रहण (SLA) अनुसंधान ने अंतर-भाषीय स्थानांतरण का व्यापक अध्ययन किया है, जो किसी वक्ता की मातृभाषा [L1] की भाषाई संरचना का किसी विदेशी भाषा [L2] के सफल अधिग्रहण पर प्रभाव है। इस तरह के स्थानांतरण के प्रभाव सकारात्मक (अधिग्रहण को सुविधाजनक बनाना) या नकारात्मक (अधिग्रहण में बाधा डालना) हो सकते हैं। हम पाते हैं कि NLP साहित्य ने नकारात्मक स्थानांतरण की घटना पर पर्याप्त ध्यान नहीं दिया है। L1 और L2 के बीच सकारात्मक और नकारात्मक दोनों प्रकार के स्थानांतरण के पैटर्न को समझने के लिए, हम भाषा मॉडल (LM) में अनुक्रमिक द्वितीय भाषा अधिग्रहण का मॉडल बनाते हैं। इसके अलावा, हम 5 प्रकार की भाषाओं, अर्थात् जर्मन, फ्रेंच, पोलिश, इंडोनेशियाई और जापानी से युक्त एक बहुभाषी आयु-क्रमित CHILDES (MAO-CHILDES) डेटासेट बनाते हैं, ताकि यह समझा जा सके कि मूल बाल-निर्देशित भाषण (CDS) [L1] किस हद तक अंग्रेजी भाषा अधिग्रहण [L2] में मदद या बाधा उत्पन्न कर सकता है।

2. संबंधित कार्य

अंतर-भाषीय स्थानांतरण ने NLP अनुसंधान में काफी ध्यान आकर्षित किया है (Wu and Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017)। इस अधिकांश शोध ने व्यावहारिक निहितार्थों पर ध्यान केंद्रित किया है, जैसे कि सही टोकनाइज़र किस हद तक अंतर-भाषीय स्थानांतरण को अनुकूलित कर सकता है, और मानव द्वितीय भाषा अधिग्रहण में उत्पन्न होने वाले अनुक्रमिक स्थानांतरण संबंधों के प्रकार पर ध्यान नहीं दिया गया है। भाषा मॉडल स्थानांतरण के माध्यम से आगमनात्मक पूर्वाग्रह परीक्षण (TILT) (Papadimitriou and Jurafsky, 2020) जैसे दृष्टिकोण प्रशिक्षण सेटों के भिन्न जोड़ों, जैसे MIDI संगीत और स्पेनिश, के साथ सकारात्मक स्थानांतरण पर ध्यान केंद्रित करते हैं, ताकि यह पता चल सके कि किस प्रकार का डेटा सामान्यीकरणीय संरचनात्मक विशेषताओं को प्रेरित करता है जो भाषाई और गैर-भाषाई डेटा में साझा होती हैं।

3. पद्धति

3.1 डेटासेट निर्माण

हमने CHILDES डेटाबेस से MAO-CHILDES डेटासेट का निर्माण किया, जिसमें पाँच भाषाओं से बाल-निर्देशित भाषण का चयन किया गया: जर्मन (जर्मेनिक), फ्रेंच (रोमांस), पोलिश (स्लाविक), इंडोनेशियाई (ऑस्ट्रोनेशियाई), और जापानी (जैपोनिक)। डेटासेट आयु-क्रमित है ताकि भाषा अधिग्रहण की अनुक्रमिक प्रकृति का अनुकरण किया जा सके। प्रत्येक भाषा उपसमूह में 2-5 वर्ष की आयु के बच्चों को संबोधित देखभाल करने वालों के लगभग 50,000 उच्चारण शामिल हैं।

3.2 मॉडल आर्किटेक्चर

हमारा SLABERT ढाँचा BERT-बेस आर्किटेक्चर (Devlin et al., 2019) पर आधारित है, जिसमें 12 ट्रांसफॉर्मर परतें, 768 छिपे हुए आयाम और 12 ध्यान शीर्ष हैं। हम दो-चरणीय प्रशिक्षण प्रक्रिया का उपयोग करते हैं: पहले, मॉडल को L1 CDS डेटा पर पूर्व-प्रशिक्षित किया जाता है, फिर L2 (अंग्रेजी) CDS डेटा पर फाइन-ट्यून किया जाता है। यह अनुक्रमिक प्रशिक्षण मानव SLA प्रक्रिया को दर्शाता है जहाँ L2 से पहले L1 प्राप्त किया जाता है।

3.3 प्रशिक्षण प्रक्रिया

प्रशिक्षण प्रक्रिया TILT-आधारित अंतर-भाषीय स्थानांतरण शिक्षण दृष्टिकोण का अनुसरण करती है। मॉडल को पहले 15% की मास्किंग दर के साथ मास्क्ड भाषा मॉडलिंग (MLM) उद्देश्य का उपयोग करके L1 डेटा पर प्रशिक्षित किया जाता है। इसके बाद, मॉडल को उसी MLM उद्देश्य के साथ अंग्रेजी CDS डेटा पर फाइन-ट्यून किया जाता है। हानि फलन को इस प्रकार परिभाषित किया गया है:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

जहाँ $\mathcal{M}$ मास्क्ड स्थितियों का समूह है और $x_{\backslash \mathcal{M}}$ अनमास्क्ड टोकन का प्रतिनिधित्व करता है।

4. प्रयोग

4.1 प्रयोगात्मक सेटअप

हम अपने मॉडलों का मूल्यांकन BLiMP (अंग्रेजी के लिए भाषाई न्यूनतम जोड़ी बेंचमार्क) व्याकरण परीक्षण सूट (Warstadt et al., 2020) पर करते हैं, जिसमें 13 श्रेणियों में संगठित 67 व्याकरणिक घटनाएँ शामिल हैं। हम विभिन्न L1 भाषाओं पर प्रशिक्षित मॉडलों की तुलना एक आधारभूत मॉडल से करते हैं जो केवल अंग्रेजी CDS डेटा पर प्रशिक्षित है। मूल्यांकन मीट्रिक BLiMP परीक्षण सेट पर सटीकता है।

4.2 परिणाम

तालिका 1 विभिन्न L1 भाषाओं के साथ प्रशिक्षित मॉडलों के लिए BLiMP सटीकता दर्शाती है। जर्मन L1 उच्चतम सकारात्मक स्थानांतरण (85.2%) दर्शाता है, जबकि जापानी L1 सबसे कम (72.1%) दर्शाता है, जो भाषा परिवार दूरी के पूर्वानुमानों के अनुरूप है। फ्रेंच और पोलिश मध्यवर्ती परिणाम दर्शाते हैं (क्रमशः 81.3% और 78.6%)। इंडोनेशियाई 76.4% सटीकता दर्शाता है।

5. विश्लेषण

5.1 सकारात्मक बनाम नकारात्मक स्थानांतरण

हम देखते हैं कि अंग्रेजी के समान परिवार (जर्मेनिक) की भाषाएँ मुख्य रूप से सकारात्मक स्थानांतरण दर्शाती हैं, जबकि दूर के परिवारों (जैपोनिक) की भाषाएँ महत्वपूर्ण नकारात्मक स्थानांतरण दर्शाती हैं। यह मानव SLA अनुसंधान के अनुरूप है जो दर्शाता है कि टाइपोलॉजिकल दूरी स्थानांतरण प्रभावों की भविष्यवाणी करती है (Jarvis and Pavlenko, 2007)।

5.2 भाषा परिवार दूरी

हम फाइलोजेनेटिक दूरी मीट्रिक का उपयोग करके भाषा परिवार दूरी को मापते हैं। भाषा परिवार दूरी और नकारात्मक स्थानांतरण के बीच सहसंबंध सांख्यिकीय रूप से महत्वपूर्ण है (पियर्सन का r = -0.89, p < 0.05)। यह सुझाव देता है कि SLABERT ढाँचा टाइपोलॉजिकल संबंधों के अध्ययन के लिए एक कम्प्यूटेशनल मॉडल के रूप में काम कर सकता है।

6. निष्कर्ष

हमारा SLABERT ढाँचा द्वितीय भाषा अधिग्रहण में सकारात्मक और नकारात्मक दोनों अंतर-भाषीय स्थानांतरण प्रभावों को सफलतापूर्वक मॉडल करता है। हम पाते हैं कि भाषा परिवार दूरी नकारात्मक स्थानांतरण की भविष्यवाणी करती है, और संवादात्मक भाषण डेटा स्क्रिप्टेड भाषण डेटा की तुलना में भाषा अधिग्रहण के लिए अधिक सुविधा दर्शाता है। हमारे निष्कर्ष ट्रांसफॉर्मर-आधारित SLA मॉडलों का उपयोग करके आगे के शोध का आह्वान करते हैं, और हम इसे प्रोत्साहित करने के लिए अपना कोड, डेटा और मॉडल जारी करते हैं।

7. मूल विश्लेषण

मुख्य अंतर्दृष्टि: SLABERT कम्प्यूटेशनल भाषाविज्ञान और द्वितीय भाषा अधिग्रहण अनुसंधान के बीच एक साहसिक प्रयास है, लेकिन यह एक मूलभूत सीमा से ग्रस्त है: यह भाषा मॉडल पूर्व-प्रशिक्षण को मानव भाषा अधिग्रहण के बराबर मानता है, SLA के शारीरिक, सामाजिक और संज्ञानात्मक आयामों की उपेक्षा करता है। पेपर का मुख्य योगदान यह प्रदर्शित करना है कि BERT अंतर-भाषीय स्थानांतरण प्रभावों का अनुकरण कर सकता है, लेकिन यह एक संकीर्ण जीत है।

तार्किक प्रवाह: लेखक अंतर-भाषीय स्थानांतरण की सुस्थापित SLA अवधारणा से शुरू करते हैं, फिर इसे मॉडल करने के लिए एक कम्प्यूटेशनल ढाँचा बनाते हैं। तर्क सही है: यदि LM डेटा से भाषाई संरचना सीख सकते हैं, तो L1 पर अनुक्रमिक प्रशिक्षण और फिर L2 पर स्थानांतरण प्रभावों को प्रकट करना चाहिए। MAO-CHILDES डेटासेट का निर्माण एक व्यावहारिक नवाचार है, जो पारिस्थितिक रूप से मान्य बाल-निर्देशित भाषण डेटा प्रदान करता है। मूल्यांकन के लिए BLiMP का उपयोग उपयुक्त है, क्योंकि यह व्याकरणिक ज्ञान का परीक्षण करता है।

शक्तियाँ और कमजोरियाँ: मुख्य शक्ति SLA के लिए TILT-आधारित स्थानांतरण शिक्षण का नवीन अनुप्रयोग है, जो एक नई शोध दिशा खोलता है। यह निष्कर्ष कि भाषा परिवार दूरी नकारात्मक स्थानांतरण की भविष्यवाणी करती है, सम्मोहक है और मानव अध्ययनों के अनुरूप है। हालाँकि, पेपर में महत्वपूर्ण कमियाँ हैं। पहला, पाँच भाषाओं का नमूना आकार मजबूत टाइपोलॉजिकल निष्कर्षों के लिए बहुत छोटा है। दूसरा, मॉडल अधिग्रहण की आयु के प्रभावों को ध्यान में नहीं रखता है, जो मानव SLA में महत्वपूर्ण हैं (Lenneberg, 1967)। तीसरा, मूल्यांकन अंग्रेजी व्याकरण तक सीमित है; हम नहीं जानते कि मॉडल अन्य L2 में सामान्यीकरण करता है या नहीं। चौथा, पेपर में प्रतिस्पर्धा मॉडल (MacWhinney, 2005) जैसे पारंपरिक SLA मॉडलों के साथ तुलना का अभाव है।

कार्रवाई योग्य अंतर्दृष्टि: शोधकर्ताओं के लिए, यह कार्य सुझाव देता है कि ट्रांसफॉर्मर-आधारित मॉडल SLA अनुसंधान के लिए उपयोगी उपकरण हो सकते हैं, लेकिन उन्हें संज्ञानात्मक मॉडलों के साथ जोड़ा जाना चाहिए। चिकित्सकों के लिए, यह निष्कर्ष कि संवादात्मक भाषण डेटा स्क्रिप्टेड डेटा की तुलना में अधिक प्रभावी है, भाषा शिक्षण सामग्री के लिए निहितार्थ रखता है। भविष्य के कार्य में भाषा के नमूने का विस्तार करना चाहिए, अधिग्रहण की आयु को एक चर के रूप में शामिल करना चाहिए, और कई L2 पर परीक्षण करना चाहिए। पेपर द्वारा कोड और डेटा का विमोचन सराहनीय है और इससे प्रतिकृति और विस्तार की सुविधा होनी चाहिए।

8. तकनीकी विवरण

SLABERT मॉडल 110M मापदंडों के साथ BERT-बेस आर्किटेक्चर का उपयोग करता है। प्रशिक्षण हाइपरपैरामीटर हैं: सीखने की दर 2e-5, बैच आकार 32, अधिकतम अनुक्रम लंबाई 128, और L1 पूर्व-प्रशिक्षण के लिए 10 प्रशिक्षण युग और L2 फाइन-ट्यूनिंग के लिए 5 युग। अनुकूलन वजन क्षय 0.01 के साथ AdamW का उपयोग करता है। MLM उद्देश्य 15% टोकन को मास्क करता है, जिसमें 80% को [MASK] से बदल दिया जाता है, 10% को यादृच्छिक टोकन से बदल दिया जाता है, और 10% अपरिवर्तित रहते हैं।

स्थानांतरण शिक्षण उद्देश्य का गणितीय सूत्रीकरण है:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

जहाँ $\lambda$ एक स्केलिंग कारक है जो हमारे प्रयोगों में 0.5 पर सेट है।

9. प्रयोगात्मक परिणाम

चित्र 1 (नहीं दिखाया गया) L1 भाषाओं में BLiMP सटीकता की तुलना करते हुए एक बार चार्ट प्रस्तुत करता है। आधारभूत (केवल अंग्रेजी) 83.5% सटीकता प्राप्त करता है। जर्मन L1 उच्चतम सुधार (+1.7%) दर्शाता है, जबकि जापानी L1 सबसे बड़ी गिरावट (-11.4%) दर्शाता है। फ्रेंच और पोलिश मध्यवर्ती प्रभाव दर्शाते हैं। परिणाम पुष्टि करते हैं कि टाइपोलॉजिकल दूरी नकारात्मक स्थानांतरण से संबंधित है।

तालिका 1: L1 भाषा के अनुसार BLiMP सटीकता

L1 भाषा	सटीकता (%)	आधारभूत से परिवर्तन
अंग्रेजी (आधारभूत)	83.5	-
जर्मन	85.2	+1.7
फ्रेंच	81.3	-2.2
पोलिश	78.6	-4.9
इंडोनेशियाई	76.4	-7.1
जापानी	72.1	-11.4

10. केस स्टडी

अंग्रेजी व्याकरणिक घटना कर्ता-क्रिया अनुबंध पर विचार करें। जर्मन में, जिसमें समान अनुबंध पैटर्न हैं, मॉडल उच्च सटीकता (92%) दर्शाता है। जापानी में, जिसमें व्यक्ति-संख्या अनुबंध का अभाव है, मॉडल कम सटीकता (65%) दर्शाता है। यह नकारात्मक स्थानांतरण को प्रदर्शित करता है: L1 व्याकरण L2 अधिग्रहण में हस्तक्षेप करता है। BLiMP से एक नमूना वाक्य जोड़ी:

व्याकरणिक: "The dogs run fast."

अव्याकरणिक: "The dogs runs fast."

जर्मन L1 मॉडल 92% समय व्याकरणिक वाक्य की सही पहचान करता है, जबकि जापानी L1 मॉडल केवल 65% समय।

11. भविष्य की दिशाएँ

SLABERT ढाँचा भविष्य के शोध के लिए कई रास्ते खोलता है। पहला, अधिक टाइपोलॉजिकल रूप से विविध भाषाओं (जैसे, अरबी, मंदारिन, स्वाहिली) को शामिल करने के लिए भाषा के नमूने का विस्तार करने से निष्कर्ष मजबूत होंगे। दूसरा, अधिग्रहण की आयु को एक चर के रूप में शामिल करने से SLA में महत्वपूर्ण अवधि प्रभावों का मॉडल बनाया जा सकता है (Lenneberg, 1967)। तीसरा, कई L2 (जैसे, स्पेनिश, फ्रेंच) पर परीक्षण करने से ढाँचे की सामान्यीकरण क्षमता का परीक्षण होगा। चौथा, SLABERT को प्रतिस्पर्धा मॉडल (MacWhinney, 2005) जैसे संज्ञानात्मक मॉडलों के साथ जोड़ने से अधिक यथार्थवादी अनुकरण प्रदान हो सकते हैं। पाँचवाँ, भाषा क्षरण (L2 प्रभुत्व के कारण L1 का नुकसान) के अध्ययन के लिए ढाँचे को लागू करना एक स्वाभाविक विस्तार है। अंत में, ढाँचे का उपयोग व्यक्तिगत भाषा सीखने के उपकरण विकसित करने के लिए किया जा सकता है जो शिक्षार्थी के L1 के अनुकूल होते हैं।

12. संदर्भ

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In Proceedings of EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In Proceedings of ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In Proceedings of EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. In Handbook of Bilingualism: Psycholinguistic Approaches.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In Proceedings of EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In Proceedings of EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.