भाषा चुनें

SLABERT: BERT के साथ द्वितीय भाषा अधिग्रहण का मॉडलिंग

BERT का उपयोग करके द्वितीय भाषा अधिग्रहण में अंतर-भाषीय स्थानांतरण प्रभावों को मॉडल करने वाला एक नवीन ढाँचा, जो पाँच प्रकार की भाषाओं में सकारात्मक और नकारात्मक स्थानांतरण का विश्लेषण करता है।
study-chinese.com | PDF Size: 4.7 MB
रेटिंग: 4.5/5
आपकी रेटिंग
आपने पहले ही इस दस्तावेज़ को रेट कर दिया है
PDF दस्तावेज़ कवर - SLABERT: BERT के साथ द्वितीय भाषा अधिग्रहण का मॉडलिंग

विषय सूची

1. परिचय

द्वितीय भाषा अधिग्रहण (SLA) अनुसंधान ने अंतर-भाषीय स्थानांतरण का व्यापक अध्ययन किया है, जो किसी वक्ता की मातृभाषा [L1] की भाषाई संरचना का किसी विदेशी भाषा [L2] के सफल अधिग्रहण पर प्रभाव है। इस तरह के स्थानांतरण के प्रभाव सकारात्मक (अधिग्रहण को सुविधाजनक बनाना) या नकारात्मक (अधिग्रहण में बाधा डालना) हो सकते हैं। हम पाते हैं कि NLP साहित्य ने नकारात्मक स्थानांतरण की घटना पर पर्याप्त ध्यान नहीं दिया है। L1 और L2 के बीच सकारात्मक और नकारात्मक दोनों प्रकार के स्थानांतरण के पैटर्न को समझने के लिए, हम भाषा मॉडल (LM) में अनुक्रमिक द्वितीय भाषा अधिग्रहण का मॉडल बनाते हैं। इसके अलावा, हम 5 प्रकार की भाषाओं, अर्थात् जर्मन, फ्रेंच, पोलिश, इंडोनेशियाई और जापानी से युक्त एक बहुभाषी आयु-क्रमित CHILDES (MAO-CHILDES) डेटासेट बनाते हैं, ताकि यह समझा जा सके कि मूल बाल-निर्देशित भाषण (CDS) [L1] किस हद तक अंग्रेजी भाषा अधिग्रहण [L2] में मदद या बाधा उत्पन्न कर सकता है।

2. संबंधित कार्य

अंतर-भाषीय स्थानांतरण ने NLP अनुसंधान में काफी ध्यान आकर्षित किया है (Wu and Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017)। इस अधिकांश शोध ने व्यावहारिक निहितार्थों पर ध्यान केंद्रित किया है, जैसे कि सही टोकनाइज़र किस हद तक अंतर-भाषीय स्थानांतरण को अनुकूलित कर सकता है, और मानव द्वितीय भाषा अधिग्रहण में उत्पन्न होने वाले अनुक्रमिक स्थानांतरण संबंधों के प्रकार पर ध्यान नहीं दिया गया है। भाषा मॉडल स्थानांतरण के माध्यम से आगमनात्मक पूर्वाग्रह परीक्षण (TILT) (Papadimitriou and Jurafsky, 2020) जैसे दृष्टिकोण प्रशिक्षण सेटों के भिन्न जोड़ों, जैसे MIDI संगीत और स्पेनिश, के साथ सकारात्मक स्थानांतरण पर ध्यान केंद्रित करते हैं, ताकि यह पता चल सके कि किस प्रकार का डेटा सामान्यीकरणीय संरचनात्मक विशेषताओं को प्रेरित करता है जो भाषाई और गैर-भाषाई डेटा में साझा होती हैं।

3. पद्धति

3.1 डेटासेट निर्माण

हमने CHILDES डेटाबेस से MAO-CHILDES डेटासेट का निर्माण किया, जिसमें पाँच भाषाओं से बाल-निर्देशित भाषण का चयन किया गया: जर्मन (जर्मेनिक), फ्रेंच (रोमांस), पोलिश (स्लाविक), इंडोनेशियाई (ऑस्ट्रोनेशियाई), और जापानी (जैपोनिक)। डेटासेट आयु-क्रमित है ताकि भाषा अधिग्रहण की अनुक्रमिक प्रकृति का अनुकरण किया जा सके। प्रत्येक भाषा उपसमूह में 2-5 वर्ष की आयु के बच्चों को संबोधित देखभाल करने वालों के लगभग 50,000 उच्चारण शामिल हैं।

3.2 मॉडल आर्किटेक्चर

हमारा SLABERT ढाँचा BERT-बेस आर्किटेक्चर (Devlin et al., 2019) पर आधारित है, जिसमें 12 ट्रांसफॉर्मर परतें, 768 छिपे हुए आयाम और 12 ध्यान शीर्ष हैं। हम दो-चरणीय प्रशिक्षण प्रक्रिया का उपयोग करते हैं: पहले, मॉडल को L1 CDS डेटा पर पूर्व-प्रशिक्षित किया जाता है, फिर L2 (अंग्रेजी) CDS डेटा पर फाइन-ट्यून किया जाता है। यह अनुक्रमिक प्रशिक्षण मानव SLA प्रक्रिया को दर्शाता है जहाँ L2 से पहले L1 प्राप्त किया जाता है।

3.3 प्रशिक्षण प्रक्रिया

प्रशिक्षण प्रक्रिया TILT-आधारित अंतर-भाषीय स्थानांतरण शिक्षण दृष्टिकोण का अनुसरण करती है। मॉडल को पहले 15% की मास्किंग दर के साथ मास्क्ड भाषा मॉडलिंग (MLM) उद्देश्य का उपयोग करके L1 डेटा पर प्रशिक्षित किया जाता है। इसके बाद, मॉडल को उसी MLM उद्देश्य के साथ अंग्रेजी CDS डेटा पर फाइन-ट्यून किया जाता है। हानि फलन को इस प्रकार परिभाषित किया गया है:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

जहाँ $\mathcal{M}$ मास्क्ड स्थितियों का समूह है और $x_{\backslash \mathcal{M}}$ अनमास्क्ड टोकन का प्रतिनिधित्व करता है।

4. प्रयोग

4.1 प्रयोगात्मक सेटअप

हम अपने मॉडलों का मूल्यांकन BLiMP (अंग्रेजी के लिए भाषाई न्यूनतम जोड़ी बेंचमार्क) व्याकरण परीक्षण सूट (Warstadt et al., 2020) पर करते हैं, जिसमें 13 श्रेणियों में संगठित 67 व्याकरणिक घटनाएँ शामिल हैं। हम विभिन्न L1 भाषाओं पर प्रशिक्षित मॉडलों की तुलना एक आधारभूत मॉडल से करते हैं जो केवल अंग्रेजी CDS डेटा पर प्रशिक्षित है। मूल्यांकन मीट्रिक BLiMP परीक्षण सेट पर सटीकता है।

4.2 परिणाम

तालिका 1 विभिन्न L1 भाषाओं के साथ प्रशिक्षित मॉडलों के लिए BLiMP सटीकता दर्शाती है। जर्मन L1 उच्चतम सकारात्मक स्थानांतरण (85.2%) दर्शाता है, जबकि जापानी L1 सबसे कम (72.1%) दर्शाता है, जो भाषा परिवार दूरी के पूर्वानुमानों के अनुरूप है। फ्रेंच और पोलिश मध्यवर्ती परिणाम दर्शाते हैं (क्रमशः 81.3% और 78.6%)। इंडोनेशियाई 76.4% सटीकता दर्शाता है।

5. विश्लेषण

5.1 सकारात्मक बनाम नकारात्मक स्थानांतरण

हम देखते हैं कि अंग्रेजी के समान परिवार (जर्मेनिक) की भाषाएँ मुख्य रूप से सकारात्मक स्थानांतरण दर्शाती हैं, जबकि दूर के परिवारों (जैपोनिक) की भाषाएँ महत्वपूर्ण नकारात्मक स्थानांतरण दर्शाती हैं। यह मानव SLA अनुसंधान के अनुरूप है जो दर्शाता है कि टाइपोलॉजिकल दूरी स्थानांतरण प्रभावों की भविष्यवाणी करती है (Jarvis and Pavlenko, 2007)।

5.2 भाषा परिवार दूरी

हम फाइलोजेनेटिक दूरी मीट्रिक का उपयोग करके भाषा परिवार दूरी को मापते हैं। भाषा परिवार दूरी और नकारात्मक स्थानांतरण के बीच सहसंबंध सांख्यिकीय रूप से महत्वपूर्ण है (पियर्सन का r = -0.89, p < 0.05)। यह सुझाव देता है कि SLABERT ढाँचा टाइपोलॉजिकल संबंधों के अध्ययन के लिए एक कम्प्यूटेशनल मॉडल के रूप में काम कर सकता है।

6. निष्कर्ष

हमारा SLABERT ढाँचा द्वितीय भाषा अधिग्रहण में सकारात्मक और नकारात्मक दोनों अंतर-भाषीय स्थानांतरण प्रभावों को सफलतापूर्वक मॉडल करता है। हम पाते हैं कि भाषा परिवार दूरी नकारात्मक स्थानांतरण की भविष्यवाणी करती है, और संवादात्मक भाषण डेटा स्क्रिप्टेड भाषण डेटा की तुलना में भाषा अधिग्रहण के लिए अधिक सुविधा दर्शाता है। हमारे निष्कर्ष ट्रांसफॉर्मर-आधारित SLA मॉडलों का उपयोग करके आगे के शोध का आह्वान करते हैं, और हम इसे प्रोत्साहित करने के लिए अपना कोड, डेटा और मॉडल जारी करते हैं।

7. मूल विश्लेषण

मुख्य अंतर्दृष्टि: SLABERT कम्प्यूटेशनल भाषाविज्ञान और द्वितीय भाषा अधिग्रहण अनुसंधान के बीच एक साहसिक प्रयास है, लेकिन यह एक मूलभूत सीमा से ग्रस्त है: यह भाषा मॉडल पूर्व-प्रशिक्षण को मानव भाषा अधिग्रहण के बराबर मानता है, SLA के शारीरिक, सामाजिक और संज्ञानात्मक आयामों की उपेक्षा करता है। पेपर का मुख्य योगदान यह प्रदर्शित करना है कि BERT अंतर-भाषीय स्थानांतरण प्रभावों का अनुकरण कर सकता है, लेकिन यह एक संकीर्ण जीत है।

तार्किक प्रवाह: लेखक अंतर-भाषीय स्थानांतरण की सुस्थापित SLA अवधारणा से शुरू करते हैं, फिर इसे मॉडल करने के लिए एक कम्प्यूटेशनल ढाँचा बनाते हैं। तर्क सही है: यदि LM डेटा से भाषाई संरचना सीख सकते हैं, तो L1 पर अनुक्रमिक प्रशिक्षण और फिर L2 पर स्थानांतरण प्रभावों को प्रकट करना चाहिए। MAO-CHILDES डेटासेट का निर्माण एक व्यावहारिक नवाचार है, जो पारिस्थितिक रूप से मान्य बाल-निर्देशित भाषण डेटा प्रदान करता है। मूल्यांकन के लिए BLiMP का उपयोग उपयुक्त है, क्योंकि यह व्याकरणिक ज्ञान का परीक्षण करता है।

शक्तियाँ और कमजोरियाँ: मुख्य शक्ति SLA के लिए TILT-आधारित स्थानांतरण शिक्षण का नवीन अनुप्रयोग है, जो एक नई शोध दिशा खोलता है। यह निष्कर्ष कि भाषा परिवार दूरी नकारात्मक स्थानांतरण की भविष्यवाणी करती है, सम्मोहक है और मानव अध्ययनों के अनुरूप है। हालाँकि, पेपर में महत्वपूर्ण कमियाँ हैं। पहला, पाँच भाषाओं का नमूना आकार मजबूत टाइपोलॉजिकल निष्कर्षों के लिए बहुत छोटा है। दूसरा, मॉडल अधिग्रहण की आयु के प्रभावों को ध्यान में नहीं रखता है, जो मानव SLA में महत्वपूर्ण हैं (Lenneberg, 1967)। तीसरा, मूल्यांकन अंग्रेजी व्याकरण तक सीमित है; हम नहीं जानते कि मॉडल अन्य L2 में सामान्यीकरण करता है या नहीं। चौथा, पेपर में प्रतिस्पर्धा मॉडल (MacWhinney, 2005) जैसे पारंपरिक SLA मॉडलों के साथ तुलना का अभाव है।

कार्रवाई योग्य अंतर्दृष्टि: शोधकर्ताओं के लिए, यह कार्य सुझाव देता है कि ट्रांसफॉर्मर-आधारित मॉडल SLA अनुसंधान के लिए उपयोगी उपकरण हो सकते हैं, लेकिन उन्हें संज्ञानात्मक मॉडलों के साथ जोड़ा जाना चाहिए। चिकित्सकों के लिए, यह निष्कर्ष कि संवादात्मक भाषण डेटा स्क्रिप्टेड डेटा की तुलना में अधिक प्रभावी है, भाषा शिक्षण सामग्री के लिए निहितार्थ रखता है। भविष्य के कार्य में भाषा के नमूने का विस्तार करना चाहिए, अधिग्रहण की आयु को एक चर के रूप में शामिल करना चाहिए, और कई L2 पर परीक्षण करना चाहिए। पेपर द्वारा कोड और डेटा का विमोचन सराहनीय है और इससे प्रतिकृति और विस्तार की सुविधा होनी चाहिए।

8. तकनीकी विवरण

SLABERT मॉडल 110M मापदंडों के साथ BERT-बेस आर्किटेक्चर का उपयोग करता है। प्रशिक्षण हाइपरपैरामीटर हैं: सीखने की दर 2e-5, बैच आकार 32, अधिकतम अनुक्रम लंबाई 128, और L1 पूर्व-प्रशिक्षण के लिए 10 प्रशिक्षण युग और L2 फाइन-ट्यूनिंग के लिए 5 युग। अनुकूलन वजन क्षय 0.01 के साथ AdamW का उपयोग करता है। MLM उद्देश्य 15% टोकन को मास्क करता है, जिसमें 80% को [MASK] से बदल दिया जाता है, 10% को यादृच्छिक टोकन से बदल दिया जाता है, और 10% अपरिवर्तित रहते हैं।

स्थानांतरण शिक्षण उद्देश्य का गणितीय सूत्रीकरण है:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

जहाँ $\lambda$ एक स्केलिंग कारक है जो हमारे प्रयोगों में 0.5 पर सेट है।

9. प्रयोगात्मक परिणाम

चित्र 1 (नहीं दिखाया गया) L1 भाषाओं में BLiMP सटीकता की तुलना करते हुए एक बार चार्ट प्रस्तुत करता है। आधारभूत (केवल अंग्रेजी) 83.5% सटीकता प्राप्त करता है। जर्मन L1 उच्चतम सुधार (+1.7%) दर्शाता है, जबकि जापानी L1 सबसे बड़ी गिरावट (-11.4%) दर्शाता है। फ्रेंच और पोलिश मध्यवर्ती प्रभाव दर्शाते हैं। परिणाम पुष्टि करते हैं कि टाइपोलॉजिकल दूरी नकारात्मक स्थानांतरण से संबंधित है।

तालिका 1: L1 भाषा के अनुसार BLiMP सटीकता

L1 भाषासटीकता (%)आधारभूत से परिवर्तन
अंग्रेजी (आधारभूत)83.5-
जर्मन85.2+1.7
फ्रेंच81.3-2.2
पोलिश78.6-4.9
इंडोनेशियाई76.4-7.1
जापानी72.1-11.4

10. केस स्टडी

अंग्रेजी व्याकरणिक घटना कर्ता-क्रिया अनुबंध पर विचार करें। जर्मन में, जिसमें समान अनुबंध पैटर्न हैं, मॉडल उच्च सटीकता (92%) दर्शाता है। जापानी में, जिसमें व्यक्ति-संख्या अनुबंध का अभाव है, मॉडल कम सटीकता (65%) दर्शाता है। यह नकारात्मक स्थानांतरण को प्रदर्शित करता है: L1 व्याकरण L2 अधिग्रहण में हस्तक्षेप करता है। BLiMP से एक नमूना वाक्य जोड़ी:

व्याकरणिक: "The dogs run fast."

अव्याकरणिक: "The dogs runs fast."

जर्मन L1 मॉडल 92% समय व्याकरणिक वाक्य की सही पहचान करता है, जबकि जापानी L1 मॉडल केवल 65% समय।

11. भविष्य की दिशाएँ

SLABERT ढाँचा भविष्य के शोध के लिए कई रास्ते खोलता है। पहला, अधिक टाइपोलॉजिकल रूप से विविध भाषाओं (जैसे, अरबी, मंदारिन, स्वाहिली) को शामिल करने के लिए भाषा के नमूने का विस्तार करने से निष्कर्ष मजबूत होंगे। दूसरा, अधिग्रहण की आयु को एक चर के रूप में शामिल करने से SLA में महत्वपूर्ण अवधि प्रभावों का मॉडल बनाया जा सकता है (Lenneberg, 1967)। तीसरा, कई L2 (जैसे, स्पेनिश, फ्रेंच) पर परीक्षण करने से ढाँचे की सामान्यीकरण क्षमता का परीक्षण होगा। चौथा, SLABERT को प्रतिस्पर्धा मॉडल (MacWhinney, 2005) जैसे संज्ञानात्मक मॉडलों के साथ जोड़ने से अधिक यथार्थवादी अनुकरण प्रदान हो सकते हैं। पाँचवाँ, भाषा क्षरण (L2 प्रभुत्व के कारण L1 का नुकसान) के अध्ययन के लिए ढाँचे को लागू करना एक स्वाभाविक विस्तार है। अंत में, ढाँचे का उपयोग व्यक्तिगत भाषा सीखने के उपकरण विकसित करने के लिए किया जा सकता है जो शिक्षार्थी के L1 के अनुकूल होते हैं।

12. संदर्भ