ASP का द्वितीय भाषा अर्जन में अनुप्रयोग: इनपुट प्रोसेसिंग सिद्धांत का औपचारिकीकरण

1. परिचय

यह शोधपत्र द्वितीय भाषा अर्जन (SLA) के एक प्रमुख सिद्धांत, वैनपैटन के इनपुट प्रोसेसिंग (IP) सिद्धांत को औपचारिक रूप देने एवं विश्लेषित करने हेतु आंसर सेट प्रोग्रामिंग (ASP) के एक नवीन अंतर-अनुशासनिक अनुप्रयोग को प्रस्तुत करता है। संबोधित की गई मूल चुनौती है - भाषा सीखने वालों द्वारा प्रयुक्त डिफ़ॉल्ट संज्ञानात्मक रणनीतियों का वर्णन करने वाले एक गुणात्मक, प्राकृतिक-भाषा आधारित सिद्धांत को एक सटीक, गणनीय मॉडल में अनुवादित करना। यह औपचारिकीकरण सिद्धांत के पूर्वानुमानों के स्वचालित परीक्षण, इसके सिद्धांतों का परिष्करण, तथा PIas प्रणाली जैसे व्यावहारिक उपकरणों के विकास को संभव बनाता है जो भाषा प्रशिक्षकों की सहायता कर सकते हैं।

2. पृष्ठभूमि एवं सैद्धांतिक रूपरेखा

2.1. आंसर सेट प्रोग्रामिंग (ASP)

ASP तर्क प्रोग्रामिंग की स्थिर मॉडल (आंसर सेट) शब्दार्थ पर आधारित एक घोषणात्मक प्रोग्रामिंग प्रतिमान है। यह डिफ़ॉल्ट तर्क, अपूर्ण सूचना, एवं गतिशील डोमेन का प्रतिनिधित्व करने में उत्कृष्ट है - ये सभी विशेषताएँ मानव संज्ञानात्मक प्रक्रियाओं के मॉडलिंग के केंद्र में हैं। ASP में एक नियम का स्वरूप होता है: head :- body., जहाँ शरीर (body) संतुष्ट होने पर शीर्ष (head) सत्य होता है। डिफ़ॉल्ट्स को विफलता के रूप में निषेध (not) का उपयोग करके सुंदर ढंग से प्रस्तुत किया जा सकता है।

2.2. इनपुट प्रोसेसिंग सिद्धांत

वैनपैटन द्वारा प्रस्तावित, IP सिद्धांत यह मानता है कि द्वितीय भाषा सीखने वाले, विशेषकर शुरुआती, सीमित प्रोसेसिंग संसाधनों (कार्यशील स्मृति) और अपूर्ण व्याकरणिक ज्ञान के कारण इनपुट से अर्थ निकालने के लिए डिफ़ॉल्ट अनुमानी विधियों का एक सेट उपयोग करते हैं। एक प्रमुख सिद्धांत है प्रथम संज्ञा सिद्धांत: सीखने वाले वाक्य में मिलने वाले पहले संज्ञा या सर्वनाम को कर्ता/विषय की भूमिका देने की प्रवृत्ति रखते हैं। इससे व्यवस्थित गलत व्याख्याएँ होती हैं, जैसे कि कर्मवाच्य वाक्य "The cat was bitten by the dog" की व्याख्या "The cat bit the dog" के रूप में करना।

3. ASP में इनपुट प्रोसेसिंग का औपचारिकीकरण

3.1. डिफ़ॉल्ट रणनीतियों का मॉडलिंग

IP सिद्धांतों को ASP नियमों के रूप में कोडित किया गया है। उदाहरण के लिए, प्रथम संज्ञा सिद्धांत को एक डिफ़ॉल्ट नियम के रूप में प्रस्तुत किया जा सकता है जो तब लागू होता है जब संसाधन सीमाओं के कारण व्याकरणिक संकेत (जैसे कर्मवाच्य चिह्न) प्रोसेस नहीं किए जाते:

% डिफ़ॉल्ट: पहली संज्ञा को कर्ता की भूमिका दें
assign_agent(FirstNoun, Event) :-
    sentence_word(FirstNoun, Position1, Noun),
    sentence_word(Verb, Position2, VerbLex),
    Position1 < Position2,
    event(Event, VerbLex),
    not processed(grammatical_cue(passive, Verb)),
    not overridden_by_grammar(Event).

not processed(...) शर्त संसाधन सीमा को दर्शाती है, जो नियम को गैर-एकदिशीय बनाती है।

3.2. शिक्षार्थी ज्ञान एवं संसाधनों का प्रतिनिधित्व

मॉडल में शिक्षार्थी की स्थिति का एक गतिशील प्रतिनिधित्व शामिल है:

शाब्दिक ज्ञान: तथ्य जैसे knows_word(learner, 'dog', noun, animal).
व्याकरणिक ज्ञान: आंतरिक रूप से आत्मसात किए गए नियम (जैसे, कर्मवाच्य के लिए)।
प्रोसेसिंग संसाधन: इन्हें ऐसे बाधाओं के रूप में मॉडल किया गया है जो किसी दिए गए वाक्य में एक साथ प्रोसेस किए जा सकने वाले व्याकरणिक विशेषताओं की संख्या को सीमित करते हैं।

डिफ़ॉल्ट रणनीतियों और अर्जित व्याकरणिक ज्ञान के बीच की अंत:क्रिया को नियम प्राथमिकताओं या रद्दीकरण नियमों के माध्यम से मॉडल किया गया है।

4. PIas प्रणाली: अनुप्रयोग एवं परिणाम

4.1. प्रणाली वास्तुकला

PIas (प्रोसेसिंग इनपुट एज़ अ सिस्टम) एक प्रोटोटाइप है जो एक अंग्रेजी वाक्य और एक शिक्षार्थी प्रोफ़ाइल (अनुमानित प्रवीणता स्तर, ज्ञात शब्दावली/व्याकरण) को इनपुट के रूप में लेता है। यह पूर्वानुमानित व्याख्याओं (आंसर सेट) को उत्पन्न करने के लिए औपचारिक ASP मॉडल का उपयोग करता है।

प्रणाली प्रवाह आरेख विवरण: कार्यप्रवाह इनपुट वाक्य और शिक्षार्थी प्रोफ़ाइल डेटा से शुरू होता है। यह ASP ज्ञानकोष में प्रवेश करता है, जिसमें औपचारिक IP नियम, शाब्दिक तथ्य और व्याकरण नियम शामिल हैं। एक ASP सॉल्वर (जैसे, Clingo) स्थिर मॉडलों की गणना करता है। परिणामी आंसर सेट को पूर्वानुमानित व्याख्याओं में पार्स किया जाता है, जिन्हें फिर प्रशिक्षकों के लिए उपयोगकर्ता इंटरफ़ेस के माध्यम से एक पठनीय प्रारूप में प्रस्तुत किया जाता है, जो संभावित गलत व्याख्याओं को उजागर करता है।

4.2. प्रायोगिक पूर्वानुमान एवं सत्यापन

शोधपत्र शास्त्रीय उदाहरणों के लिए प्रणाली के आउटपुट को प्रदर्शित करता है। कर्मवाच्य वाक्य "The cat was bitten by the dog" और एक शुरुआती प्रोफ़ाइल के लिए:

पूर्वानुमानित व्याख्या 1 (डिफ़ॉल्ट): कर्ता=बिल्ली, क्रिया=काटना, कर्म=कुत्ता। (गलत कर्तृवाच्य व्याख्या)।
सही व्याख्या की शर्त: मॉडल सही कर्मवाच्य पठन का पूर्वानुमान केवल तभी लगाता है जब शिक्षार्थी प्रोफ़ाइल में कर्मवाच्य रूप-विज्ञान का प्रोसेस किया गया ज्ञान (processed(grammatical_cue(passive, 'bitten'))) शामिल हो, जो डिफ़ॉल्ट को ओवरराइड कर दे।

ये कम्प्यूटेशनल पूर्वानुमान SLA शोध से प्राप्त अनुभवजन्य अवलोकनों के अनुरूप हैं, जो मॉडल की प्रत्यक्ष वैधता को सत्यापित करते हैं। औपचारिकीकरण ने प्राकृतिक भाषा सिद्धांत में संभावित अस्पष्टताओं को भी उजागर किया, जो परिष्करण का सुझाव देता है।

5. तकनीकी विश्लेषण एवं रूपरेखा

5.1. मूल तार्किक औपचारिकता

मॉडल के मूल को तार्किक बाधाओं का उपयोग करके अमूर्त किया जा सकता है। मान लीजिए $L$ शिक्षार्थी का ज्ञान स्थिति है, $S$ इनपुट वाक्य है, और $R$ उपलब्ध प्रोसेसिंग संसाधन हैं। एक व्याख्या $I$ अर्थपूर्ण भूमिकाओं और संबंधों का एक समुच्चय है। IP सिद्धांत $T$ एक मैपिंग फ़ंक्शन $F_T$ को परिभाषित करता है जो डिफ़ॉल्ट $D$ द्वारा बाध्य है:

$I = F_T(S, L, R) \quad \text{subject to} \quad \sum_{g \in G(S)} \text{cost}(g) \leq R$

जहाँ $G(S)$, $S$ में व्याकरणिक विशेषताओं का समुच्चय है, और $\text{cost}(g)$, $g$ को प्रोसेस करने का संज्ञानात्मक भार है। डिफ़ॉल्ट $D$ लागू होते हैं यदि $g \notin \text{processed}(L, R, S)$।

5.2. विश्लेषण रूपरेखा उदाहरण

केस विश्लेषण: विभिन्न वाक्यात्मक संरचनाओं में प्रथम संज्ञा सिद्धांत।

इनपुट: "The book was given to Mary by John." (द्विकर्मक क्रिया के साथ जटिल कर्मवाच्य)।
शिक्षार्थी प्रोफ़ाइल: शुरुआती; शब्द 'book', 'give', 'Mary', 'John' जानता है; कर्मवाच्य रूप-विज्ञान या संप्रदान कारक संरचना को प्रोसेस नहीं करता।
ASP मॉडल निष्पादन:
1. शाब्दिक पुनर्प्राप्ति: BOOK, GIVE, MARY, JOHN.
2. कर्मवाच्य ('was given') और अप्रत्यक्ष कर्म ('to Mary') के लिए व्याकरणिक प्रोसेसिंग विफल।
3. डिफ़ॉल्ट प्रथम संज्ञा सिद्धांत सक्रिय: BOOK को कर्ता की भूमिका दी गई।
4. डिफ़ॉल्ट रैखिक क्रम रणनीति: अनुक्रम की व्याख्या कर्ता-क्रिया-प्राप्तकर्ता-? के रूप में की जाती है (JOHN की भूमिका अस्पष्ट)।
पूर्वानुमानित आउटपुट: एकाधिक आंसर सेट उत्पन्न हो सकते हैं, जैसे, {agent(BOOK), action(GIVE), recipient(MARY), other_participant(JOHN)} जिससे एक भ्रमित व्याख्या होती है जैसे "The book gave something to Mary (and John was involved)." यह सीखने वालों के लिए भ्रम के एक विशिष्ट क्षेत्र की ओर इशारा करता है जिसे प्रशिक्षक लक्षित कर सकते हैं।

6. आलोचनात्मक विश्लेषण एवं भविष्य की दिशाएँ

विश्लेषक का परिप्रेक्ष्य: मूल अंतर्दृष्टि, तार्किक प्रवाह, शक्तियाँ एवं कमियाँ, क्रियान्वयन योग्य अंतर्दृष्टियाँ

मूल अंतर्दृष्टि: यह कार्य केवल भाषाविज्ञान में एक शानदार AI उपकरण लागू करने के बारे में नहीं है; यह एक मूलभूत SLA सिद्धांत के लिए एक कठोर तनाव परीक्षण है। इनपुट प्रोसेसिंग के अस्पष्ट, वर्णनात्मक नियमों को ASP की निर्दय वाक्य-रचना में मजबूर करके, इंक्लेज़न सिद्धांत की छिपी हुई मान्यताओं और पूर्वानुमानित सीमाओं को उजागर करते हैं। वास्तविक मूल्य कम्प्यूटेशन का उपयोग केवल स्वचालित करने के लिए नहीं, बल्कि मानव-जनित वैज्ञानिक मॉडलों का आलोचनात्मक मूल्यांकन और परिष्करण करने में निहित है - यह एक पद्धति है जो अन्य क्षेत्रों में गुणात्मक सिद्धांतों पर बाल्डुचिनी और गिरोट्टो के कार्य की प्रतिध्वनि है।

तार्किक प्रवाह: शोधपत्र का तर्क प्रभावशाली है: (1) IP सिद्धांत गुणात्मक है और डिफ़ॉल्ट्स पर आधारित → (2) ASP डिफ़ॉल्ट्स और गैर-एकदिशीय तर्क के लिए डिज़ाइन किया गया एक औपचारिकता है → (3) इसलिए, ASP औपचारिकीकरण के लिए एक उपयुक्त उपकरण है → (4) औपचारिकीकरण पूर्वानुमान को सक्षम बनाता है, जो (a) सिद्धांत परिष्करण और (b) व्यावहारिक अनुप्रयोग (PIas) की ओर ले जाता है। यह पाइपलाइन कम्प्यूटेशनल सामाजिक विज्ञान के लिए एक खाका है।

शक्तियाँ एवं कमियाँ: प्राथमिक शक्ति है समस्या और उपकरण के बीच सुंदर अनुरूपता। "सीमित संसाधनों के कारण प्रोसेस करने में विफलता" को मॉडल करने के लिए ASP के विफलता-के-रूप-में-निषेध का उपयोग प्रेरणादायक है। PIas का विकास शुद्ध सिद्धांत से आगे बढ़कर मूर्त उपयोगिता में है। हालाँकि, कमियाँ महत्वपूर्ण हैं। मॉडल अत्यधिक सरलीकृत है, जो मानव संज्ञान की अव्यवस्थित, संभाव्य प्रकृति को नियतात्मक नियमों में घटा देता है। इसमें स्मृति या ध्यान के लिए एक मजबूत संज्ञानात्मक वास्तुकला का अभाव है, जो ACT-R जैसी अधिक व्यापक संज्ञानात्मक मॉडलिंग रूपरेखाओं के विपरीत है। सत्यापन मुख्य रूप से तार्किक ("प्रत्यक्ष वैधता") है न कि अनुभवजन्य, जिसमें वास्तविक शिक्षार्थी डेटा के विरुद्ध बड़े पैमाने पर परीक्षण का अभाव है। शैक्षिक NLP में आधुनिक डेटा-संचालित दृष्टिकोणों (जैसे, शिक्षार्थी त्रुटियों का पूर्वानुमान लगाने के लिए BERT का उपयोग) की तुलना में, यह प्रतीकात्मक दृष्टिकोण सटीक है लेकिन मापनीयता और अनुकूलनशीलता में कमी हो सकती है।

क्रियान्वयन योग्य अंतर्दृष्टियाँ: शोधकर्ताओं के लिए, तत्काल अगला कदम है अनुभवजन्य सत्यापन और मॉडल विस्तार। ASP मॉडल के पूर्वानुमानों का बड़े, एनोटेटेड शिक्षार्थी कोर्पोरा (जैसे, NLP4CALL समुदाय जैसे साझा कार्यों से) के विरुद्ध परीक्षण किया जाना चाहिए। मॉडल को संभाव्य ASP या संकर न्यूरो-प्रतीकात्मक तकनीकों के साथ विस्तारित किया जाना चाहिए ताकि शिक्षार्थी ज्ञान में अनिश्चितता और ग्रेडिएंस को संभाला जा सके, जो तर्क और मशीन लर्निंग को जोड़ने वाले अन्य डोमेन में देखी गई प्रगति के समान है। व्यवसायियों के लिए, PIas प्रोटोटाइप को एक वास्तविक-समय पाठ योजना सहायक में विकसित किया जाना चाहिए, जिसे Duolingo या कक्षा प्रबंधन सॉफ़्टवेयर जैसे प्लेटफ़ॉर्म में एकीकृत किया जाए, ताकि किसी दिए गए कक्षा स्तर के लिए संभावित गलत व्याख्याओं का कारण बनने वाले वाक्यों को स्वचालित रूप से चिह्नित किया जा सके। अंतिम दृष्टि एक द्वि-दिशात्मक मार्ग होनी चाहिए: ऐसे अनुप्रयोगों से शिक्षार्थी अंत:क्रिया डेटा का उपयोग अर्जन के अंतर्निहित कम्प्यूटेशनल मॉडल को लगातार परिष्कृत और पैरामीटराइज़ करने के लिए करना।

भविष्य के अनुप्रयोग एवं शोध दिशाएँ

व्यक्तिगत शिक्षण सामग्री: किसी विशिष्ट शिक्षार्थी के पूर्वानुमानित गलत व्याख्या पैटर्न को लक्षित करने वाले अभ्यासों का गतिशील निर्माण।
स्वचालित निबंध एवं प्रतिक्रिया विश्लेषण: केवल समझ नहीं, बल्कि शिक्षार्थी द्वारा उत्पादित भाषा की व्याख्या करने के लिए मॉडल का विस्तार, त्रुटियों के मूल कारणों का निदान करने के लिए।
संज्ञानात्मक मॉडलों के साथ एकीकरण: ASP नियम-आधारित प्रणाली को कम्प्यूटेशनल संज्ञानात्मक वास्तुकला (जैसे, ACT-R) के साथ जोड़कर स्मृति और प्रोसेसिंग का अधिक मनोवैज्ञानिक रूप से प्रशंसनीय मॉडल बनाना।
अंतर-भाषाई मॉडलिंग: विभिन्न शब्द क्रम वाली भाषाओं (जैसे, जापानी जैसी SOV) के शिक्षार्थियों के लिए IP रणनीतियों को मॉडल करने के लिए इस रूपरेखा को लागू करना, सिद्धांतों की सार्वभौमिकता का परीक्षण करना।
संभाव्य विस्तार: सांकेतिक से संभाव्य आंसर सेट प्रोग्रामिंग (जैसे, P-log) की ओर बढ़ना ताकि विभिन्न व्याख्याओं की संभावना को मॉडल किया जा सके।

7. संदर्भ

Gelfond, M., & Lifschitz, V. (1991). Classical negation in logic programs and disjunctive databases. New Generation Computing, 9(3/4), 365-386.
Niemelä, I. (1999). Logic programs with stable model semantics as a constraint programming paradigm. Annals of Mathematics and Artificial Intelligence, 25(3-4), 241-273.
Balduccini, M., & Girotto, S. (2010). Formalization of psychological knowledge in Answer Set Programming and its application. Theory and Practice of Logic Programming, 10(4-6), 725-740.
VanPatten, B. (2004). Input Processing in Second Language Acquisition. In B. VanPatten (Ed.), Processing Instruction: Theory, Research, and Commentary (pp. 5-31). Lawrence Erlbaum Associates.
Anderson, J. R., Bothell, D., Byrne, M. D., Douglass, S., Lebiere, C., & Qin, Y. (2004). An integrated theory of the mind. Psychological Review, 111(4), 1036–1060. (ACT-R architecture)
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT 2019. (Reference for data-driven NLP contrast)