ভাষা নির্বাচন করুন

SLABERT: দ্বিতীয় ভাষা অর্জনের মডেলিং BERT-এর মাধ্যমে

একটি অভিনব কাঠামো যা BERT ব্যবহার করে দ্বিতীয় ভাষা অর্জনে ক্রস-ভাষিক স্থানান্তর প্রভাব মডেল করে, পাঁচটি টাইপোলজিক্যালি বৈচিত্র্যময় ভাষায় ধনাত্মক ও ঋণাত্মক স্থানান্তর বিশ্লেষণ করে।
study-chinese.com | PDF Size: 4.7 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - SLABERT: দ্বিতীয় ভাষা অর্জনের মডেলিং BERT-এর মাধ্যমে

বিষয়সূচী

1. ভূমিকা

দ্বিতীয় ভাষা অর্জন (SLA) গবেষণায় ক্রস-ভাষিক স্থানান্তর, অর্থাৎ একজন বক্তার মাতৃভাষার [L1] ভাষাগত কাঠামোর প্রভাব একটি বিদেশী ভাষা [L2] সফলভাবে অর্জনের উপর, ব্যাপকভাবে অধ্যয়ন করা হয়েছে। এই ধরনের স্থানান্তরের প্রভাব ধনাত্মক (অর্জন সহজতর করা) বা ঋণাত্মক (অর্জনে বাধা দেওয়া) হতে পারে। আমরা দেখতে পাই যে NLP সাহিত্যে ঋণাত্মক স্থানান্তরের ঘটনাটি পর্যাপ্ত মনোযোগ পায়নি। L1 এবং L2-এর মধ্যে ধনাত্মক ও ঋণাত্মক উভয় স্থানান্তরের ধরণ বোঝার জন্য, আমরা ভাষা মডেলগুলিতে (LM) ক্রমিক দ্বিতীয় ভাষা অর্জনের মডেল তৈরি করি। আরও, আমরা একটি বহুভাষিক বয়স-ক্রমিক CHILDES (MAO-CHILDES) ডেটাসেট তৈরি করি যাতে ৫টি টাইপোলজিক্যালি বৈচিত্র্যময় ভাষা রয়েছে, যেমন জার্মান, ফরাসি, পোলিশ, ইন্দোনেশিয়ান এবং জাপানি, যাতে বোঝা যায় যে মাতৃভাষার শিশু-নির্দেশিত বক্তৃতা (CDS) [L1] কতটা ইংরেজি ভাষা অর্জনে [L2] সাহায্য বা বাধা দিতে পারে।

2. সম্পর্কিত কাজ

ক্রস-ভাষিক স্থানান্তর NLP গবেষণায় যথেষ্ট মনোযোগ পেয়েছে (Wu and Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017)। এই গবেষণার বেশিরভাগই ব্যবহারিক প্রভাবের উপর কেন্দ্রীভূত হয়েছে, যেমন সঠিক টোকেনাইজার কতটা ক্রস-ভাষিক স্থানান্তরকে অনুকূল করতে পারে, এবং মানব দ্বিতীয় ভাষা অর্জনে উদ্ভূত ক্রমিক স্থানান্তর সম্পর্কের দিকে নজর দেয়নি। ইন্ডাকটিভ বায়াসের জন্য ভাষা মডেল স্থানান্তর পরীক্ষা (TILT) (Papadimitriou and Jurafsky, 2020)-এর মতো পদ্ধতিগুলি প্রশিক্ষণ সেটের ভিন্ন জোড়া, যেমন MIDI সঙ্গীত এবং স্প্যানিশ, এর সাথে ধনাত্মক স্থানান্তরের উপর ফোকাস করে, যাতে আলোকপাত করা যায় কোন ধরনের ডেটা সাধারণীকরণযোগ্য কাঠামোগত বৈশিষ্ট্য তৈরি করে যা ভাষাগত এবং অ-ভাষাগত ডেটা ভাগ করে নেয়।

3. পদ্ধতি

3.1 ডেটাসেট নির্মাণ

আমরা CHILDES ডেটাবেস থেকে MAO-CHILDES ডেটাসেট তৈরি করেছি, পাঁচটি ভাষা থেকে শিশু-নির্দেশিত বক্তৃতা নির্বাচন করে: জার্মান (জার্মানিক), ফরাসি (রোমান্স), পোলিশ (স্লাভিক), ইন্দোনেশিয়ান (অস্ট্রোনেশিয়ান), এবং জাপানি (জাপোনিক)। ডেটাসেটটি বয়স-ক্রমিকভাবে সাজানো হয়েছে ভাষা অর্জনের ক্রমিক প্রকৃতি অনুকরণ করার জন্য। প্রতিটি ভাষার উপসেটে ২-৫ বছর বয়সী শিশুদের উদ্দেশ্যে পরিচর্যাকারীদের কাছ থেকে প্রায় ৫০,০০০টি উচ্চারণ রয়েছে।

3.2 মডেল আর্কিটেকচার

আমাদের SLABERT কাঠামোটি BERT-বেস আর্কিটেকচারের (Devlin et al., 2019) উপর ভিত্তি করে তৈরি, যাতে ১২টি ট্রান্সফরমার স্তর, ৭৬৮টি লুকানো মাত্রা এবং ১২টি অ্যাটেনশন হেড রয়েছে। আমরা একটি দ্বি-পর্যায়ের প্রশিক্ষণ প্রক্রিয়া ব্যবহার করি: প্রথমে, মডেলটি L1 CDS ডেটাতে প্রাক-প্রশিক্ষিত হয়, তারপর L2 (ইংরেজি) CDS ডেটাতে সূক্ষ্ম-টিউন করা হয়। এই ক্রমিক প্রশিক্ষণ মানব SLA প্রক্রিয়াকে প্রতিফলিত করে যেখানে L1 L2-এর আগে অর্জিত হয়।

3.3 প্রশিক্ষণ পদ্ধতি

প্রশিক্ষণ পদ্ধতি TILT-ভিত্তিক ক্রস-ভাষিক স্থানান্তর শিক্ষার পদ্ধতি অনুসরণ করে। মডেলটি প্রথমে L1 ডেটাতে মাস্কড ল্যাঙ্গুয়েজ মডেলিং (MLM) উদ্দেশ্য ব্যবহার করে ১৫% মাস্কিং হার সহ প্রশিক্ষিত হয়। পরবর্তীতে, মডেলটি ইংরেজি CDS ডেটাতে একই MLM উদ্দেশ্য নিয়ে সূক্ষ্ম-টিউন করা হয়। লস ফাংশনটি নিম্নরূপ সংজ্ঞায়িত করা হয়েছে:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

যেখানে $\mathcal{M}$ হল মাস্কড অবস্থানের সেট এবং $x_{\backslash \mathcal{M}}$ অমাস্কড টোকেনগুলিকে প্রতিনিধিত্ব করে।

4. পরীক্ষা-নিরীক্ষা

4.1 পরীক্ষামূলক সেটআপ

আমরা আমাদের মডেলগুলি BLiMP (ইংরেজির জন্য ভাষাগত ন্যূনতম জোড়ার বেঞ্চমার্ক) ব্যাকরণ পরীক্ষা স্যুটে (Warstadt et al., 2020) মূল্যায়ন করি, যাতে ১৩টি বিভাগে সংগঠিত ৬৭টি ব্যাকরণগত ঘটনা রয়েছে। আমরা বিভিন্ন L1 ভাষায় প্রশিক্ষিত মডেলগুলিকে শুধুমাত্র ইংরেজি CDS ডেটাতে প্রশিক্ষিত একটি বেসলাইন মডেলের সাথে তুলনা করি। মূল্যায়ন মেট্রিক হল BLiMP পরীক্ষা সেটে নির্ভুলতা।

4.2 ফলাফল

সারণী 1 বিভিন্ন L1 ভাষায় প্রশিক্ষিত মডেলগুলির জন্য BLiMP নির্ভুলতা দেখায়। জার্মান L1 সর্বোচ্চ ধনাত্মক স্থানান্তর (৮৫.২%) দেখায়, যখন জাপানি L1 সর্বনিম্ন (৭২.১%) দেখায়, যা ভাষা পরিবার দূরত্বের পূর্বাভাসের সাথে সামঞ্জস্যপূর্ণ। ফরাসি এবং পোলিশ মধ্যবর্তী ফলাফল দেখায় (যথাক্রমে ৮১.৩% এবং ৭৮.৬%)। ইন্দোনেশিয়ান ৭৬.৪% নির্ভুলতা দেখায়।

5. বিশ্লেষণ

5.1 ধনাত্মক বনাম ঋণাত্মক স্থানান্তর

আমরা লক্ষ্য করি যে ইংরেজির মতো একই পরিবারের (জার্মানিক) ভাষাগুলি প্রধানত ধনাত্মক স্থানান্তর দেখায়, যখন দূরবর্তী পরিবারের (জাপোনিক) ভাষাগুলি উল্লেখযোগ্য ঋণাত্মক স্থানান্তর দেখায়। এটি মানব SLA গবেষণার সাথে সামঞ্জস্যপূর্ণ যা দেখায় যে টাইপোলজিক্যাল দূরত্ব স্থানান্তর প্রভাবের পূর্বাভাস দেয় (Jarvis and Pavlenko, 2007)।

5.2 ভাষা পরিবার দূরত্ব

আমরা ফাইলোজেনেটিক দূরত্ব মেট্রিক ব্যবহার করে ভাষা পরিবার দূরত্ব পরিমাপ করি। ভাষা পরিবার দূরত্ব এবং ঋণাত্মক স্থানান্তরের মধ্যে সম্পর্ক পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ (পিয়ারসনের r = -0.89, p < 0.05)। এটি পরামর্শ দেয় যে SLABERT কাঠামোটি টাইপোলজিক্যাল সম্পর্ক অধ্যয়নের জন্য একটি গণনামূলক মডেল হিসাবে কাজ করতে পারে।

6. উপসংহার

আমাদের SLABERT কাঠামো দ্বিতীয় ভাষা অর্জনে ধনাত্মক এবং ঋণাত্মক উভয় ক্রস-ভাষিক স্থানান্তর প্রভাব সফলভাবে মডেল করে। আমরা দেখতে পাই যে ভাষা পরিবার দূরত্ব ঋণাত্মক স্থানান্তরের পূর্বাভাস দেয়, এবং কথোপকথনমূলক বক্তৃতা ডেটা স্ক্রিপ্টেড বক্তৃতা ডেটার চেয়ে ভাষা অর্জনের জন্য বেশি সুবিধা দেখায়। আমাদের ফলাফলগুলি ট্রান্সফরমার-ভিত্তিক SLA মডেল ব্যবহার করে আরও গবেষণার আহ্বান জানায়, এবং আমরা এটিকে উৎসাহিত করার জন্য আমাদের কোড, ডেটা এবং মডেল প্রকাশ করি।

7. মূল বিশ্লেষণ

মূল অন্তর্দৃষ্টি: SLABERT হল কম্পিউটেশনাল ভাষাবিজ্ঞান এবং দ্বিতীয় ভাষা অর্জন গবেষণার মধ্যে সেতুবন্ধন করার একটি সাহসী প্রচেষ্টা, কিন্তু এটি একটি মৌলিক সীমাবদ্ধতায় ভুগছে: এটি ভাষা মডেল প্রাক-প্রশিক্ষণকে মানব ভাষা অর্জনের সাথে সমান করে, SLA-এর মূর্ত, সামাজিক এবং জ্ঞানীয় মাত্রাগুলিকে উপেক্ষা করে। কাগজটির মূল অবদান হল প্রদর্শন করা যে BERT ক্রস-ভাষিক স্থানান্তর প্রভাব অনুকরণ করতে পারে, কিন্তু এটি একটি সংকীর্ণ বিজয়।

যৌক্তিক প্রবাহ: লেখকরা ক্রস-ভাষিক স্থানান্তরের সুপ্রতিষ্ঠিত SLA ধারণা থেকে শুরু করেন, তারপর এটি মডেল করার জন্য একটি গণনামূলক কাঠামো তৈরি করেন। যুক্তিটি সঠিক: যদি LMগুলি ডেটা থেকে ভাষাগত কাঠামো শিখতে পারে, তাহলে L1 তারপর L2-তে ক্রমিক প্রশিক্ষণ স্থানান্তর প্রভাব প্রকাশ করবে। MAO-CHILDES ডেটাসেটের নির্মাণ একটি ব্যবহারিক উদ্ভাবন, যা পরিবেশগতভাবে বৈধ শিশু-নির্দেশিত বক্তৃতা ডেটা সরবরাহ করে। মূল্যায়নের জন্য BLiMP-এর ব্যবহার উপযুক্ত, কারণ এটি ব্যাকরণগত জ্ঞান পরীক্ষা করে।

শক্তি ও ত্রুটি: প্রধান শক্তি হল SLA-তে TILT-ভিত্তিক স্থানান্তর শিক্ষার অভিনব প্রয়োগ, যা একটি নতুন গবেষণা দিক উন্মুক্ত করে। ভাষা পরিবার দূরত্ব ঋণাত্মক স্থানান্তরের পূর্বাভাস দেয় এই ফলাফলটি আকর্ষণীয় এবং মানব গবেষণার সাথে সামঞ্জস্যপূর্ণ। তবে, কাগজটির উল্লেখযোগ্য ত্রুটি রয়েছে। প্রথমত, পাঁচটি ভাষার নমুনা আকার শক্তিশালী টাইপোলজিক্যাল সিদ্ধান্তের জন্য খুব ছোট। দ্বিতীয়ত, মডেলটি অর্জনের বয়সের প্রভাব বিবেচনা করে না, যা মানব SLA-তে গুরুত্বপূর্ণ (Lenneberg, 1967)। তৃতীয়ত, মূল্যায়ন শুধুমাত্র ইংরেজি ব্যাকরণের মধ্যে সীমাবদ্ধ; আমরা জানি না মডেলটি অন্যান্য L2-তে সাধারণীকরণ করে কিনা। চতুর্থত, কাগজটিতে প্রতিযোগিতা মডেলের (MacWhinney, 2005) মতো ঐতিহ্যবাহী SLA মডেলের সাথে তুলনার অভাব রয়েছে।

কার্যকরী অন্তর্দৃষ্টি: গবেষকদের জন্য, এই কাজটি পরামর্শ দেয় যে ট্রান্সফরমার-ভিত্তিক মডেলগুলি SLA গবেষণার জন্য দরকারী সরঞ্জাম হতে পারে, তবে সেগুলিকে জ্ঞানীয় মডেলের সাথে একত্রিত করতে হবে। অনুশীলনকারীদের জন্য, কথোপকথনমূলক বক্তৃতা ডেটা স্ক্রিপ্টেড ডেটার চেয়ে বেশি কার্যকর এই ফলাফলটি ভাষা শিক্ষার উপকরণের জন্য প্রভাব ফেলে। ভবিষ্যতের কাজে ভাষার নমুনা প্রসারিত করা, অর্জনের বয়সকে একটি পরিবর্তনশীল হিসাবে অন্তর্ভুক্ত করা এবং একাধিক L2-তে পরীক্ষা করা উচিত। কাগজটির কোড এবং ডেটা প্রকাশ প্রশংসনীয় এবং প্রতিলিপি ও সম্প্রসারণ সহজতর করা উচিত।

8. প্রযুক্তিগত বিবরণ

SLABERT মডেলটি ১১০M প্যারামিটার সহ BERT-বেস আর্কিটেকচার ব্যবহার করে। প্রশিক্ষণের হাইপারপ্যারামিটারগুলি হল: শেখার হার 2e-5, ব্যাচ সাইজ ৩২, সর্বোচ্চ সিকোয়েন্স দৈর্ঘ্য ১২৮, এবং L1 প্রাক-প্রশিক্ষণের জন্য প্রশিক্ষণ ইপক ১০ এবং L2 সূক্ষ্ম-টিউনিংয়ের জন্য ৫। অপ্টিমাইজেশন 0.01 ওয়েট ডিকে সহ AdamW ব্যবহার করে। MLM উদ্দেশ্য ১৫% টোকেন মাস্ক করে, যার মধ্যে ৮০% [MASK] দ্বারা প্রতিস্থাপিত, ১০% এলোমেলো টোকেন দ্বারা প্রতিস্থাপিত এবং ১০% অপরিবর্তিত থাকে।

স্থানান্তর শিক্ষার উদ্দেশ্যের গাণিতিক সূত্র হল:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

যেখানে $\lambda$ হল একটি স্কেলিং ফ্যাক্টর যা আমাদের পরীক্ষায় 0.5 সেট করা হয়েছে।

9. পরীক্ষামূলক ফলাফল

চিত্র 1 (দেখানো হয়নি) L1 ভাষা জুড়ে BLiMP নির্ভুলতা তুলনা করে একটি বার চার্ট উপস্থাপন করে। বেসলাইন (শুধুমাত্র ইংরেজি) ৮৩.৫% নির্ভুলতা অর্জন করে। জার্মান L1 সর্বোচ্চ উন্নতি (+১.৭%) দেখায়, যখন জাপানি L1 সবচেয়ে বড় পতন (-১১.৪%) দেখায়। ফরাসি এবং পোলিশ মধ্যবর্তী প্রভাব দেখায়। ফলাফলগুলি নিশ্চিত করে যে টাইপোলজিক্যাল দূরত্ব ঋণাত্মক স্থানান্তরের সাথে সম্পর্কযুক্ত।

সারণী 1: L1 ভাষা অনুযায়ী BLiMP নির্ভুলতা

L1 ভাষানির্ভুলতা (%)বেসলাইন থেকে পরিবর্তন
ইংরেজি (বেসলাইন)৮৩.৫-
জার্মান৮৫.২+১.৭
ফরাসি৮১.৩-২.২
পোলিশ৭৮.৬-৪.৯
ইন্দোনেশিয়ান৭৬.৪-৭.১
জাপানি৭২.১-১১.৪

10. কেস স্টাডি

ইংরেজি ব্যাকরণগত ঘটনা subject-verb agreement বিবেচনা করুন। জার্মান ভাষায়, যার অনুরূপ agreement প্যাটার্ন রয়েছে, মডেলটি উচ্চ নির্ভুলতা (৯২%) দেখায়। জাপানি ভাষায়, যেখানে person-number agreement নেই, মডেলটি কম নির্ভুলতা (৬৫%) দেখায়। এটি ঋণাত্মক স্থানান্তর প্রদর্শন করে: L1 ব্যাকরণ L2 অর্জনে হস্তক্ষেপ করে। BLiMP থেকে একটি নমুনা বাক্য জোড়া:

ব্যাকরণগত: "The dogs run fast."

অব্যাকরণগত: "The dogs runs fast."

জার্মান L1 মডেলটি ৯২% সময় ব্যাকরণগত বাক্যটি সঠিকভাবে সনাক্ত করে, যখন জাপানি L1 মডেলটি কেবল ৬৫% সময় সনাক্ত করে।

11. ভবিষ্যৎ দিকনির্দেশনা

SLABERT কাঠামো ভবিষ্যতের গবেষণার জন্য বেশ কয়েকটি পথ উন্মুক্ত করে। প্রথমত, আরও টাইপোলজিক্যালি বৈচিত্র্যময় ভাষা (যেমন আরবি, ম্যান্ডারিন, সোয়াহিলি) অন্তর্ভুক্ত করার জন্য ভাষার নমুনা প্রসারিত করা ফলাফলগুলিকে শক্তিশালী করবে। দ্বিতীয়ত, অর্জনের বয়সকে একটি পরিবর্তনশীল হিসাবে অন্তর্ভুক্ত করা SLA-তে সমালোচনামূলক সময়ের প্রভাব মডেল করতে পারে (Lenneberg, 1967)। তৃতীয়ত, একাধিক L2-তে (যেমন স্প্যানিশ, ফরাসি) পরীক্ষা করা কাঠামোটির সাধারণীকরণযোগ্যতা পরীক্ষা করবে। চতুর্থত, SLABERT-কে প্রতিযোগিতা মডেলের (MacWhinney, 2005) মতো জ্ঞানীয় মডেলের সাথে একত্রিত করা আরও বাস্তবসম্মত সিমুলেশন সরবরাহ করতে পারে। পঞ্চমত, ভাষা ক্ষয় (L2 আধিপত্যের কারণে L1-এর ক্ষতি) অধ্যয়নের জন্য কাঠামোটি প্রয়োগ করা একটি স্বাভাবিক সম্প্রসারণ। অবশেষে, কাঠামোটি ব্যক্তিগতকৃত ভাষা শেখার সরঞ্জাম তৈরি করতে ব্যবহার করা যেতে পারে যা শিক্ষার্থীর L1-এর সাথে খাপ খায়।

12. তথ্যসূত্র