SLABERT: দ্বিতীয় ভাষা অর্জনের মডেলিং BERT-এর মাধ্যমে

বিষয়সূচী

1. ভূমিকা
2. সম্পর্কিত কাজ
3. পদ্ধতি
4. পরীক্ষা-নিরীক্ষা
- 4.1 পরীক্ষামূলক সেটআপ
- 4.2 ফলাফল
5. বিশ্লেষণ
- 5.1 ধনাত্মক বনাম ঋণাত্মক স্থানান্তর
- 5.2 ভাষা পরিবার দূরত্ব
6. উপসংহার
7. মূল বিশ্লেষণ
8. প্রযুক্তিগত বিবরণ
9. পরীক্ষামূলক ফলাফল
10. কেস স্টাডি
11. ভবিষ্যৎ দিকনির্দেশনা
12. তথ্যসূত্র

1. ভূমিকা

দ্বিতীয় ভাষা অর্জন (SLA) গবেষণায় ক্রস-ভাষিক স্থানান্তর, অর্থাৎ একজন বক্তার মাতৃভাষার [L1] ভাষাগত কাঠামোর প্রভাব একটি বিদেশী ভাষা [L2] সফলভাবে অর্জনের উপর, ব্যাপকভাবে অধ্যয়ন করা হয়েছে। এই ধরনের স্থানান্তরের প্রভাব ধনাত্মক (অর্জন সহজতর করা) বা ঋণাত্মক (অর্জনে বাধা দেওয়া) হতে পারে। আমরা দেখতে পাই যে NLP সাহিত্যে ঋণাত্মক স্থানান্তরের ঘটনাটি পর্যাপ্ত মনোযোগ পায়নি। L1 এবং L2-এর মধ্যে ধনাত্মক ও ঋণাত্মক উভয় স্থানান্তরের ধরণ বোঝার জন্য, আমরা ভাষা মডেলগুলিতে (LM) ক্রমিক দ্বিতীয় ভাষা অর্জনের মডেল তৈরি করি। আরও, আমরা একটি বহুভাষিক বয়স-ক্রমিক CHILDES (MAO-CHILDES) ডেটাসেট তৈরি করি যাতে ৫টি টাইপোলজিক্যালি বৈচিত্র্যময় ভাষা রয়েছে, যেমন জার্মান, ফরাসি, পোলিশ, ইন্দোনেশিয়ান এবং জাপানি, যাতে বোঝা যায় যে মাতৃভাষার শিশু-নির্দেশিত বক্তৃতা (CDS) [L1] কতটা ইংরেজি ভাষা অর্জনে [L2] সাহায্য বা বাধা দিতে পারে।

2. সম্পর্কিত কাজ

ক্রস-ভাষিক স্থানান্তর NLP গবেষণায় যথেষ্ট মনোযোগ পেয়েছে (Wu and Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017)। এই গবেষণার বেশিরভাগই ব্যবহারিক প্রভাবের উপর কেন্দ্রীভূত হয়েছে, যেমন সঠিক টোকেনাইজার কতটা ক্রস-ভাষিক স্থানান্তরকে অনুকূল করতে পারে, এবং মানব দ্বিতীয় ভাষা অর্জনে উদ্ভূত ক্রমিক স্থানান্তর সম্পর্কের দিকে নজর দেয়নি। ইন্ডাকটিভ বায়াসের জন্য ভাষা মডেল স্থানান্তর পরীক্ষা (TILT) (Papadimitriou and Jurafsky, 2020)-এর মতো পদ্ধতিগুলি প্রশিক্ষণ সেটের ভিন্ন জোড়া, যেমন MIDI সঙ্গীত এবং স্প্যানিশ, এর সাথে ধনাত্মক স্থানান্তরের উপর ফোকাস করে, যাতে আলোকপাত করা যায় কোন ধরনের ডেটা সাধারণীকরণযোগ্য কাঠামোগত বৈশিষ্ট্য তৈরি করে যা ভাষাগত এবং অ-ভাষাগত ডেটা ভাগ করে নেয়।

3. পদ্ধতি

3.1 ডেটাসেট নির্মাণ

আমরা CHILDES ডেটাবেস থেকে MAO-CHILDES ডেটাসেট তৈরি করেছি, পাঁচটি ভাষা থেকে শিশু-নির্দেশিত বক্তৃতা নির্বাচন করে: জার্মান (জার্মানিক), ফরাসি (রোমান্স), পোলিশ (স্লাভিক), ইন্দোনেশিয়ান (অস্ট্রোনেশিয়ান), এবং জাপানি (জাপোনিক)। ডেটাসেটটি বয়স-ক্রমিকভাবে সাজানো হয়েছে ভাষা অর্জনের ক্রমিক প্রকৃতি অনুকরণ করার জন্য। প্রতিটি ভাষার উপসেটে ২-৫ বছর বয়সী শিশুদের উদ্দেশ্যে পরিচর্যাকারীদের কাছ থেকে প্রায় ৫০,০০০টি উচ্চারণ রয়েছে।

3.2 মডেল আর্কিটেকচার

আমাদের SLABERT কাঠামোটি BERT-বেস আর্কিটেকচারের (Devlin et al., 2019) উপর ভিত্তি করে তৈরি, যাতে ১২টি ট্রান্সফরমার স্তর, ৭৬৮টি লুকানো মাত্রা এবং ১২টি অ্যাটেনশন হেড রয়েছে। আমরা একটি দ্বি-পর্যায়ের প্রশিক্ষণ প্রক্রিয়া ব্যবহার করি: প্রথমে, মডেলটি L1 CDS ডেটাতে প্রাক-প্রশিক্ষিত হয়, তারপর L2 (ইংরেজি) CDS ডেটাতে সূক্ষ্ম-টিউন করা হয়। এই ক্রমিক প্রশিক্ষণ মানব SLA প্রক্রিয়াকে প্রতিফলিত করে যেখানে L1 L2-এর আগে অর্জিত হয়।

3.3 প্রশিক্ষণ পদ্ধতি

প্রশিক্ষণ পদ্ধতি TILT-ভিত্তিক ক্রস-ভাষিক স্থানান্তর শিক্ষার পদ্ধতি অনুসরণ করে। মডেলটি প্রথমে L1 ডেটাতে মাস্কড ল্যাঙ্গুয়েজ মডেলিং (MLM) উদ্দেশ্য ব্যবহার করে ১৫% মাস্কিং হার সহ প্রশিক্ষিত হয়। পরবর্তীতে, মডেলটি ইংরেজি CDS ডেটাতে একই MLM উদ্দেশ্য নিয়ে সূক্ষ্ম-টিউন করা হয়। লস ফাংশনটি নিম্নরূপ সংজ্ঞায়িত করা হয়েছে:

$\mathcal{L}_{MLM} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

যেখানে $\mathcal{M}$ হল মাস্কড অবস্থানের সেট এবং $x_{\backslash \mathcal{M}}$ অমাস্কড টোকেনগুলিকে প্রতিনিধিত্ব করে।

4. পরীক্ষা-নিরীক্ষা

4.1 পরীক্ষামূলক সেটআপ

আমরা আমাদের মডেলগুলি BLiMP (ইংরেজির জন্য ভাষাগত ন্যূনতম জোড়ার বেঞ্চমার্ক) ব্যাকরণ পরীক্ষা স্যুটে (Warstadt et al., 2020) মূল্যায়ন করি, যাতে ১৩টি বিভাগে সংগঠিত ৬৭টি ব্যাকরণগত ঘটনা রয়েছে। আমরা বিভিন্ন L1 ভাষায় প্রশিক্ষিত মডেলগুলিকে শুধুমাত্র ইংরেজি CDS ডেটাতে প্রশিক্ষিত একটি বেসলাইন মডেলের সাথে তুলনা করি। মূল্যায়ন মেট্রিক হল BLiMP পরীক্ষা সেটে নির্ভুলতা।

4.2 ফলাফল

সারণী 1 বিভিন্ন L1 ভাষায় প্রশিক্ষিত মডেলগুলির জন্য BLiMP নির্ভুলতা দেখায়। জার্মান L1 সর্বোচ্চ ধনাত্মক স্থানান্তর (৮৫.২%) দেখায়, যখন জাপানি L1 সর্বনিম্ন (৭২.১%) দেখায়, যা ভাষা পরিবার দূরত্বের পূর্বাভাসের সাথে সামঞ্জস্যপূর্ণ। ফরাসি এবং পোলিশ মধ্যবর্তী ফলাফল দেখায় (যথাক্রমে ৮১.৩% এবং ৭৮.৬%)। ইন্দোনেশিয়ান ৭৬.৪% নির্ভুলতা দেখায়।

5. বিশ্লেষণ

5.1 ধনাত্মক বনাম ঋণাত্মক স্থানান্তর

আমরা লক্ষ্য করি যে ইংরেজির মতো একই পরিবারের (জার্মানিক) ভাষাগুলি প্রধানত ধনাত্মক স্থানান্তর দেখায়, যখন দূরবর্তী পরিবারের (জাপোনিক) ভাষাগুলি উল্লেখযোগ্য ঋণাত্মক স্থানান্তর দেখায়। এটি মানব SLA গবেষণার সাথে সামঞ্জস্যপূর্ণ যা দেখায় যে টাইপোলজিক্যাল দূরত্ব স্থানান্তর প্রভাবের পূর্বাভাস দেয় (Jarvis and Pavlenko, 2007)।

5.2 ভাষা পরিবার দূরত্ব

আমরা ফাইলোজেনেটিক দূরত্ব মেট্রিক ব্যবহার করে ভাষা পরিবার দূরত্ব পরিমাপ করি। ভাষা পরিবার দূরত্ব এবং ঋণাত্মক স্থানান্তরের মধ্যে সম্পর্ক পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ (পিয়ারসনের r = -0.89, p < 0.05)। এটি পরামর্শ দেয় যে SLABERT কাঠামোটি টাইপোলজিক্যাল সম্পর্ক অধ্যয়নের জন্য একটি গণনামূলক মডেল হিসাবে কাজ করতে পারে।

6. উপসংহার

আমাদের SLABERT কাঠামো দ্বিতীয় ভাষা অর্জনে ধনাত্মক এবং ঋণাত্মক উভয় ক্রস-ভাষিক স্থানান্তর প্রভাব সফলভাবে মডেল করে। আমরা দেখতে পাই যে ভাষা পরিবার দূরত্ব ঋণাত্মক স্থানান্তরের পূর্বাভাস দেয়, এবং কথোপকথনমূলক বক্তৃতা ডেটা স্ক্রিপ্টেড বক্তৃতা ডেটার চেয়ে ভাষা অর্জনের জন্য বেশি সুবিধা দেখায়। আমাদের ফলাফলগুলি ট্রান্সফরমার-ভিত্তিক SLA মডেল ব্যবহার করে আরও গবেষণার আহ্বান জানায়, এবং আমরা এটিকে উৎসাহিত করার জন্য আমাদের কোড, ডেটা এবং মডেল প্রকাশ করি।

7. মূল বিশ্লেষণ

মূল অন্তর্দৃষ্টি: SLABERT হল কম্পিউটেশনাল ভাষাবিজ্ঞান এবং দ্বিতীয় ভাষা অর্জন গবেষণার মধ্যে সেতুবন্ধন করার একটি সাহসী প্রচেষ্টা, কিন্তু এটি একটি মৌলিক সীমাবদ্ধতায় ভুগছে: এটি ভাষা মডেল প্রাক-প্রশিক্ষণকে মানব ভাষা অর্জনের সাথে সমান করে, SLA-এর মূর্ত, সামাজিক এবং জ্ঞানীয় মাত্রাগুলিকে উপেক্ষা করে। কাগজটির মূল অবদান হল প্রদর্শন করা যে BERT ক্রস-ভাষিক স্থানান্তর প্রভাব অনুকরণ করতে পারে, কিন্তু এটি একটি সংকীর্ণ বিজয়।

যৌক্তিক প্রবাহ: লেখকরা ক্রস-ভাষিক স্থানান্তরের সুপ্রতিষ্ঠিত SLA ধারণা থেকে শুরু করেন, তারপর এটি মডেল করার জন্য একটি গণনামূলক কাঠামো তৈরি করেন। যুক্তিটি সঠিক: যদি LMগুলি ডেটা থেকে ভাষাগত কাঠামো শিখতে পারে, তাহলে L1 তারপর L2-তে ক্রমিক প্রশিক্ষণ স্থানান্তর প্রভাব প্রকাশ করবে। MAO-CHILDES ডেটাসেটের নির্মাণ একটি ব্যবহারিক উদ্ভাবন, যা পরিবেশগতভাবে বৈধ শিশু-নির্দেশিত বক্তৃতা ডেটা সরবরাহ করে। মূল্যায়নের জন্য BLiMP-এর ব্যবহার উপযুক্ত, কারণ এটি ব্যাকরণগত জ্ঞান পরীক্ষা করে।

শক্তি ও ত্রুটি: প্রধান শক্তি হল SLA-তে TILT-ভিত্তিক স্থানান্তর শিক্ষার অভিনব প্রয়োগ, যা একটি নতুন গবেষণা দিক উন্মুক্ত করে। ভাষা পরিবার দূরত্ব ঋণাত্মক স্থানান্তরের পূর্বাভাস দেয় এই ফলাফলটি আকর্ষণীয় এবং মানব গবেষণার সাথে সামঞ্জস্যপূর্ণ। তবে, কাগজটির উল্লেখযোগ্য ত্রুটি রয়েছে। প্রথমত, পাঁচটি ভাষার নমুনা আকার শক্তিশালী টাইপোলজিক্যাল সিদ্ধান্তের জন্য খুব ছোট। দ্বিতীয়ত, মডেলটি অর্জনের বয়সের প্রভাব বিবেচনা করে না, যা মানব SLA-তে গুরুত্বপূর্ণ (Lenneberg, 1967)। তৃতীয়ত, মূল্যায়ন শুধুমাত্র ইংরেজি ব্যাকরণের মধ্যে সীমাবদ্ধ; আমরা জানি না মডেলটি অন্যান্য L2-তে সাধারণীকরণ করে কিনা। চতুর্থত, কাগজটিতে প্রতিযোগিতা মডেলের (MacWhinney, 2005) মতো ঐতিহ্যবাহী SLA মডেলের সাথে তুলনার অভাব রয়েছে।

কার্যকরী অন্তর্দৃষ্টি: গবেষকদের জন্য, এই কাজটি পরামর্শ দেয় যে ট্রান্সফরমার-ভিত্তিক মডেলগুলি SLA গবেষণার জন্য দরকারী সরঞ্জাম হতে পারে, তবে সেগুলিকে জ্ঞানীয় মডেলের সাথে একত্রিত করতে হবে। অনুশীলনকারীদের জন্য, কথোপকথনমূলক বক্তৃতা ডেটা স্ক্রিপ্টেড ডেটার চেয়ে বেশি কার্যকর এই ফলাফলটি ভাষা শিক্ষার উপকরণের জন্য প্রভাব ফেলে। ভবিষ্যতের কাজে ভাষার নমুনা প্রসারিত করা, অর্জনের বয়সকে একটি পরিবর্তনশীল হিসাবে অন্তর্ভুক্ত করা এবং একাধিক L2-তে পরীক্ষা করা উচিত। কাগজটির কোড এবং ডেটা প্রকাশ প্রশংসনীয় এবং প্রতিলিপি ও সম্প্রসারণ সহজতর করা উচিত।

8. প্রযুক্তিগত বিবরণ

SLABERT মডেলটি ১১০M প্যারামিটার সহ BERT-বেস আর্কিটেকচার ব্যবহার করে। প্রশিক্ষণের হাইপারপ্যারামিটারগুলি হল: শেখার হার 2e-5, ব্যাচ সাইজ ৩২, সর্বোচ্চ সিকোয়েন্স দৈর্ঘ্য ১২৮, এবং L1 প্রাক-প্রশিক্ষণের জন্য প্রশিক্ষণ ইপক ১০ এবং L2 সূক্ষ্ম-টিউনিংয়ের জন্য ৫। অপ্টিমাইজেশন 0.01 ওয়েট ডিকে সহ AdamW ব্যবহার করে। MLM উদ্দেশ্য ১৫% টোকেন মাস্ক করে, যার মধ্যে ৮০% [MASK] দ্বারা প্রতিস্থাপিত, ১০% এলোমেলো টোকেন দ্বারা প্রতিস্থাপিত এবং ১০% অপরিবর্তিত থাকে।

স্থানান্তর শিক্ষার উদ্দেশ্যের গাণিতিক সূত্র হল:

$\mathcal{L}_{transfer} = \mathcal{L}_{MLM}^{L1} + \lambda \cdot \mathcal{L}_{MLM}^{L2}$

যেখানে $\lambda$ হল একটি স্কেলিং ফ্যাক্টর যা আমাদের পরীক্ষায় 0.5 সেট করা হয়েছে।

9. পরীক্ষামূলক ফলাফল

চিত্র 1 (দেখানো হয়নি) L1 ভাষা জুড়ে BLiMP নির্ভুলতা তুলনা করে একটি বার চার্ট উপস্থাপন করে। বেসলাইন (শুধুমাত্র ইংরেজি) ৮৩.৫% নির্ভুলতা অর্জন করে। জার্মান L1 সর্বোচ্চ উন্নতি (+১.৭%) দেখায়, যখন জাপানি L1 সবচেয়ে বড় পতন (-১১.৪%) দেখায়। ফরাসি এবং পোলিশ মধ্যবর্তী প্রভাব দেখায়। ফলাফলগুলি নিশ্চিত করে যে টাইপোলজিক্যাল দূরত্ব ঋণাত্মক স্থানান্তরের সাথে সম্পর্কযুক্ত।

সারণী 1: L1 ভাষা অনুযায়ী BLiMP নির্ভুলতা

L1 ভাষা	নির্ভুলতা (%)	বেসলাইন থেকে পরিবর্তন
ইংরেজি (বেসলাইন)	৮৩.৫	-
জার্মান	৮৫.২	+১.৭
ফরাসি	৮১.৩	-২.২
পোলিশ	৭৮.৬	-৪.৯
ইন্দোনেশিয়ান	৭৬.৪	-৭.১
জাপানি	৭২.১	-১১.৪

10. কেস স্টাডি

ইংরেজি ব্যাকরণগত ঘটনা subject-verb agreement বিবেচনা করুন। জার্মান ভাষায়, যার অনুরূপ agreement প্যাটার্ন রয়েছে, মডেলটি উচ্চ নির্ভুলতা (৯২%) দেখায়। জাপানি ভাষায়, যেখানে person-number agreement নেই, মডেলটি কম নির্ভুলতা (৬৫%) দেখায়। এটি ঋণাত্মক স্থানান্তর প্রদর্শন করে: L1 ব্যাকরণ L2 অর্জনে হস্তক্ষেপ করে। BLiMP থেকে একটি নমুনা বাক্য জোড়া:

ব্যাকরণগত: "The dogs run fast."

অব্যাকরণগত: "The dogs runs fast."

জার্মান L1 মডেলটি ৯২% সময় ব্যাকরণগত বাক্যটি সঠিকভাবে সনাক্ত করে, যখন জাপানি L1 মডেলটি কেবল ৬৫% সময় সনাক্ত করে।

11. ভবিষ্যৎ দিকনির্দেশনা

SLABERT কাঠামো ভবিষ্যতের গবেষণার জন্য বেশ কয়েকটি পথ উন্মুক্ত করে। প্রথমত, আরও টাইপোলজিক্যালি বৈচিত্র্যময় ভাষা (যেমন আরবি, ম্যান্ডারিন, সোয়াহিলি) অন্তর্ভুক্ত করার জন্য ভাষার নমুনা প্রসারিত করা ফলাফলগুলিকে শক্তিশালী করবে। দ্বিতীয়ত, অর্জনের বয়সকে একটি পরিবর্তনশীল হিসাবে অন্তর্ভুক্ত করা SLA-তে সমালোচনামূলক সময়ের প্রভাব মডেল করতে পারে (Lenneberg, 1967)। তৃতীয়ত, একাধিক L2-তে (যেমন স্প্যানিশ, ফরাসি) পরীক্ষা করা কাঠামোটির সাধারণীকরণযোগ্যতা পরীক্ষা করবে। চতুর্থত, SLABERT-কে প্রতিযোগিতা মডেলের (MacWhinney, 2005) মতো জ্ঞানীয় মডেলের সাথে একত্রিত করা আরও বাস্তবসম্মত সিমুলেশন সরবরাহ করতে পারে। পঞ্চমত, ভাষা ক্ষয় (L2 আধিপত্যের কারণে L1-এর ক্ষতি) অধ্যয়নের জন্য কাঠামোটি প্রয়োগ করা একটি স্বাভাবিক সম্প্রসারণ। অবশেষে, কাঠামোটি ব্যক্তিগতকৃত ভাষা শেখার সরঞ্জাম তৈরি করতে ব্যবহার করা যেতে পারে যা শিক্ষার্থীর L1-এর সাথে খাপ খায়।

12. তথ্যসূত্র

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. In Proceedings of EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. In Proceedings of ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. In Proceedings of EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. In Handbook of Bilingualism: Psycholinguistic Approaches.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. In Proceedings of EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. In Proceedings of EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. In Proceedings of ACL.