সিপিজি-ইভ্যাল: বৃহৎ ভাষা মডেলগুলোর চীনা শিক্ষণ ব্যাকরণ দক্ষতা মূল্যায়নের জন্য একটি বহুস্তরীয় বেঞ্চমার্ক

1. ভূমিকা

প্রবন্ধটি একটি চিন্তা-উদ্রেককারী উপমা দিয়ে শুরু হয়েছে: যথাযথ মূল্যায়ন ছাড়াই চ্যাটজিপিটি-এর মতো বৃহৎ ভাষা মডেল (এলএলএম) শিক্ষামূলক ভূমিকায় মোতায়েন করা হলো যেন প্রত্যয়নহীন শিক্ষকদের ছাত্রদের পড়ানোর অনুমতি দেওয়া। এটি একটি গুরুত্বপূর্ণ ফাঁককে তুলে ধরে। বিদেশি ভাষা শিক্ষায় (যেমন, বিষয়বস্তু তৈরি, ভুল সংশোধন) এলএলএমগুলোর সম্ভাবনা দেখা গেলেও, তাদের মূল শিক্ষণ ব্যাকরণ দক্ষতা—শিক্ষণযোগ্য, প্রসঙ্গ-সচেতন পদ্ধতিতে ব্যাকরণ নিয়ম বুঝতে ও ব্যাখ্যা করার ক্ষমতা—বেশিরভাগই অপরিমিত থেকে যায়। লেখকরা যুক্তি দেন যে বিদ্যমান এনএলপি বেঞ্চমার্কগুলো এই ডোমেইন-নির্দিষ্ট কাজের জন্য অপর্যাপ্ত। ফলস্বরূপ, তারা সিপিজি-ইভ্যাল (চীনা শিক্ষণ ব্যাকরণ মূল্যায়ন) চালু করেছেন, যা বিদেশি ভাষা হিসেবে চীনা ভাষা শিক্ষাদানের (টিসিএফএল) প্রেক্ষাপটে এলএলএমগুলোর শিক্ষণ ব্যাকরণ জ্ঞান পদ্ধতিগতভাবে মূল্যায়নের জন্য নকশাকৃত প্রথম নিবেদিত, বহুস্তরীয় বেঞ্চমার্ক।

2. সম্পর্কিত গবেষণা

প্রবন্ধটি সিপিজি-ইভ্যালকে গবেষণার দুটি ধারার মধ্যে স্থাপন করে। প্রথমত, এটি ভাষা শিক্ষায় এলএলএমগুলোর ক্রমবর্ধমান প্রয়োগ পর্যালোচনা করে, স্বয়ংক্রিয় লেখা মূল্যায়ন, কথোপকথন অনুশীলন এবং সম্পদ উন্নয়ন (যেমন, বিন-হাদি ও অন্যান্য, ২০২৩; কনকে ও অন্যান্য, ২০২৩) এর মতো ক্ষেত্রগুলো কভার করে। দ্বিতীয়ত, এটি এআই বেঞ্চমার্কগুলোর বিবর্তন নিয়ে আলোচনা করে, সাধারণ-উদ্দেশ্যের কাজ (যেমন, গ্লু, সুপারগ্লু) থেকে আরও বিশেষায়িত মূল্যায়নের দিকে। লেখকরা শিক্ষণ তত্ত্ব এবং ভাষা শিক্ষাদান দক্ষতা ভিত্তিক বেঞ্চমার্কের অভাব উল্লেখ করেন, যা সিপিজি-ইভ্যাল টিসিএফএল-এর জন্য গণনামূলক ভাষাবিজ্ঞানকে প্রয়োগিক ভাষাবিজ্ঞানের সাথে সংযুক্ত করে সমাধান করতে চায়।

3. সিপিজি-ইভ্যাল বেঞ্চমার্ক

3.1. তাত্ত্বিক ভিত্তি ও নকশা নীতি

সিপিজি-ইভ্যাল বিস্তৃত টিসিএফএল অনুশীলনের মাধ্যমে যাচাইকৃত একটি শিক্ষণ ব্যাকরণ শ্রেণীবিভাগ পদ্ধতির উপর ভিত্তি করে তৈরি। এর নকশা নির্দেশনামূলক সমন্বয়-এর নীতিগুলো দ্বারা পরিচালিত, যা নিশ্চিত করে যে কাজগুলো বাস্তব-বিশ্বের শিক্ষাদানের পরিস্থিতিকে প্রতিফলিত করে। বেঞ্চমার্কটি কেবল ব্যাকরণগত শুদ্ধতা নয়, বরং একটি শিক্ষক বা টিউটরের জন্য প্রাসঙ্গিক কাজ সম্পাদনের মডেলের ক্ষমতাও মূল্যায়ন করে, যেমন ভুল চিহ্নিত করা, নিয়ম ব্যাখ্যা করা এবং উপযুক্ত নির্দেশনামূলক উদাহরণ বেছে নেওয়া।

3.2. কার্য শ্রেণীবিভাগ ও মূল্যায়ন কাঠামো

বেঞ্চমার্কটি পাঁচটি মূল কাজ নিয়ে গঠিত, যা একটি বহুস্তরীয় মূল্যায়ন কাঠামো তৈরি করে:

ব্যাকরণ স্বীকৃতি: একটি প্রদত্ত বাক্য লক্ষ্য ব্যাকরণিক বিষয় সঠিকভাবে ব্যবহার করে কিনা তা চিহ্নিত করা।
সূক্ষ্ম-দানাদার পার্থক্য: সূক্ষ্মভাবে ভিন্ন ব্যাকরণিক গঠন বা ব্যবহারের মধ্যে পার্থক্য করা।
শ্রেণীবদ্ধ বৈষম্য: ব্যাকরণিক ত্রুটি বা বাক্যগুলো নির্দিষ্ট শিক্ষণ শ্রেণীতে শ্রেণীবদ্ধ করা (যেমন, "了"-এর অপব্যবহার, ভুল শব্দ ক্রম)।
ভাষাগত হস্তক্ষেপ প্রতিরোধ (একক উদাহরণ): একটি একক বিভ্রান্তিকর বা ভুল পথে নিয়ে যাওয়া উদাহরণ সামলানোর মডেলের ক্ষমতা মূল্যায়ন করা।
ভাষাগত হস্তক্ষেপ প্রতিরোধ (একাধিক উদাহরণ): একটি আরও চ্যালেঞ্জিং সংস্করণ যেখানে মডেলটিকে একাধিক সম্ভাব্য বিভ্রান্তিকর উদাহরণ জুড়ে যুক্তি দিতে হবে।

এই কাঠামোটি শিক্ষণগত বোঝার বিভিন্ন গভীরতা অনুসন্ধান করার জন্য নকশা করা হয়েছে, মৌলিক স্বীকৃতি থেকে বিভ্রান্তির অধীনে উন্নত যুক্তি পর্যন্ত।

4. পরীক্ষামূলক সেটআপ ও ফলাফল

4.1. মডেল ও মূল্যায়ন প্রোটোকল

গবেষণাটি বিভিন্ন এলএলএম মূল্যায়ন করে, যার মধ্যে ছোট-স্কেল (যেমন, ১০বি প্যারামিটারের নিচের মডেল) এবং বড়-স্কেল মডেল (যেমন, জিপিটি-৪, ক্লড ৩) উভয়ই অন্তর্ভুক্ত। অন্তর্নিহিত ক্ষমতা মূল্যায়ন করতে জিরো-শট বা ফিউ-শট সেটিংয়ে মূল্যায়ন করা হয়। কার্যক্ষমতা মূলত সংজ্ঞায়িত কাজের উপর নির্ভুলতা দ্বারা পরিমাপ করা হয়।

4.2. প্রধান ফলাফল ও কার্যক্ষমতা বিশ্লেষণ

ফলাফলগুলি একটি উল্লেখযোগ্য কার্যক্ষমতা শ্রেণিবিন্যাস প্রকাশ করে:

ছোট-স্কেল মডেল সহজ, একক-উদাহরণ কাজে (যেমন মৌলিক ব্যাকরণ স্বীকৃতি) যুক্তিসঙ্গত সাফল্য অর্জন করতে পারে কিন্তু একাধিক উদাহরণ বা শক্তিশালী ভাষাগত হস্তক্ষেপ জড়িত কাজে তাদের কার্যক্ষমতা ধসে পড়ে। এটি ইঙ্গিত দেয় যে তাদের শক্তিশালী, সাধারণীকরণযোগ্য ব্যাকরণিক যুক্তির অভাব রয়েছে।
বড়-স্কেল মডেল (যেমন, জিপিটি-৪) হস্তক্ষেপের বিরুদ্ধে লক্ষণীয়ভাবে ভালো প্রতিরোধ প্রদর্শন করে এবং বহু-উদাহরণ কাজ আরও কার্যকরভাবে পরিচালনা করে, যা শক্তিশালী যুক্তি ও প্রাসঙ্গিক বোঝাপড়া নির্দেশ করে। তবে, তাদের নির্ভুলতা এখনও নিখুঁত থেকে অনেক দূরে, যা উন্নতির জন্য উল্লেখযোগ্য জায়গা দেখায়।
সমস্ত মডেল জুড়ে সামগ্রিক কার্যক্ষমতা তুলে ধরে যে বর্তমান এলএলএমগুলো, আকার নির্বিশেষে, চীনা ভাষার জন্য শিক্ষণ ব্যাকরণে এখনও নির্ভরযোগ্যভাবে দক্ষ নয়। বেঞ্চমার্কটি সফলভাবে নির্দিষ্ট দুর্বলতাগুলো প্রকাশ করে, যেমন একই রকম ব্যাকরণিক কণার মধ্যে বিভ্রান্তি বা উদাহরণ জুড়ে সামঞ্জস্যপূর্ণ নিয়ম প্রয়োগ করতে ব্যর্থতা।

চার্ট বর্ণনা (কল্পিত): একটি মাল্টি-বার চার্ট ৫টি সিপিজি-ইভ্যাল কাজ জুড়ে ৪-৫টি মডেল পরিবারের জন্য নির্ভুলতা স্কোর (০-১০০%) দেখাবে। মডেল স্কেল এবং কার্যক্ষমতার মধ্যে একটি স্পষ্ট ইতিবাচক সম্পর্ক দৃশ্যমান হবে, টাস্ক ৪ এবং বিশেষ করে টাস্ক ৫ (হস্তক্ষেপ কাজ)-এর জন্য বড় ও ছোট মডেলগুলোর মধ্যে ব্যবধান নাটকীয়ভাবে প্রসারিত হবে। সমস্ত মডেল টাস্ক ৫-এ তাদের সর্বনিম্ন স্কোর দেখাবে।

মূল মেট্রিক: কার্যক্ষমতা ব্যবধান

~৪০%

জটিল হস্তক্ষেপ কাজে বড় ও ছোট মডেলগুলোর মধ্যে নির্ভুলতার পার্থক্য।

বেঞ্চমার্ক স্কেল

৫ স্তর

বিভিন্ন দক্ষতার স্তর অনুসন্ধানকারী বহুস্তরীয় কাজ নকশা।

প্রকাশিত মূল সীমাবদ্ধতা

নির্দেশনামূলক অসামঞ্জস্য

এলএলএমগুলোর শিক্ষণযোগ্য, প্রসঙ্গ-সচেতন ব্যাকরণ ব্যাখ্যা দক্ষতার অভাব রয়েছে।

5. মূল অন্তর্দৃষ্টি ও বিশ্লেষকের দৃষ্টিভঙ্গি

মূল অন্তর্দৃষ্টি: সিপিজি-ইভ্যাল শুধু আরেকটি নির্ভুলতা পরীক্ষা নয়; এটি এআই এডটেক হাইপের জন্য একটি বাস্তবতা পরীক্ষা। এটি অভিজ্ঞতামূলকভাবে প্রমাণ করে যে এমনকি সবচেয়ে উন্নত এলএলএমগুলোর ব্যাকরণগত "বুদ্ধিমত্তা" অগভীর এবং শিক্ষণগতভাবে অসামঞ্জস্যপূর্ণ। তারা সাধারণ বক্তা হিসেবে পাস করে কিন্তু পদ্ধতিগত শিক্ষক হিসেবে ব্যর্থ হয়।

যুক্তিপূর্ণ প্রবাহ: প্রবন্ধটি দক্ষতার সাথে একটি গুরুত্বপূর্ণ বাজার চাহিদা চিহ্নিত করা (এআই শিক্ষক মূল্যায়ন) থেকে সমস্যাটি বিশ্লেষণ করা (শিক্ষণগত দক্ষতা কী?) এবং অবশেষে একটি কঠোর, তত্ত্ব-চালিত সমাধান নির্মাণের দিকে এগিয়ে যায়। পাঁচ-কাজের কাঠামোটি এর কিলার ফিচার, যা কঠিনতার একটি গ্রেডিয়েন্ট তৈরি করে যা মুখস্থ করা এবং সত্যিকারের বোঝার মধ্যে পরিষ্কারভাবে পৃথক করে।

শক্তি ও ত্রুটি: এর সর্বশ্রেষ্ঠ শক্তি হল এর শিক্ষণগত ভিত্তি। সাধারণ বেঞ্চমার্কের বিপরীতে, এটি টিসিএফএল ডোমেইনের জন্য এবং দ্বারা তৈরি। এটি এমএমএলইউ (ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং)-এর মতো বেঞ্চমার্কের পিছনের দর্শনকে প্রতিফলিত করে যা বিভিন্ন শাস্ত্র জুড়ে বিশেষজ্ঞ-স্তরের জ্ঞান সংগ্রহ করে, কিন্তু সিপিজি-ইভ্যাল একটি একক, প্রয়োগ ক্ষেত্রে আরও গভীরে যায়। একটি সম্ভাব্য ত্রুটি হল মূল্যায়ন-এর উপর উন্নতি-এর উপর এর বর্তমান ফোকাস। এটি অসুস্থতার চমৎকারভাবে রোগ নির্ণয় করে কিন্তু সীমিত প্রেসক্রিপশন দেয়। ভবিষ্যতের কাজকে অবশ্যই সিপিজি-ইভ্যাল-এর কার্যক্ষমতাকে নির্দিষ্ট ফাইন-টিউনিং বা অ্যালাইনমেন্ট কৌশলগুলোর সাথে সংযুক্ত করতে হবে, ঠিক যেমন আরএজি (রিট্রিভাল-অগমেন্টেড জেনারেশন) পূর্ববর্তী বেঞ্চমার্ক দ্বারা চিহ্নিত বিভ্রান্তির সমস্যা সমাধানের জন্য তৈরি করা হয়েছিল।

কার্যকরী অন্তর্দৃষ্টি: এডটেক কোম্পানিগুলোর জন্য, এটি একটি বাধ্যতামূলক ডিউ-ডিলিজেন্স টুল—সিপিজি-ইভ্যাল চালানো ছাড়া কখনই এলএলএম-ভিত্তিক চীনা টিউটর মোতায়েন করবেন না। মডেল ডেভেলপারদের জন্য, বেঞ্চমার্কটি "নির্দেশনামূলক সমন্বয়"-এর জন্য একটি পরিষ্কার রোডম্যাপ প্রদান করে, যা সাংবিধানিক এআই-এর বাইরে একটি নতুন সীমানা। হস্তক্ষেপ কাজে কম স্কোরগুলি ইঙ্গিত দেয় যে কিউরেটেড, শিক্ষণগতভাবে কাঠামোবদ্ধ ডেটাসেটে প্রশিক্ষণ—ডল-ই ৩ বা আলফাকোড ২-এ ব্যবহৃত সিনথেটিক ডেটা কৌশলগুলোর অনুরূপ—অপরিহার্য। শিক্ষক ও নীতিনির্ধারকদের জন্য, গবেষণাটি এআই-সহায়িত শিক্ষায় মান ও প্রত্যয়নের জন্য একটি শক্তিশালী যুক্তি। এআই টিউটরদের অন্ধ বিশ্বাসের যুগ শেষ।

6. প্রযুক্তিগত বিবরণ ও গাণিতিক সূত্রায়ন

পিডিএফ প্রিভিউ জটিল সূত্রের বিস্তারিত বিবরণ দেয় না, তবুও মূল্যায়ন যুক্তি আনুষ্ঠানিক করা যেতে পারে। মূল মেট্রিক হল $n$ উদাহরণ সমন্বিত বেঞ্চমার্ক $B$ থেকে একটি কাজ $T_i$-তে একটি মডেল $M$-এর নির্ভুলতা:

\[ \text{নির্ভুলতা}(M, T_i) = \frac{1}{|D_{T_i}|} \sum_{x \in D_{T_i}} \mathbb{I}(\hat{y}_x = y_x) \]

যেখানে $D_{T_i}$ হল কাজ $i$-এর জন্য ডেটাসেট, $\hat{y}_x$ হল উদাহরণ $x$-এর জন্য মডেলের পূর্বাভাস, $y_x$ হল সোনালি লেবেল, এবং $\mathbb{I}$ হল নির্দেশক ফাংশন।

মূল উদ্ভাবন হল $D_{T_i}$-এর নির্মাণ, বিশেষ করে হস্তক্ষেপ কাজের জন্য। এগুলো সম্ভবত নিয়ন্ত্রিত নেতিবাচক উদাহরণ বা প্রতিপক্ষীয় বিঘ্ন জড়িত। উদাহরণস্বরূপ, সম্পন্ন ক্রিয়া বনাম অবস্থার পরিবর্তনের জন্য "$\text{了}$" (লে)-এর মধ্যে পার্থক্য পরীক্ষা করার একটি কাজে, একটি হস্তক্ষেপ উদাহরণ হতে পারে: "他病了三天。" (সে তিন দিন ধরে অসুস্থ আছে।) বনাম "他病三天了。" (সে তিন দিন ধরে অসুস্থ আছে।)। সূক্ষ্ম পার্থক্যটি গভীর বাক্য গঠনগত এবং শব্দার্থিক বোঝাপড়া পরীক্ষা করে।

7. বিশ্লেষণ কাঠামো: উদাহরণ কেস

পরিস্থিতি: টিসিএফএল-এর একটি ক্লাসিক চ্যালেঞ্জ "$\text{把}$" (বা) গঠন সম্পর্কে একটি এলএলএম-এর বোঝাপড়া মূল্যায়ন করা।

সিপিজি-ইভ্যাল কাজ প্রয়োগ:

স্বীকৃতি (কাজ ১): উপস্থাপন: "我把书放在桌子上。" (আমি বইটি টেবিলের উপর রাখলাম।) মডেলটিকে এটিকে সঠিক হিসেবে বিচার করতে হবে।
সূক্ষ্ম-দানাদার পার্থক্য (কাজ ২): "我把书看了。" (আমি বইটি পড়লাম।) এর সাথে "书被我看了。" (বইটি আমার দ্বারা পড়া হয়েছে।) এর বিপরীতে তুলনা করুন। মডেলটিকে এজেন্ট থেকে পেশেন্টের দিকে ফোকাস শিফট ব্যাখ্যা করতে হবে।
শ্রেণীবদ্ধ বৈষম্য (কাজ ৩): একটি ত্রুটি দেওয়া হয়েছে: "我放书在桌子上。" (আমি বই টেবিলের উপর রাখি।)—"$\text{把}$" অনুপস্থিত। মডেলটিকে ত্রুটির প্রকারকে "প্রয়োজনীয় স্থানে বা-গঠনের অনুপস্থিতি" হিসেবে শ্রেণীবদ্ধ করতে হবে।
হস্তক্ষেপ - একক (কাজ ৪): একটি বিভ্রান্তিকর সঠিক বাক্য প্রদান করুন যা "$\text{把}$" ব্যবহার করে না কিন্তু পারত: "我打开了门。" (আমি দরজা খুললাম।) বনাম "我把门打开了。" মডেলটিকে স্বীকার করতে হবে যে উভয়ই ব্যাকরণগতভাবে বৈধ কিন্তু ব্যবহারিকভাবে ভিন্ন।
হস্তক্ষেপ - একাধিক (কাজ ৫): বাক্যগুলোর একটি সেট প্রদান করুন, কিছু "$\text{把}$" সঠিকভাবে ব্যবহার করে, কিছু ভুলভাবে, এবং কিছু বিকল্প গঠন ব্যবহার করে। জিজ্ঞাসা করুন: "কোন দুটি বাক্য বস্তুর উপর একই ব্যাকরণিক ফোকাস প্রদর্শন করে?" এর জন্য ক্রস-সেন্টেন্স যুক্তির প্রয়োজন।

এই কেসটি দেখায় যে কীভাবে সিপিজি-ইভ্যাল সহজ প্যাটার্ন ম্যাচিং থেকে পরিশীলিত শিক্ষণগত যুক্তির দিকে এগিয়ে যায়।

8. ভবিষ্যতের প্রয়োগ ও গবেষণার দিকনির্দেশনা

বেঞ্চমার্ক সম্প্রসারণ: জটিল শিক্ষণ ব্যাকরণ সহ অন্যান্য ভাষায় (যেমন, কোরিয়ান, আরবি) সিপিজি-ইভ্যাল প্রসারিত করা।
মূল্যায়ন থেকে উন্নতির দিকে: নির্দেশনামূলক সমন্বয় ফাইন-টিউনিং-এর জন্য একটি প্রশিক্ষণ সংকেত হিসেবে সিপিজি-ইভ্যাল ব্যবহার করা, শিক্ষাদানের ভূমিকার জন্য বিশেষভাবে অপ্টিমাইজ করা এলএলএম তৈরি করা।
শিক্ষামূলক প্ল্যাটফর্মের সাথে একীকরণ: এআই টিউটর গুণমানের ক্রমাগত পর্যবেক্ষণের জন্য এডটেক প্ল্যাটফর্মের মধ্যে সিপিজি-ইভ্যাল-এর মতো মূল্যায়ন মডিউল এম্বেড করা।
মাল্টিমোডাল মূল্যায়ন: ভবিষ্যতের বেঞ্চমার্কগুলি ডায়াগ্রাম, অঙ্গভঙ্গি বা কোড-সুইচিং ব্যবহার করে ব্যাকরণ ব্যাখ্যা করার একটি এআই-এর ক্ষমতা মূল্যায়ন করতে পারে, খাঁটি পাঠ্যের বাইরে যাওয়া।
দীর্ঘমেয়াদী ও অভিযোজিত মূল্যায়ন: এমন বেঞ্চমার্ক তৈরি করা যা একটি মডেলের ব্যাখ্যাগুলো একটি সিমুলেটেড শিক্ষার্থীর বিকাশমান দক্ষতার স্তরের সাথে খাপ খাইয়ে নেওয়ার ক্ষমতা ট্র্যাক করে, সত্যিকারের ব্যক্তিগতকৃত এআই টিউটরিং-এর দিকে একটি পদক্ষেপ।

9. তথ্যসূত্র

Wang, D. (2025). CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models. arXiv preprint arXiv:2504.13261.
Bin-Hady, W. R. A., Al-Kadi, A., Hazaea, A., & Ali, J. K. M. (2023). Exploring the dimensions of ChatGPT in English language learning: A global perspective. Library Hi Tech.
Kohnke, L., Moorhouse, B. L., & Zou, D. (2023). ChatGPT for language teaching and learning. RELC Journal.
Srivastava, A., et al. (2022). Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615.
Liang, P., et al. (2023). Holistic Evaluation of Language Models. Transactions on Machine Learning Research.
Hendrycks, D., et al. (2021). Measuring Massive Multitask Language Understanding. Proceedings of ICLR.
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems.