সিপিজি-ইভ্যাল: এলএলএম-এর চীনা শিক্ষামূলক ব্যাকরণ দক্ষতা মূল্যায়নের জন্য একটি বহুস্তরীয় বেঞ্চমার্ক

1. ভূমিকা

চ্যাটজিপিটি-এর মতো বড় ভাষা মডেলগুলির (এলএলএম) বিদেশি ভাষা শিক্ষায় দ্রুত একীকরণ বিশেষায়িত মূল্যায়ন কাঠামোর জন্য একটি জরুরি প্রয়োজন তৈরি করেছে। যদিও এই মডেলগুলি স্বায়ত্তশাসিত শেখা এবং বিষয়বস্তু তৈরিতে সহায়তার প্রতিশ্রুতি দেখায়, কার্যকর ভাষা নির্দেশনার জন্য অপরিহার্য তাদের মূল শিক্ষামূলক ব্যাকরণ দক্ষতা—বৃহৎ পরিমাণে মূল্যায়ন করা হয়নি। এই গবেষণাপত্রটি এই গুরুত্বপূর্ণ ফাঁকটি সমাধান করে সিপিজি-ইভ্যাল-এর মাধ্যমে, যা বিদেশিদের জন্য চীনা ভাষা শিক্ষাদানের (টিসিএফএল) প্রেক্ষাপটে এলএলএম-এর শিক্ষামূলক ব্যাকরণ জ্ঞান পদ্ধতিগতভাবে মূল্যায়নের জন্য প্রথম নিবেদিত বেঞ্চমার্ক।

গবেষণাপত্রটি যুক্তি দেয় যে, যেমন মানব শিক্ষকদের প্রত্যয়নের প্রয়োজন, তেমনি শিক্ষামূলক ভূমিকায় নিযুক্ত এআই সিস্টেমগুলিকে কঠোর, ডোমেন-নির্দিষ্ট মূল্যায়নের মধ্য দিয়ে যেতে হবে। সিপিজি-ইভ্যাল ব্যাকরণ চিহ্নিতকরণ, সূক্ষ্ম পার্থক্য, শ্রেণিবিন্যাসকারী বৈষম্য এবং ভাষাগত হস্তক্ষেপের প্রতি প্রতিরোধ মূল্যায়নের জন্য একটি তত্ত্ব-চালিত, বহুস্তরীয় কাঠামো প্রদান করে।

2. সম্পর্কিত কাজ

এনএলপি-তে বিদ্যমান বেঞ্চমার্ক, যেমন গ্লু, সুপারগ্লু এবং এমএমএলইউ, প্রাথমিকভাবে সাধারণ ভাষা বোঝা এবং যুক্তি মূল্যায়ন করে। তবে, নির্দেশনার উপযুক্ততা মূল্যায়নের জন্য প্রয়োজনীয় শিক্ষামূলক ফোকাস তাদের নেই। শিক্ষায় এলএলএম-এর উপর গবেষণা ত্রুটি সংশোধন এবং কথোপকথন অনুশীলনের মতো প্রয়োগগুলি অন্বেষণ করেছে, কিন্তু ভাষা শিক্ষাদানের দক্ষতার উপর ভিত্তি করে একটি পদ্ধতিগত, ব্যাকরণ-কেন্দ্রিক মূল্যায়ন অনুপস্থিত ছিল। সিপিজি-ইভ্যাল টিসিএফএল-এর প্রতিষ্ঠিত শিক্ষামূলক ব্যাকরণ শ্রেণিবিন্যাস পদ্ধতির সাথে বেঞ্চমার্ক ডিজাইনকে সারিবদ্ধ করে এই ফাঁকটি পূরণ করে।

3. সিপিজি-ইভ্যাল বেঞ্চমার্ক

সিপিজি-ইভ্যাল শিক্ষামূলক ব্যাকরণ দক্ষতার বিভিন্ন মাত্রা অনুসন্ধানের জন্য একটি ব্যাপক, বহু-কার্য বেঞ্চমার্ক হিসাবে নির্মিত হয়েছে।

3.1. তাত্ত্বিক ভিত্তি

বেঞ্চমার্কটি ব্যাপক টিসিএফএল নির্দেশনা অনুশীলনের মাধ্যমে বৈধকৃত একটি শিক্ষামূলক ব্যাকরণ শ্রেণিবিন্যাস পদ্ধতির উপর ভিত্তি করে তৈরি। এটি বাক্য গঠনগত সঠিকতার বাইরে গিয়ে প্রকৃত শিক্ষাদানের পরিস্থিতিতে প্রযোজ্য জ্ঞান মূল্যায়ন করে, ব্যাকরণগততা বিচার, ত্রুটি ব্যাখ্যা এবং নিয়ম প্রণয়নের মতো ধারণাগুলির উপর ফোকাস করে।

3.2. কার্য ডিজাইন ও কাঠামো

সিপিজি-ইভ্যাল একটি প্রগতিশীল মূল্যায়ন সিঁড়ি গঠনের জন্য ডিজাইন করা পাঁচটি মূল কার্য নিয়ে গঠিত:

কার্য ১: ব্যাকরণগততা বিচার – বাক্যের সঠিকতার বাইনারি শ্রেণিবিন্যাস।
কার্য ২: সূক্ষ্ম ত্রুটি শনাক্তকরণ – সঠিক ত্রুটিপূর্ণ উপাদান চিহ্নিত করা।
কার্য ৩: ত্রুটি শ্রেণিবিন্যাস – ত্রুটির ধরন শ্রেণিবদ্ধ করা (যেমন, কাল, দৃষ্টিভঙ্গি, শব্দক্রম)।
কার্য ৪: শিক্ষামূলক ব্যাখ্যা তৈরি – ত্রুটির জন্য শিক্ষার্থী-বান্ধব একটি ব্যাখ্যা প্রদান।
কার্য ৫: বিভ্রান্তিকর উদাহরণের প্রতি প্রতিরোধ – একাধিক, সম্ভাব্য বিভ্রান্তিকর উদাহরণ উপস্থাপিত হলে কর্মক্ষমতা মূল্যায়ন।

3.3. মূল্যায়ন মেট্রিক্স

কার্য ১-৩-এর জন্য কর্মক্ষমতা পরিমাপ করা হয় স্ট্যান্ডার্ড শ্রেণিবিন্যাস মেট্রিক্স (সঠিকতা, এফ১-স্কোর) ব্যবহার করে। সৃজনশীল কার্যগুলির (কার্য ৪) জন্য, বিএলইউ, রুজ এবং স্পষ্টতা, সঠিকতা এবং শিক্ষামূলক উপযুক্ততার উপর মানব মূল্যায়নের মতো মেট্রিক্স ব্যবহার করা হয়। কার্য ৫ বিচ্ছিন্ন উদাহরণের তুলনায় কর্মক্ষমতার অবনতি মূল্যায়ন করে।

4. পরীক্ষামূলক সেটআপ ও ফলাফল

4.1. মূল্যায়নকৃত মডেলসমূহ

গবেষণাটি জিপিটি-৩.৫, জিপিটি-৪, ক্লড ২ এবং বেশ কয়েকটি ওপেন-সোর্স মডেল (যেমন, এলএলএএমএ ২, চ্যাটজিএলএম) সহ বিভিন্ন এলএলএম মূল্যায়ন করে। মডেলগুলিকে জিরো-শট বা ফিউ-শট পদ্ধতিতে প্রম্পট করা হয় বাস্তব-বিশ্বের স্থাপনা অনুকরণ করার জন্য যেখানে ব্যাপক কার্য-নির্দিষ্ট ফাইন-টিউনিং সম্ভব নাও হতে পারে।

4.2. প্রধান ফলাফল

কর্মক্ষমতা ব্যবধান

ছোট মডেলগুলি (যেমন, ৭বি প্যারামিটার) সাধারণ ব্যাকরণগততা বিচারে ~৬৫% সঠিকতা অর্জন করে কিন্তু জটিল ত্রুটি ব্যাখ্যা কার্যে ৪০%-এর নিচে নেমে যায়।

স্কেল সুবিধা

বড় মডেলগুলি (যেমন, জিপিটি-৪) বহু-উদাহরণ এবং বিভ্রান্তিকর কার্যগুলিতে ১৫-২৫% পরম উন্নতি দেখায়, যা ভাল যুক্তি এবং হস্তক্ষেপ প্রতিরোধ প্রদর্শন করে।

গুরুত্বপূর্ণ দুর্বলতা

সমস্ত মডেল কার্য ৫ (বিভ্রান্তিকর উদাহরণ) নিয়ে উল্লেখযোগ্যভাবে সংগ্রাম করে, এমনকি শীর্ষ পারফর্মাররাও >৩০% কর্মক্ষমতা পতন দেখায়, যা সূক্ষ্ম ব্যাকরণগত বৈষম্যে ভঙ্গুরতা প্রকাশ করে।

4.3. ফলাফল বিশ্লেষণ

ফলাফলগুলি অসুবিধার একটি স্পষ্ট শ্রেণিবিন্যাস প্রকাশ করে। যদিও বেশিরভাগ মডেল পৃষ্ঠ-স্তরের সঠিকতা (কার্য ১) পরিচালনা করতে পারে, শিক্ষামূলকভাবে সঠিক ব্যাখ্যা প্রদান (কার্য ৪) এবং ভাষাগত হস্তক্ষেপের অধীনে সঠিকতা বজায় রাখার (কার্য ৫) তাদের ক্ষমতা মারাত্মকভাবে সীমিত। এটি নির্দেশ করে যে বর্তমান এলএলএম-গুলিতে ঘোষণামূলক ব্যাকরণ জ্ঞান রয়েছে কিন্তু কার্যকর শিক্ষাদানের জন্য প্রয়োজনীয় পদ্ধতিগত এবং শর্তাধীন জ্ঞানের অভাব রয়েছে।

চার্ট বর্ণনা (কল্পিত): একটি বহু-রেখা চার্টে y-অক্ষে মডেল কর্মক্ষমতা (সঠিকতা/এফ১) এবং x-অক্ষে পাঁচটি কার্য জুড়ে দেখানো হবে। বিভিন্ন মডেলের (জিপিটি-৪, জিপিটি-৩.৫, এলএলএএমএ ২) রেখাগুলি কার্য ১ থেকে কার্য ৫ পর্যন্ত একটি খাড়া পতন দেখাবে, ছোট মডেলগুলির জন্য ঢাল বেশি খাড়া হবে। একটি পৃথক বার চার্ট প্রতিটি মডেলের জন্য কার্য ১-এর তুলনায় কার্য ৫-এ কর্মক্ষমতা অবনতি চিত্রিত করবে, "হস্তক্ষেপের প্রতি সংবেদনশীলতা ব্যবধান" তুলে ধরবে।

5. আলোচনা ও প্রভাব

গবেষণাটি উপসংহারে পৌঁছেছে যে, এই ধরনের লক্ষ্যবস্তু মূল্যায়ন ছাড়াই এলএলএম-গুলিকে শিক্ষামূলক সরঞ্জাম হিসাবে স্থাপন করা অকাল। উল্লেখযোগ্য কর্মক্ষমতা ব্যবধান, বিশেষ করে জটিল, শিক্ষাদান-প্রাসঙ্গিক কার্যগুলিতে, আরও ভাল নির্দেশনা সারিবদ্ধতার প্রয়োজনীয়তা তুলে ধরে। ফলাফলগুলি আহ্বান জানায়: ১) আরও কঠোর, শিক্ষাবিদ্যা-প্রথম বেঞ্চমার্ক তৈরি; ২) শিক্ষামূলক যুক্তির উপর ফোকাস করা বিশেষায়িত প্রশিক্ষণ ডেটা তৈরি; ৩) মডেল ফাইন-টিউনিং বা প্রম্পটিং কৌশল বাস্তবায়ন যা শিক্ষামূলক আউটপুট বাড়ায়।

6. প্রযুক্তিগত বিশ্লেষণ ও কাঠামো

মূল অন্তর্দৃষ্টি

সিপিজি-ইভ্যাল শুধু আরেকটি সঠিকতা লিডারবোর্ড নয়; এটি শিক্ষায় এআই-এর অতিরঞ্জনের জন্য একটি বাস্তবতা পরীক্ষা। বেঞ্চমার্কটি একটি মৌলিক অসামঞ্জস্য প্রকাশ করে: এলএলএম-গুলি ইন্টারনেট-স্কেল কর্পোরার উপর পরবর্তী টোকেন ভবিষ্যদ্বাণীর জন্য অপ্টিমাইজ করা হয়েছে, শিক্ষাবিদ্যার প্রয়োজনীয় কাঠামোবদ্ধ, ত্রুটি-সংবেদনশীল এবং ব্যাখ্যা-চালিত যুক্তির জন্য নয়। এটি একটি স্ব-চালিত গাড়িকে শুধুমাত্র রৌদ্রোজ্জ্বল হাইওয়ে মাইলে মূল্যায়ন করার মতো—সিপিজি-ইভ্যাল ভাষা শিক্ষার কুয়াশা, বৃষ্টি এবং জটিল সংযোগস্থল প্রবর্তন করে।

যুক্তিগত প্রবাহ

গবেষণাপত্রের যুক্তি শক্তিশালী এবং নিন্দনীয়। এটি একটি অপরিহার্য প্রাক্কলন (অপ্রত্যয়িত এআই "শিক্ষক") থেকে শুরু করে, নির্দিষ্ট দক্ষতার ফাঁক (শিক্ষামূলক ব্যাকরণ) চিহ্নিত করে এবং একটি বেঞ্চমার্ক তৈরি করে যা ক্রমাগত মডেলের দুর্বলতাগুলি আক্রমণ করে। সহজ বিচার থেকে হস্তক্ষেপের অধীনে শক্তিশালী ব্যাখ্যা পর্যন্ত কার্যের অগ্রগতি একটি মাস্টারক্লাস ডায়াগনস্টিক মূল্যায়ন। এটি "মডেলটি কি উত্তর দিতে পারে?" থেকে "মডেলটি কি শেখাতে পারে?"-তে চলে যায়।

শক্তি ও ত্রুটি

শক্তি: ডোমেন-নির্দিষ্ট ফোকাস এর কিলার ফিচার। সাধারণ বেঞ্চমার্কের বিপরীতে, সিপিজি-ইভ্যাল-এর কার্যগুলি প্রকৃত শ্রেণিকক্ষের চ্যালেঞ্জ থেকে নেওয়া। "বিভ্রান্তিকর উদাহরণের প্রতি প্রতিরোধ" অন্তর্ভুক্তি বিশেষভাবে উজ্জ্বল, একটি মডেলের মেটালিঙ্গুইস্টিক সচেতনতা পরীক্ষা করে—একটি মূল শিক্ষক দক্ষতা। শুধুমাত্র ডেটা স্কেল নয়, শিক্ষাদান তত্ত্বের সাথে সারিবদ্ধতার আহ্বান বর্তমান এআই উন্নয়ন প্রবণতার জন্য একটি প্রয়োজনীয় সংশোধন।

ত্রুটি: বেঞ্চমার্কটি বর্তমানে একভাষিক (চীনা), যা সাধারণীকরণ সীমিত করে। মূল্যায়ন, যদিও বহুমুখী, এখনও ব্যাখ্যামূলক কার্যগুলির জন্য আংশিকভাবে স্বয়ংক্রিয় মেট্রিক্স (বিএলইউ/রুজ) এর উপর নির্ভর করে, যা শিক্ষামূলক গুণমানের জন্য দুর্বল প্রতিনিধি। হাগিং ফেস বিগসায়েন্স দল-এর সামগ্রিক মূল্যায়নের কাজে দেখা গেছে, বিশেষজ্ঞ মানব মূল্যায়নের উপর একটি ভারী নির্ভরতা এর দাবিগুলিকে শক্তিশালী করবে।

কার্যকরী অন্তর্দৃষ্টি

এডটেক কোম্পানিগুলির জন্য: এলএলএম-গুলিকে প্রস্তুত-তৈরি টিউটর হিসাবে বিপণন বন্ধ করুন। অভ্যন্তরীণ বৈধতার জন্য সিপিজি-ইভ্যাল-এর মতো কাঠামো ব্যবহার করুন। উচ্চ-গুণমান, শিক্ষামূলকভাবে টীকাযুক্ত ডেটাসেটে ফাইন-টিউনিংয়ে বিনিয়োগ করুন, শুধু আরও সাধারণ পাঠ্য নয়।

গবেষকদের জন্য: এই কাজটি উল্লম্বভাবে এবং অনুভূমিকভাবে প্রসারিত করা উচিত। উল্লম্বভাবে, আরও ইন্টারেক্টিভ, সংলাপ-ভিত্তিক শিক্ষাদানের পরিস্থিতি অন্তর্ভুক্ত করে। অনুভূমিকভাবে, অন্যান্য ভাষার জন্য সমতুল্য তৈরি করে (যেমন, ইংরেজি, স্প্যানিশ)। ক্ষেত্রটির একটি "পেডাগজিগ্লু" স্যুট প্রয়োজন।

শিক্ষক ও নীতিনির্ধারকদের জন্য: স্বচ্ছতা দাবি করুন। কোনো এআই টুল গ্রহণের আগে, এর "সিপিজি-ইভ্যাল স্কোর" বা সমতুল্য জিজ্ঞাসা করুন। এই ধরনের বেঞ্চমার্কের উপর ভিত্তি করে প্রত্যয়ন মান প্রতিষ্ঠা করুন। অন্যান্য এআই ডোমেনে এই নজির বিদ্যমান; এনআইএসটি এআই ঝুঁকি ব্যবস্থাপনা কাঠামো প্রসঙ্গ-নির্দিষ্ট মূল্যায়নের উপর জোর দেয়, যা শিক্ষার জন্য অত্যন্ত প্রয়োজন।

প্রযুক্তিগত বিবরণ ও বিশ্লেষণ কাঠামো

বেঞ্চমার্কের ডিজাইন অন্তর্নিহিতভাবে শিক্ষামূলক দক্ষতাকে একাধিক ক্ষমতার একটি ফাংশন হিসাবে মডেল করে। আমরা একটি শিক্ষাদান কার্য $T$-তে প্রত্যাশিত কর্মক্ষমতা $P$ কে আনুষ্ঠানিকভাবে প্রকাশ করতে পারি:

$P(T) = f(K_d, K_p, K_c, R)$

যেখানে:
$K_d$ = ঘোষণামূলক জ্ঞান (ব্যাকরণ নিয়ম),
$K_p$ = পদ্ধতিগত জ্ঞান (নিয়ম কীভাবে প্রয়োগ করতে হয়),
$K_c$ = শর্তাধীন জ্ঞান (কখন/কেন নিয়ম প্রয়োগ করতে হয়),
$R$ = হস্তক্ষেপ এবং প্রান্তিক ক্ষেত্রে প্রতিরোধ ক্ষমতা।

সিপিজি-ইভ্যাল-এর কার্যগুলি এই চলকগুলির সাথে ম্যাপ করে: কার্য ১-৩ $K_d$ অনুসন্ধান করে, কার্য ৪ $K_p$ এবং $K_c$ অনুসন্ধান করে, এবং কার্য ৫ সরাসরি $R$ পরীক্ষা করে। ফলাফলগুলি দেখায় যে স্কেলিং $K_d$ এবং কিছুটা $R$ উন্নত করলেও, $K_p$ এবং $K_c$ প্রধান বাধা হিসাবে রয়ে গেছে।

বিশ্লেষণ কাঠামো উদাহরণ কেস

পরিস্থিতি: "*গতকাল আমি স্কুলে যাই।" এই বাক্যে ত্রুটির জন্য একটি এলএলএম-এর ব্যাখ্যা মূল্যায়ন করা।

সিপিজি-ইভ্যাল কাঠামো বিশ্লেষণ:
১. কার্য ১ (বিচার): মডেলটি সঠিকভাবে বাক্যটিকে ব্যাকরণবহির্ভূত হিসাবে লেবেল করে। [$K_d$ পরীক্ষা করে]
২. কার্য ২ (শনাক্তকরণ): মডেলটি "যাই" কে ত্রুটি হিসাবে শনাক্ত করে। [$K_d$ পরীক্ষা করে]
৩. কার্য ৩ (শ্রেণিবিন্যাস): মডেলটি ত্রুটিকে "কাল অসামঞ্জস্য" হিসাবে শ্রেণিবদ্ধ করে। [$K_d$ পরীক্ষা করে]
৪. কার্য ৪ (ব্যাখ্যা): মডেলটি তৈরি করে: "অতীতের কাজের জন্য, অতীত কাল 'গিয়েছিলাম' ব্যবহার করুন। ক্রিয়াবিশেষণ 'গতকাল' অতীত সময় নির্দেশ করে।" [$K_p$, $K_c$ পরীক্ষা করে—প্রসঙ্গের সূত্রের সাথে নিয়ম সংযুক্ত করা]।
৫. কার্য ৫ (বিভ্রান্তিকর): "গতকাল আমি যাই..." এবং "প্রতিদিন আমি গিয়েছিলাম..." উপস্থাপিত হলে, মডেলটিকে উভয়কে সঠিকভাবে ব্যাখ্যা করতে হবে, অত্যধিক সাধারণীকরণ করা যাবে না। [$R$ পরীক্ষা করে]।

একটি মডেল ১-৩ পাস করতে পারে কিন্তু ৪ ব্যর্থ করতে পারে "গতকাল"-এর সাথে সংযোগ ছাড়াই একটি রহস্যময় নিয়ম ("অতীত কাল ব্যবহার করুন") দিয়ে, এবং ৫ ব্যর্থ করতে পারে দ্বিতীয় উদাহরণে অভ্যাসগত কাজে অতীত কালের নিয়ম কঠোরভাবে প্রয়োগ করে।

7. ভবিষ্যত প্রয়োগ ও দিকনির্দেশনা

সিপিজি-ইভ্যাল কাঠামো বেশ কয়েকটি গুরুত্বপূর্ণ অগ্রগতির পথ প্রশস্ত করে:

বিশেষায়িত মডেল প্রশিক্ষণ: বেঞ্চমার্কটি একটি প্রশিক্ষণ উদ্দেশ্য হিসাবে ব্যবহার করা যেতে পারে উন্নত শিক্ষামূলক ব্যাকরণ দক্ষতা সহ "শিক্ষক এলএলএম" ফাইন-টিউন করার জন্য, সাধারণ চ্যাট অপ্টিমাইজেশনের বাইরে যাওয়ার জন্য।
গতিশীল মূল্যায়ন সরঞ্জাম: অভিযোজিত শেখার প্ল্যাটফর্মে সিপিজি-ইভ্যাল-স্টাইল মূল্যায়ন একীভূত করা যাতে একটি মডেলের টিউটরিং শক্তি এবং দুর্বলতা রিয়েল-টাইমে গতিশীলভাবে নির্ণয় করা যায় এবং সেই অনুযায়ী শিক্ষার্থীর প্রশ্নগুলি রুট করা যায়।
ক্রস-লিঙ্গুয়াল বেঞ্চমার্ক: অন্যান্য ব্যাপকভাবে শেখানো ভাষার জন্য (যেমন, ইংরেজি, স্প্যানিশ, আরবি) অনুরূপ বেঞ্চমার্ক তৈরি করা যাতে এলএলএম-এর বিশ্বব্যাপী শিক্ষামূলক প্রস্তুতির একটি ব্যাপক মানচিত্র তৈরি করা যায়।
শিক্ষামূলক তত্ত্বের সাথে একীকরণ: ভবিষ্যতের পুনরাবৃত্তিগুলি দ্বিতীয় ভাষা অর্জনের আরও সূক্ষ্ম দিকগুলি অন্তর্ভুক্ত করতে পারে, যেমন অর্জনের ক্রম, সাধারণ শিক্ষার্থীর গতিপথ এবং বিভিন্ন সংশোধনমূলক প্রতিক্রিয়া কৌশলের কার্যকারিতা, যেমন এলিস (২০০৮)-এর মতো মৌলিক কাজে আলোচিত হয়েছে।
প্রত্যয়িত এআই টিউটরের দিকে: সিপিজি-ইভ্যাল শ্রেণিকক্ষে স্থাপনার আগে শিক্ষামূলক দক্ষতার একটি বেসলাইন নিশ্চিত করে, এআই শিক্ষামূলক সরঞ্জামগুলির জন্য সম্ভাব্য ভবিষ্যত প্রত্যয়ন প্রোগ্রামের জন্য একটি মৌলিক মেট্রিক প্রদান করে।

8. তথ্যসূত্র

Wang, D. (2025). CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models. arXiv preprint arXiv:2504.13261.
Brown, T., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33.
Ellis, R. (2008). The Study of Second Language Acquisition (2nd ed.). Oxford University Press.
Liang, P., et al. (2023). Holistic Evaluation of Language Models. Transactions on Machine Learning Research.
OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
NIST. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). National Institute of Standards and Technology.
Hugging Face. (2023). Evaluating Large Language Models. Hugging Face Blog. Retrieved from https://huggingface.co/blog/evaluation-llms
Bin-Hady, W. R. A., et al. (2023). Exploring the role of ChatGPT in language learning and teaching. Journal of Computer Assisted Learning.