ردیابی دانش منصفانه در فراگیری زبان دوم: تحلیل سوگیری الگوریتمی

1. مقدمه

مدل‌سازی پیش‌بینی در آموزش، به ویژه ردیابی دانش (KT)، با هدف مدل‌سازی وضعیت دانش دانش‌آموز برای شخصی‌سازی یادگیری انجام می‌شود. روش‌های سنتی متکی به قضاوت انسانی بودند که مستعد سوگیری‌های ناشی از محدودیت حافظه، خستگی و سوگیری مثبت‌نگری بودند. ردیابی دانش محاسباتی، که توسط کوربت و اندرسون (۱۹۹۴) معرفی شد، از داده‌های تعامل دانش‌آموز (نمرات، بازخورد، مشارکت) برای پیش‌بینی عملکرد آینده و تطبیق آموزش استفاده می‌کند.

در حالی که دقت همواره تمرکز اصلی بوده است، این پژوهش شکاف مهمی را برجسته می‌سازد: انصاف الگوریتمی. این مطالعه بررسی می‌کند که آیا مدل‌های پیش‌بینی در فراگیری زبان دوم (با استفاده از داده‌های دولینگو) سوگیری‌های ناخواسته‌ای علیه گروه‌های خاص بر اساس پلتفرم (iOS، Android، Web) یا وضعیت توسعه کشور (توسعه‌یافته در برابر در حال توسعه) نشان می‌دهند یا خیر.

2. روش‌شناسی و چیدمان آزمایشی

این مطالعه از یک چارچوب تحلیل تطبیقی برای ارزیابی انصاف در کنار دقت استفاده می‌کند.

2.1 مجموعه داده‌ها و مسیرهای یادگیری

سه مسیر یادگیری از مجموعه داده وظیفه مشترک دولینگو ۲۰۱۸ استفاده شد:

en_es: انگلیسی‌زبانانی که اسپانیایی یاد می‌گیرند.
es_en: اسپانیایی‌زبانانی که انگلیسی یاد می‌گیرند.
fr_en: فرانسوی‌زبانانی که انگلیسی یاد می‌گیرند.

داده‌ها شامل توالی تمرین‌های دانش‌آموز، صحت پاسخ و فراداده (پلتفرم کلاینت، کشور) است. کشورها بر اساس شاخص‌های اقتصادی استاندارد (مانند طبقه‌بندی صندوق بین‌المللی پول) به «توسعه‌یافته» یا «در حال توسعه» طبقه‌بندی شدند.

2.2 مدل‌های پیش‌بینی

دو دسته مدل ارزیابی شدند:

یادگیری ماشین (ML): مدل‌های سنتی مانند رگرسیون لجستیک، جنگل‌های تصادفی.
یادگیری عمیق (DL): مدل‌های مبتنی بر شبکه عصبی، احتمالاً شامل گونه‌هایی از ردیابی دانش عمیق (DKT) یا معماری‌های مبتنی بر ترنسفورمر.

وظیفه اصلی، پیش‌بینی دودویی بود: آیا دانش‌آموز تمرین بعدی را به درستی پاسخ خواهد داد؟

2.3 معیارهای انصاف

انصاف با استفاده از معیارهای انصاف گروهی ارزیابی شد و عملکرد مدل در بین گروه‌های محافظت‌شده مقایسه گردید:

انصاف پلتفرم: مقایسه دقت، امتیاز F1 یا AUC بین کاربران در کلاینت‌های iOS، Android و Web.
انصاف جغرافیایی: مقایسه معیارهای عملکرد بین کاربران از کشورهای توسعه‌یافته و در حال توسعه.

اختلاف در این معیارها نشان‌دهنده سوگیری الگوریتمی است. یک مدل کاملاً منصف عملکردی برابر در تمام گروه‌ها خواهد داشت.

3. نتایج و یافته‌ها

این مطالعه چهار یافته کلیدی به دست داد که مصالحه‌ها و سوگیری‌های قابل توجهی را آشکار کرد.

3.1 مصالحه دقت در برابر انصاف

مدل‌های یادگیری عمیق (DL) عموماً از مدل‌های یادگیری ماشین (ML) هم در دقت و هم در انصاف عملکرد بهتری داشتند. توانایی DL در تشخیص الگوهای پیچیده و غیرخطی در داده‌های یادگیری ترتیبی، منجر به پیش‌بینی‌های قوی‌تری می‌شود که کمتر به همبستگی‌های کاذب مرتبط با ویژگی‌های حساس وابسته هستند.

3.2 سوگیری پلتفرم (iOS/Android/Web)

هر دو الگوریتم ML و DL سوگیری قابل توجهی به نفع کاربران موبایل (iOS/Android) در مقایسه با کاربران غیرموبایل (Web) نشان دادند. این امر می‌تواند ناشی از تفاوت‌های کیفیت داده (مانند الگوهای تعامل، طول جلسه)، طراحی رابط کاربری، یا مشخصات جمعیتی معمولاً مرتبط با هر پلتفرم باشد. این سوگیری، یادگیرندگانی را که عمدتاً از طریق رایانه رومیزی به ابزارهای آموزشی دسترسی دارند، در معرض خطر قرار می‌دهد.

3.3 سوگیری جغرافیایی (توسعه‌یافته در برابر در حال توسعه)

الگوریتم‌های ML در مقایسه با الگوریتم‌های DL، سوگیری بارزتری علیه کاربران از کشورهای در حال توسعه نشان دادند. این یک یافته حیاتی است، زیرا مدل‌های ML ممکن است نابرابری‌های تاریخی موجود در داده‌های آموزشی (مانند تفاوت در دسترسی قبلی به آموزش، قابلیت اطمینان اینترنت) را یاد گرفته و تقویت کنند. مدل‌های DL، اگرچه مصون نیستند، اما مقاومت بیشتری در برابر این سوگیری جغرافیایی نشان دادند.

انتخاب مدل بهینه: این مطالعه رویکردی ظریف را پیشنهاد می‌کند:

از یادگیری عمیق برای مسیرهای en_es و es_en برای بهترین تعادل بین انصاف و دقت استفاده کنید.
برای مسیر fr_en، یادگیری ماشین را در نظر بگیرید، جایی که مشخصه انصاف-دقت آن برای آن زمینه خاص مناسب‌تر تشخیص داده شد.

4. تحلیل فنی و چارچوب

4.1 صورتبندی ردیابی دانش

در هسته خود، ردیابی دانش، وضعیت دانش پنهان یک دانش‌آموز را مدل می‌کند. با توجه به یک دنباله از تعاملات $X_t = \{(q_1, a_1), (q_2, a_2), ..., (q_t, a_t)\}$، که در آن $q_i$ یک تمرین/سوال و $a_i \in \{0,1\}$ صحت پاسخ است، هدف پیش‌بینی احتمال صحت در تمرین بعدی است: $P(a_{t+1}=1 | X_t)$.

ردیابی دانش عمیق (پیچ و همکاران، ۲۰۱۵) از یک شبکه عصبی بازگشتی (RNN) برای مدل‌سازی این امر استفاده می‌کند:

$h_t = \text{RNN}(h_{t-1}, x_t)$

$P(a_{t+1}=1) = \sigma(W \cdot h_t + b)$

که در آن $h_t$ حالت پنهان نمایانگر وضعیت دانش در زمان $t$ است، $x_t$ تعبیه ورودی $(q_t, a_t)$ است، و $\sigma$ تابع سیگموید است.

4.2 چارچوب ارزیابی انصاف

این مطالعه به طور ضمنی از یک پارادایم انصاف گروهی استفاده می‌کند. برای یک پیش‌بینیکننده دودویی $\hat{Y}$ و یک ویژگی حساس $A$ (مانند پلتفرم یا گروه کشور)، معیارهای رایج شامل موارد زیر هستند:

تفاوت برابری آماری: $|P(\hat{Y}=1|A=0) - P(\hat{Y}=1|A=1)|$
تفاوت فرصت برابر: $|P(\hat{Y}=1|A=0, Y=1) - P(\hat{Y}=1|A=1, Y=1)|$ (زمانی استفاده می‌شود که برچسب‌های واقعی Y شناخته شده باشند).
اختلاف معیار عملکرد: تفاوت در دقت، AUC یا امتیاز F1 بین گروه‌ها.

اختلاف کوچکتر نشان‌دهنده انصاف بیشتر است. یافته‌های مقاله نشان می‌دهد که مدل‌های DL این اختلافات را در بین گروه‌های تعریف‌شده مؤثرتر از مدل‌های ML به حداقل می‌رسانند.

5. مطالعه موردی: کاربرد چارچوب

سناریو: یک شرکت فناوری آموزشی از یک مدل KT برای توصیه تمرین‌های مرور در اپلیکیشن یادگیری زبان خود استفاده می‌کند. مدل بر روی داده‌های کاربران جهانی آموزش دیده است.

مشکل: تحلیل‌های پس از استقرار نشان می‌دهد که کاربران در کشور X (یک کشور در حال توسعه) در مقایسه با کاربران در کشور Y (یک کشور توسعه‌یافته)، ۱۵٪ نرخ بالاتری از توصیه نادرست تمرین‌هایی دارند که بیش از حد دشوار هستند، که منجر به ناامیدی و ترک یادگیری می‌شود.

تحلیل با استفاده از چارچوب این مقاله:

شناسایی گروه حساس: کاربران از کشورهای در حال توسعه در برابر توسعه‌یافته.
بازرسی مدل: محاسبه معیارهای عملکرد (دقت، AUC) به طور جداگانه برای هر گروه. اختلاف مشاهده‌شده ۱۵٪ در «نرخ توصیه دشواری مناسب» یک نقض انصاف است.
تشخیص: آیا مدل ML است یا DL؟ بر اساس این مطالعه، یک مدل ML احتمال بیشتری دارد که این سوگیری جغرافیایی را نشان دهد. توزیع ویژگی‌ها را بررسی کنید—شاید مدل بیش از حد به ویژگی‌های مرتبط با توسعه کشور (مانند میانگین سرعت اتصال، نوع دستگاه) متکی است.
اصلاح: در نظر بگیرید که به یک معماری KT مبتنی بر DL تغییر دهید، که این مطالعه آن را در برابر این سوگیری مقاوم‌تر یافته است. به طور جایگزین، تکنیک‌های آموزش آگاه از انصاف (مانند خنثی‌سازی متخاصم، وزن‌دهی مجدد) را روی مدل موجود اعمال کنید.
نظارت: پس از مداخله، معیار انصاف را به طور مستمر ردیابی کنید تا اطمینان حاصل شود که سوگیری کاهش یافته است.

6. کاربردها و جهت‌های آتی

پیامدهای این پژوهش فراتر از یادگیری زبان دوم گسترش می‌یابد:

یادگیری شخصی‌شده در مقیاس: مدل‌های KT منصفانه می‌توانند سیستم‌های یادگیری سازگار واقعاً عادلانه‌ای در MOOCها (مانند Coursera، edX) و سیستم‌های آموزش هوشمند ممکن سازند و اطمینان حاصل کنند که توصیه‌ها برای همه جمعیت‌ها مؤثر هستند.
بازرسی سوگیری برای فناوری آموزشی: این چارچوب یک طرح کلی برای بازرسی نرم‌افزارهای آموزشی تجاری از نظر سوگیری الگوریتمی ارائه می‌دهد، که نگرانی فزاینده‌ای برای تنظیم‌کنندگان و مربیان است.
انصاف بین‌حوزه‌ای: کار آینده باید انصاف را در سایر ویژگی‌های حساس بررسی کند: جنسیت، سن، وضعیت اقتصادی-اجتماعی استنباط‌شده از داده‌ها، و ناتوانی‌های یادگیری.
تحلیل انصاف علّی: فراتر از همبستگی رفتن برای درک علل سوگیری—آیا داده‌ها، معماری مدل، یا زمینه یادگیری است؟ تکنیک‌های استنتاج علّی می‌توانند ادغام شوند.
یادگیری منصفانه فدرال و حفظ حریم خصوصی: آموزش مدل‌های منصفانه بر روی داده‌های کاربری غیرمتمرکز بدون به خطر انداختن حریم خصوصی، یک جهت کلیدی برای هوش مصنوعی اخلاقی در آموزش.

7. منابع

Baker, R.S., Inventado, P.S. (2014). Educational Data Mining and Learning Analytics. In: Larusson, J., White, B. (eds) Learning Analytics. Springer, New York, NY.
Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning: Limitations and Opportunities. fairmlbook.org.
Duolingo. (2018). Second Language Acquisition Modeling (SLAM) Workshop Dataset. Retrieved from https://sharedtask.duolingo.com/
Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys (CSUR), 54(6), 1-35.

8. تحلیل و تفسیر کارشناسی

بینش اصلی: این مقاله یک حقیقت حیاتی و اغلب نادیده گرفته‌شده در فناوری آموزشی را ارائه می‌دهد: دقت بالا معادل آموزش عادلانه نیست. نویسندگان به طور قانع‌کننده‌ای نشان می‌دهند که مدل‌های استاندارد ردیابی دانش، در صورت استقرار ساده‌لوحانه، به طور سیستماتیک کل گروه‌هایی از یادگیرندگان—به ویژه آنهایی که از پلتفرم‌های وب استفاده می‌کنند و آنهایی که در کشورهای در حال توسعه هستند—را در موقعیت نامساعد قرار می‌دهند. بارزترین یافته این است که مدل‌های ساده‌تر یادگیری ماشین نه تنها دقت کمتری ندارند؛ بلکه به طور قابل توجهی ناعادلانه‌تر هستند و به عنوان تقویت‌کننده شکاف‌های اجتماعی و دیجیتال موجود عمل می‌کنند. این امر، انصاف الگوریتمی را نه به عنوان یک نگرانی اخلاقی حاشیه‌ای، بلکه به عنوان یک مؤلفه اصلی از عملکرد مدل و کارایی آموزشی قرار می‌دهد.

جریان منطقی: استدلال روشمند است. با تعیین ریسک‌های بالا (آموزش شخصی‌شده) و نقطه کور تاریخی (انصاف) آغاز می‌شود. سپس یک آزمایش تطبیقی دودویی تمیز (ML در برابر DL) را در سه زمینه یادگیری زبان متمایز تنظیم می‌کند. انتخاب محورهای انصاف—پلتفرم و جغرافیا—هوشمندانه است و متغیرهای استقرار دنیای واقعی را منعکس می‌کند که مستقیماً بر تجربه کاربر تأثیر می‌گذارند. نتایج به طور منطقی جریان می‌یابند: ظرفیت بازنمایی برتر DL نه تنها پیش‌بینی‌های بهتر، بلکه پیش‌بینی‌های منصفانه‌تری به دست می‌دهد. توصیه ظریف (DL برای en_es/es_en، ML برای fr_en) تازه‌کننده است، از یک دگم یک‌اندازه-برای-همه اجتناب می‌کند و وابستگی به زمینه را تصدیق می‌کند که نشانه تحلیل دقیق است.

نقاط قوت و ضعف: نقطه قوت اصلی آن تمرکز عملی و تجربی است. فراتر از بحث‌های نظری انصاف حرکت می‌کند تا شواهد قابل اندازه‌گیری از سوگیری در یک مجموعه داده پرکاربرد (دولینگو) ارائه دهد. این یک الگوی قدرتمند برای بازرسی داخلی مدل است. با این حال، تحلیل محدودیت‌هایی دارد. «توسعه‌یافته» و «در حال توسعه» را به عنوان بلوک‌های یکپارچه در نظر می‌گیرد و از ناهمگونی عظیم درون این دسته‌ها (مانند کاربران شهری در برابر روستایی) چشم‌پوشی می‌کند. این مطالعه همچنین به چرایی وجود سوگیری‌ها نمی‌پردازد. آیا بازنمایی ویژگی، حجم داده به ازای هر گروه، یا تفاوت‌های فرهنگی در الگوهای یادگیری است؟ همانطور که در بررسی جامع مهرابی و همکاران (۲۰۲۱) ذکر شده است، تشخیص علت ریشه‌ای سوگیری برای توسعه راه‌حل‌های مؤثر ضروری است. علاوه بر این، اگرچه DL در اینجا منصفانه‌تر به نظر می‌رسد، ماهیت «جعبه سیاه» آن می‌تواند سوگیری‌های ظریف‌تر و سخت‌تر برای تشخیص را پنهان کند، چالشی که در ادبیات انصاف برجسته شده است.

بینش‌های عملی: برای رهبران فناوری آموزشی و مدیران محصول، این پژوهش یک دستور برای تغییر است. اول، معیارهای انصاف باید در داشبورد ارزیابی استاندارد مدل ادغام شوند، در کنار دقت و AUC. قبل از استقرار هر ویژگی یادگیری سازگار، بازرسی‌ای مشابه این مطالعه انجام دهید. دوم، معماری‌های یادگیری عمیق را برای وظایف اصلی مدل‌سازی دانش‌آموز در اولویت قرار دهید، زیرا آنها محافظ ذاتی بهتری در برابر سوگیری ارائه می‌دهند، که روندهای مشاهده‌شده در سایر حوزه‌ها را تأیید می‌کند که در آن شبکه‌های عمیق ویژگی‌های قوی‌تری یاد می‌گیرند. سوم، داده‌های خود را تفکیک کنید. فقط به عملکرد «جهانی» نگاه نکنید. معیارها را بر اساس پلتفرم، منطقه و سایر جمعیت‌شناسی‌های مرتبط به عنوان یک عمل معمول برش دهید. در نهایت، در تحلیل علّی سرمایه‌گذاری کنید تا از مشاهده سوگیری به سمت درک و مهندسی آن حرکت کنید. آینده فناوری آموزشی عادلانه به برخورد با انصاف با همان دقت پیش‌بینی بستگی دارد.