1. مقدمه
مدلسازی پیشبینی در آموزش، به ویژه ردیابی دانش (KT)، با هدف مدلسازی وضعیت دانش دانشآموز برای شخصیسازی یادگیری انجام میشود. روشهای سنتی متکی به قضاوت انسانی بودند که مستعد سوگیریهای ناشی از محدودیت حافظه، خستگی و سوگیری مثبتنگری بودند. ردیابی دانش محاسباتی، که توسط کوربت و اندرسون (۱۹۹۴) معرفی شد، از دادههای تعامل دانشآموز (نمرات، بازخورد، مشارکت) برای پیشبینی عملکرد آینده و تطبیق آموزش استفاده میکند.
در حالی که دقت همواره تمرکز اصلی بوده است، این پژوهش شکاف مهمی را برجسته میسازد: انصاف الگوریتمی. این مطالعه بررسی میکند که آیا مدلهای پیشبینی در فراگیری زبان دوم (با استفاده از دادههای دولینگو) سوگیریهای ناخواستهای علیه گروههای خاص بر اساس پلتفرم (iOS، Android، Web) یا وضعیت توسعه کشور (توسعهیافته در برابر در حال توسعه) نشان میدهند یا خیر.
2. روششناسی و چیدمان آزمایشی
این مطالعه از یک چارچوب تحلیل تطبیقی برای ارزیابی انصاف در کنار دقت استفاده میکند.
2.1 مجموعه دادهها و مسیرهای یادگیری
سه مسیر یادگیری از مجموعه داده وظیفه مشترک دولینگو ۲۰۱۸ استفاده شد:
- en_es: انگلیسیزبانانی که اسپانیایی یاد میگیرند.
- es_en: اسپانیاییزبانانی که انگلیسی یاد میگیرند.
- fr_en: فرانسویزبانانی که انگلیسی یاد میگیرند.
دادهها شامل توالی تمرینهای دانشآموز، صحت پاسخ و فراداده (پلتفرم کلاینت، کشور) است. کشورها بر اساس شاخصهای اقتصادی استاندارد (مانند طبقهبندی صندوق بینالمللی پول) به «توسعهیافته» یا «در حال توسعه» طبقهبندی شدند.
2.2 مدلهای پیشبینی
دو دسته مدل ارزیابی شدند:
- یادگیری ماشین (ML): مدلهای سنتی مانند رگرسیون لجستیک، جنگلهای تصادفی.
- یادگیری عمیق (DL): مدلهای مبتنی بر شبکه عصبی، احتمالاً شامل گونههایی از ردیابی دانش عمیق (DKT) یا معماریهای مبتنی بر ترنسفورمر.
وظیفه اصلی، پیشبینی دودویی بود: آیا دانشآموز تمرین بعدی را به درستی پاسخ خواهد داد؟
2.3 معیارهای انصاف
انصاف با استفاده از معیارهای انصاف گروهی ارزیابی شد و عملکرد مدل در بین گروههای محافظتشده مقایسه گردید:
- انصاف پلتفرم: مقایسه دقت، امتیاز F1 یا AUC بین کاربران در کلاینتهای iOS، Android و Web.
- انصاف جغرافیایی: مقایسه معیارهای عملکرد بین کاربران از کشورهای توسعهیافته و در حال توسعه.
اختلاف در این معیارها نشاندهنده سوگیری الگوریتمی است. یک مدل کاملاً منصف عملکردی برابر در تمام گروهها خواهد داشت.
3. نتایج و یافتهها
این مطالعه چهار یافته کلیدی به دست داد که مصالحهها و سوگیریهای قابل توجهی را آشکار کرد.
3.1 مصالحه دقت در برابر انصاف
مدلهای یادگیری عمیق (DL) عموماً از مدلهای یادگیری ماشین (ML) هم در دقت و هم در انصاف عملکرد بهتری داشتند. توانایی DL در تشخیص الگوهای پیچیده و غیرخطی در دادههای یادگیری ترتیبی، منجر به پیشبینیهای قویتری میشود که کمتر به همبستگیهای کاذب مرتبط با ویژگیهای حساس وابسته هستند.
3.2 سوگیری پلتفرم (iOS/Android/Web)
هر دو الگوریتم ML و DL سوگیری قابل توجهی به نفع کاربران موبایل (iOS/Android) در مقایسه با کاربران غیرموبایل (Web) نشان دادند. این امر میتواند ناشی از تفاوتهای کیفیت داده (مانند الگوهای تعامل، طول جلسه)، طراحی رابط کاربری، یا مشخصات جمعیتی معمولاً مرتبط با هر پلتفرم باشد. این سوگیری، یادگیرندگانی را که عمدتاً از طریق رایانه رومیزی به ابزارهای آموزشی دسترسی دارند، در معرض خطر قرار میدهد.
3.3 سوگیری جغرافیایی (توسعهیافته در برابر در حال توسعه)
الگوریتمهای ML در مقایسه با الگوریتمهای DL، سوگیری بارزتری علیه کاربران از کشورهای در حال توسعه نشان دادند. این یک یافته حیاتی است، زیرا مدلهای ML ممکن است نابرابریهای تاریخی موجود در دادههای آموزشی (مانند تفاوت در دسترسی قبلی به آموزش، قابلیت اطمینان اینترنت) را یاد گرفته و تقویت کنند. مدلهای DL، اگرچه مصون نیستند، اما مقاومت بیشتری در برابر این سوگیری جغرافیایی نشان دادند.
انتخاب مدل بهینه: این مطالعه رویکردی ظریف را پیشنهاد میکند:
- از یادگیری عمیق برای مسیرهای en_es و es_en برای بهترین تعادل بین انصاف و دقت استفاده کنید.
- برای مسیر fr_en، یادگیری ماشین را در نظر بگیرید، جایی که مشخصه انصاف-دقت آن برای آن زمینه خاص مناسبتر تشخیص داده شد.
4. تحلیل فنی و چارچوب
4.1 صورتبندی ردیابی دانش
در هسته خود، ردیابی دانش، وضعیت دانش پنهان یک دانشآموز را مدل میکند. با توجه به یک دنباله از تعاملات $X_t = \{(q_1, a_1), (q_2, a_2), ..., (q_t, a_t)\}$، که در آن $q_i$ یک تمرین/سوال و $a_i \in \{0,1\}$ صحت پاسخ است، هدف پیشبینی احتمال صحت در تمرین بعدی است: $P(a_{t+1}=1 | X_t)$.
ردیابی دانش عمیق (پیچ و همکاران، ۲۰۱۵) از یک شبکه عصبی بازگشتی (RNN) برای مدلسازی این امر استفاده میکند:
$h_t = \text{RNN}(h_{t-1}, x_t)$
$P(a_{t+1}=1) = \sigma(W \cdot h_t + b)$
که در آن $h_t$ حالت پنهان نمایانگر وضعیت دانش در زمان $t$ است، $x_t$ تعبیه ورودی $(q_t, a_t)$ است، و $\sigma$ تابع سیگموید است.
4.2 چارچوب ارزیابی انصاف
این مطالعه به طور ضمنی از یک پارادایم انصاف گروهی استفاده میکند. برای یک پیشبینیکننده دودویی $\hat{Y}$ و یک ویژگی حساس $A$ (مانند پلتفرم یا گروه کشور)، معیارهای رایج شامل موارد زیر هستند:
- تفاوت برابری آماری: $|P(\hat{Y}=1|A=0) - P(\hat{Y}=1|A=1)|$
- تفاوت فرصت برابر: $|P(\hat{Y}=1|A=0, Y=1) - P(\hat{Y}=1|A=1, Y=1)|$ (زمانی استفاده میشود که برچسبهای واقعی Y شناخته شده باشند).
- اختلاف معیار عملکرد: تفاوت در دقت، AUC یا امتیاز F1 بین گروهها.
اختلاف کوچکتر نشاندهنده انصاف بیشتر است. یافتههای مقاله نشان میدهد که مدلهای DL این اختلافات را در بین گروههای تعریفشده مؤثرتر از مدلهای ML به حداقل میرسانند.
5. مطالعه موردی: کاربرد چارچوب
سناریو: یک شرکت فناوری آموزشی از یک مدل KT برای توصیه تمرینهای مرور در اپلیکیشن یادگیری زبان خود استفاده میکند. مدل بر روی دادههای کاربران جهانی آموزش دیده است.
مشکل: تحلیلهای پس از استقرار نشان میدهد که کاربران در کشور X (یک کشور در حال توسعه) در مقایسه با کاربران در کشور Y (یک کشور توسعهیافته)، ۱۵٪ نرخ بالاتری از توصیه نادرست تمرینهایی دارند که بیش از حد دشوار هستند، که منجر به ناامیدی و ترک یادگیری میشود.
تحلیل با استفاده از چارچوب این مقاله:
- شناسایی گروه حساس: کاربران از کشورهای در حال توسعه در برابر توسعهیافته.
- بازرسی مدل: محاسبه معیارهای عملکرد (دقت، AUC) به طور جداگانه برای هر گروه. اختلاف مشاهدهشده ۱۵٪ در «نرخ توصیه دشواری مناسب» یک نقض انصاف است.
- تشخیص: آیا مدل ML است یا DL؟ بر اساس این مطالعه، یک مدل ML احتمال بیشتری دارد که این سوگیری جغرافیایی را نشان دهد. توزیع ویژگیها را بررسی کنید—شاید مدل بیش از حد به ویژگیهای مرتبط با توسعه کشور (مانند میانگین سرعت اتصال، نوع دستگاه) متکی است.
- اصلاح: در نظر بگیرید که به یک معماری KT مبتنی بر DL تغییر دهید، که این مطالعه آن را در برابر این سوگیری مقاومتر یافته است. به طور جایگزین، تکنیکهای آموزش آگاه از انصاف (مانند خنثیسازی متخاصم، وزندهی مجدد) را روی مدل موجود اعمال کنید.
- نظارت: پس از مداخله، معیار انصاف را به طور مستمر ردیابی کنید تا اطمینان حاصل شود که سوگیری کاهش یافته است.
6. کاربردها و جهتهای آتی
پیامدهای این پژوهش فراتر از یادگیری زبان دوم گسترش مییابد:
- یادگیری شخصیشده در مقیاس: مدلهای KT منصفانه میتوانند سیستمهای یادگیری سازگار واقعاً عادلانهای در MOOCها (مانند Coursera، edX) و سیستمهای آموزش هوشمند ممکن سازند و اطمینان حاصل کنند که توصیهها برای همه جمعیتها مؤثر هستند.
- بازرسی سوگیری برای فناوری آموزشی: این چارچوب یک طرح کلی برای بازرسی نرمافزارهای آموزشی تجاری از نظر سوگیری الگوریتمی ارائه میدهد، که نگرانی فزایندهای برای تنظیمکنندگان و مربیان است.
- انصاف بینحوزهای: کار آینده باید انصاف را در سایر ویژگیهای حساس بررسی کند: جنسیت، سن، وضعیت اقتصادی-اجتماعی استنباطشده از دادهها، و ناتوانیهای یادگیری.
- تحلیل انصاف علّی: فراتر از همبستگی رفتن برای درک علل سوگیری—آیا دادهها، معماری مدل، یا زمینه یادگیری است؟ تکنیکهای استنتاج علّی میتوانند ادغام شوند.
- یادگیری منصفانه فدرال و حفظ حریم خصوصی: آموزش مدلهای منصفانه بر روی دادههای کاربری غیرمتمرکز بدون به خطر انداختن حریم خصوصی، یک جهت کلیدی برای هوش مصنوعی اخلاقی در آموزش.
7. منابع
- Baker, R.S., Inventado, P.S. (2014). Educational Data Mining and Learning Analytics. In: Larusson, J., White, B. (eds) Learning Analytics. Springer, New York, NY.
- Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
- Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
- Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning: Limitations and Opportunities. fairmlbook.org.
- Duolingo. (2018). Second Language Acquisition Modeling (SLAM) Workshop Dataset. Retrieved from https://sharedtask.duolingo.com/
- Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys (CSUR), 54(6), 1-35.
8. تحلیل و تفسیر کارشناسی
بینش اصلی: این مقاله یک حقیقت حیاتی و اغلب نادیده گرفتهشده در فناوری آموزشی را ارائه میدهد: دقت بالا معادل آموزش عادلانه نیست. نویسندگان به طور قانعکنندهای نشان میدهند که مدلهای استاندارد ردیابی دانش، در صورت استقرار سادهلوحانه، به طور سیستماتیک کل گروههایی از یادگیرندگان—به ویژه آنهایی که از پلتفرمهای وب استفاده میکنند و آنهایی که در کشورهای در حال توسعه هستند—را در موقعیت نامساعد قرار میدهند. بارزترین یافته این است که مدلهای سادهتر یادگیری ماشین نه تنها دقت کمتری ندارند؛ بلکه به طور قابل توجهی ناعادلانهتر هستند و به عنوان تقویتکننده شکافهای اجتماعی و دیجیتال موجود عمل میکنند. این امر، انصاف الگوریتمی را نه به عنوان یک نگرانی اخلاقی حاشیهای، بلکه به عنوان یک مؤلفه اصلی از عملکرد مدل و کارایی آموزشی قرار میدهد.
جریان منطقی: استدلال روشمند است. با تعیین ریسکهای بالا (آموزش شخصیشده) و نقطه کور تاریخی (انصاف) آغاز میشود. سپس یک آزمایش تطبیقی دودویی تمیز (ML در برابر DL) را در سه زمینه یادگیری زبان متمایز تنظیم میکند. انتخاب محورهای انصاف—پلتفرم و جغرافیا—هوشمندانه است و متغیرهای استقرار دنیای واقعی را منعکس میکند که مستقیماً بر تجربه کاربر تأثیر میگذارند. نتایج به طور منطقی جریان مییابند: ظرفیت بازنمایی برتر DL نه تنها پیشبینیهای بهتر، بلکه پیشبینیهای منصفانهتری به دست میدهد. توصیه ظریف (DL برای en_es/es_en، ML برای fr_en) تازهکننده است، از یک دگم یکاندازه-برای-همه اجتناب میکند و وابستگی به زمینه را تصدیق میکند که نشانه تحلیل دقیق است.
نقاط قوت و ضعف: نقطه قوت اصلی آن تمرکز عملی و تجربی است. فراتر از بحثهای نظری انصاف حرکت میکند تا شواهد قابل اندازهگیری از سوگیری در یک مجموعه داده پرکاربرد (دولینگو) ارائه دهد. این یک الگوی قدرتمند برای بازرسی داخلی مدل است. با این حال، تحلیل محدودیتهایی دارد. «توسعهیافته» و «در حال توسعه» را به عنوان بلوکهای یکپارچه در نظر میگیرد و از ناهمگونی عظیم درون این دستهها (مانند کاربران شهری در برابر روستایی) چشمپوشی میکند. این مطالعه همچنین به چرایی وجود سوگیریها نمیپردازد. آیا بازنمایی ویژگی، حجم داده به ازای هر گروه، یا تفاوتهای فرهنگی در الگوهای یادگیری است؟ همانطور که در بررسی جامع مهرابی و همکاران (۲۰۲۱) ذکر شده است، تشخیص علت ریشهای سوگیری برای توسعه راهحلهای مؤثر ضروری است. علاوه بر این، اگرچه DL در اینجا منصفانهتر به نظر میرسد، ماهیت «جعبه سیاه» آن میتواند سوگیریهای ظریفتر و سختتر برای تشخیص را پنهان کند، چالشی که در ادبیات انصاف برجسته شده است.
بینشهای عملی: برای رهبران فناوری آموزشی و مدیران محصول، این پژوهش یک دستور برای تغییر است. اول، معیارهای انصاف باید در داشبورد ارزیابی استاندارد مدل ادغام شوند، در کنار دقت و AUC. قبل از استقرار هر ویژگی یادگیری سازگار، بازرسیای مشابه این مطالعه انجام دهید. دوم، معماریهای یادگیری عمیق را برای وظایف اصلی مدلسازی دانشآموز در اولویت قرار دهید، زیرا آنها محافظ ذاتی بهتری در برابر سوگیری ارائه میدهند، که روندهای مشاهدهشده در سایر حوزهها را تأیید میکند که در آن شبکههای عمیق ویژگیهای قویتری یاد میگیرند. سوم، دادههای خود را تفکیک کنید. فقط به عملکرد «جهانی» نگاه نکنید. معیارها را بر اساس پلتفرم، منطقه و سایر جمعیتشناسیهای مرتبط به عنوان یک عمل معمول برش دهید. در نهایت، در تحلیل علّی سرمایهگذاری کنید تا از مشاهده سوگیری به سمت درک و مهندسی آن حرکت کنید. آینده فناوری آموزشی عادلانه به برخورد با انصاف با همان دقت پیشبینی بستگی دارد.