1. مقدمه و پیشینه
مدلسازی پیشبینی در آموزش، به ویژه ردیابی دانش (KT)، هدفش مدلسازی وضعیت دانش در حال تکامل یک فراگیر برای پیشبینی عملکرد آینده و شخصیسازی آموزش است. روشهای سنتی که بر تفسیر انسانی از دادههای عملکرد متکی هستند، مستعد سوگیریهای شناختی (مانند سوگیری مثبتنگری، محدودیت حافظه) هستند. ردیابی دانش محاسباتی، که توسط کوربت و اندرسون معرفی شد، با استفاده از دادههای تعامل فراگیران، این موارد را کاهش میدهد.
در حالی که بیشتر پژوهشها اولویت را به دقت مدل میدهند، این مقاله تمرکز را به بعدی حیاتی اما کمتر کاوششده معطوف میکند: انصاف الگوریتمی. انصاف اطمینان میدهد که مدلها به طور سیستماتیک گروهها را بر اساس ویژگیهای حساس (مانند نوع دستگاه، کشور مبدأ) در موقعیت نامساعد قرار ندهند. در زمینه فراگیری زبان دوم (SLA) از طریق پلتفرمهایی مانند دولینگو، سوگیری میتواند نابرابری آموزشی را تداوم بخشد.
سوالات پژوهشی اصلی: این مطالعه انصاف مدلهای ردیابی دانش را در دو محور ارزیابی میکند: ۱) پلتفرمهای کلاینت مختلف (iOS، Android، وب)، و ۲) فراگیران از کشورهای توسعهیافته در مقابل کشورهای در حال توسعه.
2. روششناسی و تنظیمات آزمایشی
این مطالعه از یک چارچوب تحلیل تطبیقی برای ارزیابی همزمان عملکرد پیشبینی و انصاف مدلها استفاده میکند.
2.1 مجموعه دادهها: مسیرهای دولینگو
سه مسیر یادگیری مجزا از «وظیفه مشترک ۲۰۱۸ دولینگو در فراگیری زبان دوم» استفاده شد:
- en_es: انگلیسیزبانانی که اسپانیایی یاد میگیرند.
- es_en: اسپانیاییزبانانی که انگلیسی یاد میگیرند.
- fr_en: فرانسویزبانانی که انگلیسی یاد میگیرند.
2.2 مدلهای پیشبینی ارزیابیشده
این مطالعه دو دسته کلی از مدلها را مقایسه میکند:
- مدلهای یادگیری ماشین (ML): احتمالاً شامل مدلهای سنتی مانند رگرسیون لجستیک، جنگلهای تصادفی، یا ردیابی دانش بیزی (BKT) میشود.
- مدلهای یادگیری عمیق (DL): احتمالاً شامل مدلهای دنبالهای مانند شبکههای حافظه کوتاهمدت بلندمدت (LSTM) یا ردیابی دانش عمیق (DKT) میشود که در ثبت وابستگیهای زمانی در دنبالههای یادگیری مهارت دارند.
2.3 معیارهای انصاف و چارچوب ارزیابی
انصاف با استفاده از معیارهای انصاف گروهی ارزیابی شد. برای یک پیشبینی دودویی (مثلاً آیا فراگیر مورد بعدی را درست پاسخ خواهد داد؟)، معیارهای رایج عبارتند از:
- برابری جمعیتی: نرخ پیشبینی برابر در بین گروهها.
- فرصت برابر: نرخ مثبت واقعی برابر در بین گروهها.
- برابری پیشبینی: دقت برابر در بین گروهها.
3. نتایج و یافتههای آزمایشی
تحلیل چهار یافته کلیدی ارائه داد که مبادلات بین دقت و انصاف را برجسته میکند.
یافتههای کلیدی در یک نگاه
- برتری یادگیری عمیق: مدلهای DL عموماً هم در دقت و هم در انصاف از ML بهتر عمل کردند.
- سوگیری موبایل: هر دو مدل ML و DL سوگیری به نفع کاربران موبایل (iOS/Android) در مقابل کاربران وب نشان دادند.
- سوگیری توسعه: مدلهای ML سوگیری قویتری علیه فراگیران از کشورهای در حال توسعه نسبت به مدلهای DL نشان دادند.
- انتخاب وابسته به زمینه: انتخاب مدل بهینه (DL در مقابل ML) به مسیر یادگیری خاص بستگی دارد.
3.1 عملکرد: مقایسه دقت
مدلهای یادگیری عمیق برتری قابل توجهی در دقت پیشبینی در مسیرهای ارزیابیشده نشان دادند. این با قابلیت ثابتشده مدلهای دنبالهای عصبی مانند DKT در مدلسازی مسیرهای یادگیری پیچیده و غیرخطی به طور مؤثرتر از مدلهای سادهتر ML همسو است، همانطور که در مقاله بنیادی DKT توسط پیچ و همکاران ذکر شده است.
3.2 انصاف در پلتفرمهای کلاینت
یک سوگیری پایدار و قابل توجه به نفع کاربران اپلیکیشن موبایل (iOS، Android) در مقابل کاربران مرورگر وب مشاهده شد. این میتواند ناشی از موارد زیر باشد:
- تفاوتهای کیفیت داده (مانند الگوهای تعامل، طول جلسات).
- همبستگی ناخواسته بین انتخاب پلتفرم و مشارکت فراگیر یا عوامل اقتصادی-اجتماعی که در دادههای آموزشی نهفته است.
3.3 انصاف در سطوح توسعه کشورها
الگوریتمهای یادگیری ماشین سوگیری بارزتری علیه فراگیران از کشورهای در حال توسعه نسبت به الگوریتمهای یادگیری عمیق نشان دادند. این نشان میدهد که مدلهای DL، با ظرفیت بیشتر خود، ممکن است در حال یادگیری الگوهای قویتر و قابل تعمیمتری هستند که به همبستگیهای کاذب مرتبط با وضعیت توسعه حساسیت کمتری دارند.
3.4 تحلیل مبادله: دقت در مقابل انصاف
این مطالعه یک رویکرد ظریف و وابسته به زمینه را توصیه میکند:
- برای مسیرهای en_es و es_en، یادگیری عمیق مناسبتر است و تعادل بهتری ارائه میدهد.
- برای مسیر fr_en، یادگیری ماشین به عنوان گزینه مناسبتری ظاهر شد، احتمالاً به دلیل ویژگیهای مجموعه داده که در آن مدلهای سادهتر به طور منصفانهتری تعمیم مییابند.
4. بررسی فنی عمیق
4.1 صوریسازی ردیابی دانش
در هسته خود، KT وضعیت دانش یک فراگیر را به عنوان یک متغیر پنهان که در طول زمان تکامل مییابد مدل میکند. با توجه به یک دنباله از تعاملات فراگیر (مانند تلاشهای تمرینی) $X = \{x_1, x_2, ..., x_t\}$، هدف پیشبینی احتمال درستی در مورد بعدی است، $P(r_{t+1} = 1 | X)$.
ردیابی دانش عمیق (DKT) از یک شبکه عصبی بازگشتی (RNN) برای مدلسازی این استفاده میکند:
$h_t = \text{RNN}(x_t, h_{t-1})$
$P(r_{t+1}) = \sigma(W \cdot h_t + b)$
که در آن $h_t$ حالت پنهان نمایانگر وضعیت دانش در زمان $t$ است، و $\sigma$ تابع سیگموید است.
4.2 فرمولبندی معیارهای انصاف
فرض کنید $A \in \{0,1\}$ یک ویژگی حساس باشد (مثلاً $A=1$ برای کاربر موبایل، $A=0$ برای کاربر وب). فرض کنید $\hat{Y}$ پیشبینی مدل باشد. برابری جمعیتی مستلزم آن است که:
$P(\hat{Y}=1 | A=1) = P(\hat{Y}=1 | A=0)$
فرصت برابر (با در نظر گرفتن درستی به عنوان نتیجه مثبت) مستلزم آن است که:
$P(\hat{Y}=1 | A=1, Y=1) = P(\hat{Y}=1 | A=0, Y=1)$
سوگیری مشاهدهشده در مطالعه را میتوان به عنوان تفاوت یا نسبت بین این احتمالات شرطی برای گروههای مختلف کمّی کرد.
5. چارچوب تحلیل و مثال موردی
چارچوب برای حسابرسی انصاف KT: توسعهدهندگان فناوری آموزشی میتوانند این رویکرد ساختاریافته را اتخاذ کنند:
- ارزیابی تفکیکشده: هرگز فقط دقت تجمعی گزارش ندهید. همیشه معیارهای عملکرد (دقت، AUC) و معیارهای انصاف (تفاوت برابری جمعیتی، تفاوت فرصت برابر) را به طور جداگانه برای هر زیرگروه حساس (بر اساس پلتفرم، کشور، جنسیت در صورت موجود بودن) محاسبه کنید.
- تحلیل علت ریشهای: برای سوگیریهای شناساییشده، همبستگی ویژگیها را بررسی کنید. آیا «تعداد جلسات» هم با پلتفرم و هم با نتیجه پیشبینی همبستگی دارد؟ آیا متغیرهای نماینده وضعیت اقتصادی-اجتماعی از طریق دادههای رفتاری به مدل نشت میکنند؟
- انتخاب استراتژی کاهش: بر اساس علت، یک تکنیک کاهش را انتخاب کنید: پیشپردازش (وزندهی مجدد دادهها)، پردازش درونخطی (اضافه کردن محدودیتهای انصاف به تابع زیان، مانند رویکردهای جامعه کنفرانس FAT*)، یا پسپردازش (کالیبره کردن آستانهها برای هر گروه).
مثال موردی - سوگیری موبایل: تصور کنید یک مدل KT مبتنی بر LSTM که روی دادههای دولینگو آموزش دیده است، احتمال پیشبینی شده موفقیت را برای کاربران iOS در مقایسه با کاربران وب، با ثابت نگه داشتن عملکرد واقعی، ۱۵٪ بالاتر نشان میدهد. حسابرسی ما نشان میدهد که ویژگی «زمان روز» یک محرک کلیدی است: کاربران iOS بیشتر در تکههای کوتاه و مکرر (حین رفت و آمد) تمرین میکنند، در حالی که کاربران وب جلسات طولانیتر و کمتکرارتری دارند. مدل «الگوی رفت و آمد» را با مشارکت بالاتر مرتبط میداند و پیشبینیها را تقویت میکند و به طور ناعادلانه کاربران وبی را که ممکن است به طور مؤثر در الگوهای مختلف یاد بگیرند، مجازات میکند. کاهش: ما میتوانیم یک عبارت تنظیم آگاه از انصاف را در طول آموزش اعمال کنیم که مدل را به خاطر تفاوت در توزیع پیشبینی بین گروههای پلتفرم جریمه میکند، با هدایت کار پژوهشگرانی مانند زمل و همکاران در مورد یادگیری بازنماییهای منصفانه.
6. تحلیل انتقادی و تفسیر کارشناسی
بینش اصلی: این مقاله یک حقیقت ناراحت کننده اما حیاتی برای بخش در حال رشد فناوری آموزشی ارائه میدهد: مدلهای پیشرفته ردیابی دانش شما به احتمال زیاد در حال نهادینه کردن سوگیریهای سیستماتیکی هستند که کاربران مرفه، موبایلمحور و کشورهای توسعهیافته را ترجیح میدهند. تلاش برای دقت، این حوزه را نسبت به بدهی اخلاقی که در الگوریتمهایش انباشته میشود کور کرده است. یافته اینکه سوگیری حتی در مدلهای پیچیده یادگیری عمیق نیز پایدار میماند، نقطه مقابل هشداردهندهای برای این باور است که مدلهای پیچیدهتر ذاتاً بازنماییهای «منصفانهتر» را یاد میگیرند.
جریان منطقی: نویسندگان به طور منطقی از استقرار پارادایم KT به افشای نقطه کور انصاف آن پیش میروند. استفاده از مجموعه دادههای معتبر دولینگو اعتبار و تکرارپذیری فراهم میکند. تحلیل دوگانه—سوگیری پلتفرم و سوگیری ژئوپلیتیک—به طور هوشمندانه دو محور اصلی شکاف دیجیتال را ثبت میکند. مقایسه بین ML کلاسیک و DL مدرن صرفاً فنی نیست بلکه استراتژیک است و به متخصصان کمک میکند ابزارها را با در نظر گرفتن پیامدهای اخلاقی انتخاب کنند.
نقاط قوت و ضعف: نقطه قوت اصلی آن تمرکز عملی و تجربی بر دادههای دنیای واقعی و یافتههای تطبیقی واضح است. این مقاله فراتر از بحثهای نظری انصاف حرکت میکند. با این حال، یک نقص قابل توجه، فقدان توضیح مکانیکی است. چرا سوگیری موبایل رخ میدهد؟ آیا یک مصنوع داده است، تفاوت رفتار کاربر، یا محدودیت مدل؟ مقاله بیماری را تشخیص میدهد اما آسیبشناسی کمی ارائه میدهد. علاوه بر این، پیشنهاد استفاده از ML برای مسیر `fr_en` بر اساس انصاف، علیرغم دقت پایینتر آن، یک معضل دنیای واقعی را ارائه میدهد: ما چقدر حاضریم دقت را برای انصاف فدا کنیم، و چه کسی تصمیم میگیرد؟
بینشهای عملی: برای رهبران محصول و مهندسان، این مطالعه یک دستور برای تغییر است. اول، حسابرسی انصاف باید به یک شاخص کلیدی عملکرد استاندارد در کنار آزمایش A/B برای استقرار مدلهای جدید تبدیل شود، مشابه روشهای مورد حمایت ابتکار PAIR گوگل. دوم، سوگیریهای مشاهدهشده نشاندهنده نیاز به مهندسی ویژگی یا کالیبراسیون خاص پلتفرم است. شاید کاربران وب نیاز به یک مدل پیشبینی کننده کمی متفاوت داشته باشند. سوم، این پژوهش بر نیاز به دادههای آموزشی متنوعتر و نمایندهتر تأکید میکند. همکاری با سازمانهای غیردولتی یا نهادهای آموزشی در مناطق در حال توسعه میتواند به متعادلسازی مجدد مجموعه دادهها کمک کند. در نهایت، این حوزه باید معماریهای KT «انصاف-با-طراحی» را توسعه داده و اتخاذ کند، که محدودیتها را از همان ابتدا ادغام میکنند، به جای اینکه انصاف را به عنوان یک فکر بعدی اصلاح کنند.
7. کاربردهای آینده و جهتهای پژوهشی
- آموزش شخصیشده آگاه از انصاف: سیستمهای هوشمند آموزشی آینده میتوانند نه تنها بر اساس وضعیت دانش، بلکه برای خنثی کردن سوگیریهای پیشبینی شده به طور پویا تنظیم شوند. اگر سیستم تشخیص دهد که یک دانشآموز از یک گروه کمنمایش است که مدل برای آن کمتر مطمئن است، میتواند داربست حمایتی بیشتری ارائه دهد یا دادههای بیشتری را برای کاهش عدم قطعیت به طور منصفانه جمعآوری کند.
- انتقال مدل بینفرهنگی و بینزبانی: پژوهش باید انصاف در یادگیری انتقالی را بررسی کند. آیا یک مدل KT آموزشدیده روی فراگیران انگلیسیزبان، وقتی برای اسپانیاییزبانان تنظیم دقیق میشود، منصفانه است؟ تکنیکهای سازگاری دامنه میتواند با محدودیتهای انصاف ادغام شود.
- انصاف قابل توضیح (XFairness): فراتر از اندازهگیری سوگیری، ما به ابزارهایی نیاز داریم که توضیح دهند کدام ویژگیها به نتایج ناعادلانه کمک میکنند. این با جنبش گستردهتر XAI (هوش مصنوعی قابل توضیح) همسو است و برای اعتماد توسعهدهنده و کاهش مؤثر حیاتی است.
- مطالعات انصاف طولی: آیا سوگیری الگوریتمی در طول سفر چندساله یک فراگیر افزایش یا کاهش مییابد؟ مطالعات طولی برای درک اثرات ترکیبی حلقههای بازخورد مغرضانه در سیستمهای سازگار مورد نیاز است.
- ادغام با علم یادگیری: کار آینده باید شکاف با نظریه آموزشی را پر کند. «انصاف» از منظر بار شناختی یا انگیزشی به چه معناست؟ انصاف باید با اصول برابری آموزشی همسو باشد، نه فقط برابری آماری.
8. مراجع
- Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
- Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
- Zemel, R., Wu, Y., Swersky, K., Pitassi, T., & Dwork, C. (2013). Learning fair representations. International conference on machine learning (pp. 325-333). PMLR.
- Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys (CSUR), 54(6), 1-35.
- Google PAIR. (n.d.). People + AI Guidebook. Retrieved from https://pair.withgoogle.com/
- Duolingo. (2018). Duolingo Second Language Acquisition Shared Task. Proceedings of the 2018 EMNLP Workshop W-NUT.
- Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning: Limitations and Opportunities. fairmlbook.org.