فهرست مطالب
1. مقدمه و مرور کلی
این مقاله راهحل نویسنده را برای وظیفه مشترک Duolingo در سال ۲۰۱۸ در زمینه مدلسازی اکتساب زبان دوم (SLAM) ارائه میدهد. چالش اصلی ردیابی دانش در سطح کلمه بود: پیشبینی اینکه آیا یک دانشآموز کلمات یک جمله جدید را به درستی مینویسد یا خیر، با توجه به دادههای تلاش تاریخی او بر روی هزاران جمله که با ویژگیهای واژگانی، ریختشناسی و نحوی حاشیهنویسی شده بودند.
راهحل پیشنهادی از ماشینهای فاکتورگیری عمیق (DeepFM) استفاده میکند، یک مدل ترکیبی که یک مؤلفه گسترده (یک ماشین فاکتورگیری) برای یادگیری تعاملات زوجی ویژگیها و یک مؤلفه عمیق (یک شبکه عصبی عمیق) برای یادگیری تعاملات مرتبه بالاتر ویژگیها را با هم ترکیب میکند. این مدل به AUC برابر با ۰.۸۱۵ دست یافت که از خط پایه رگرسیون لجستیک (AUC 0.774) بهتر عمل کرد اما به مدل برتر (AUC 0.861) نرسید. این کار DeepFM را به عنوان یک چارچوب انعطافپذیر معرفی میکند که میتواند مدلهای آموزشی سنتی مانند نظریه پاسخ به سؤال (IRT) را در بر گیرد.
2. کارهای مرتبط و پیشینه نظری
این مقاله سهم خود را در چشمانداز گستردهتر مدلسازی دانشآموز و ردیابی دانش قرار میدهد.
2.1. نظریه پاسخ به سؤال (IRT)
IRT یک چارچوب روانسنجی کلاسیک است که احتمال پاسخ صحیح را به عنوان تابعی از توانایی پنهان دانشآموز ($\theta$) و پارامترهای سؤال (مانند دشواری $b$) مدل میکند. یک مدل رایج، مدل لجستیک دوپارامتری (2PL) است: $P(\text{correct} | \theta) = \sigma(a(\theta - b))$، که در آن $a$ پارامتر تشخیص و $\sigma$ تابع لجستیک است. مقاله خاطرنشان میکند که IRT یک خط پایه قوی و قابل تفسیر تشکیل میدهد اما معمولاً اطلاعات جانبی غنی را در بر نمیگیرد.
2.2. تکامل ردیابی دانش
ردیابی دانش بر مدلسازی تکامل دانش یک دانشآموز در طول زمان متمرکز است.
- ردیابی دانش بیزی (BKT): یادگیرنده را به عنوان یک مدل مارکوف پنهان با حالتهای دانش پنهان مدل میکند.
- ردیابی دانش عمیق (DKT): از شبکههای عصبی بازگشتی (RNN)، مانند LSTM، برای مدلسازی دنبالههای زمانی تعاملات دانشآموز استفاده میکند. مقاله به کار Wilson و همکاران (۲۰۱۶) اشاره میکند که نشان میدهد گونههای IRT میتوانند از مدلهای اولیه DKT بهتر عمل کنند و نیاز به معماریهای قوی و آگاه از ویژگی را برجسته میسازد.
2.3. یادگیری گسترده و عمیق
مقاله بر اساس پارادایم یادگیری گسترده و عمیق معرفی شده توسط Cheng و همکاران (۲۰۱۶) در گوگل بنا شده است. مدل خطی "گسترده" همرخدادهای مکرر ویژگیها را به خاطر میسپارد، در حالی که شبکه عصبی "عمیق" به ترکیبات ویژگی دیده نشده تعمیم مییابد. Guo و همکاران (۲۰۱۷) پیشنهاد کردند که مدل خطی گسترده با یک ماشین فاکتورگیری (FM) جایگزین شود، که به طور کارآمد تمام تعاملات زوجی بین ویژگیها را از طریق پارامترهای فاکتورشده مدل میکند و منجر به معماری DeepFM میشود.
3. DeepFM برای ردیابی دانش
مقاله مدل DeepFM را برای حوزه ردیابی دانش تطبیق میدهد.
3.1. معماری و فرمولبندی مدل
DeepFM از دو مؤلفه موازی تشکیل شده است که خروجیهای آنها ترکیب میشود:
- مؤلفه FM: تعاملات خطی و زوجی ویژگیها را مدل میکند. برای یک بردار ویژگی ورودی $\mathbf{x}$، خروجی FM به این صورت است: $y_{FM} = w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$، که در آن $\mathbf{v}_i$ بردارهای عامل پنهان هستند.
- مؤلفه عمیق: یک شبکه عصبی پیشخور استاندارد که جاسازیهای متراکم ویژگیها را به عنوان ورودی میگیرد و الگوهای پیچیده و مرتبه بالا را یاد میگیرد.
3.2. کدگذاری ویژگیها و جاسازیها
یک سهم کلیدی، نحوه برخورد با ویژگیها است. مدل C دسته از ویژگیها را در نظر میگیرد (مانند user_id، item_id، مهارت، کشور، زمان). هر مقدار گسسته درون یک دسته (مانند user=123، country='FR') یا خود یک مقدار پیوسته، یک موجودیت نامیده میشود. به هر یک از N موجودیت ممکن، یک بردار جاسازی قابل یادگیری اختصاص داده میشود. یک نمونه (مانند پاسخ یک دانشآموز به یک کلمه) به عنوان یک بردار پراکنده $\mathbf{x}$ به اندازه N کدگذاری میشود، که در آن مؤلفهها برای موجودیتهای گسسته حاضر روی ۱، برای ویژگیهای پیوسته روی مقدار واقعی و برای بقیه روی ۰ تنظیم میشوند.
4. کاربرد در وظیفه SLAM
4.1. آمادهسازی داده
برای وظیفه SLAM در Duolingo، ویژگیها شامل شناسه کاربر، مورد واژگانی (کلمه)، ویژگیهای زبانی مرتبط با آن (قسمت سخن، ریختشناسی)، زمینه جمله و اطلاعات زمانی بودند. این موارد به فرمت پراکنده مبتنی بر موجودیت مورد نیاز DeepFM تبدیل شدند. این کدگذاری به مدل اجازه میدهد تا تعاملات بین هر جفت موجودیت، مانند (user=Alice، word="ser") و (word="ser"، tense=past) را یاد بگیرد.
4.2. تنظیمات آزمایشی
مدل برای پیشبینی نتیجه دودویی (صحیح/غلط) برای نوشتن یک کلمه خاص توسط یک دانشآموز آموزش داده شد. AUC (مساحت زیر منحنی ROC) به عنوان معیار ارزیابی اولیه استفاده شد که برای وظایف طبقهبندی دودویی با داده نامتعادل رایج در محیطهای آموزشی استاندارد است.
5. نتایج و تحلیل عملکرد
مدل DeepFM به AUC آزمون برابر با ۰.۸۱۵ دست یافت. این نشاندهنده بهبود قابل توجهی نسبت به خط پایه رگرسیون لجستیک (AUC 0.774) است و ارزش مدلسازی تعاملات ویژگیها را نشان میدهد. با این حال، به بالاترین امتیاز ۰.۸۶۱ نرسید. مقاله پیشنهاد میکند که این امر "راهبردهای جالبی برای بنا نهادن بر مدلهای نظریه پاسخ به سؤال" را آشکار میسازد، به این معنا که اگرچه DeepFM یک چارچوب قدرتمند و غنی از ویژگی ارائه میدهد، اما فضایی برای گنجاندن جنبههای نظری آموزشی ظریفتر یا مدلسازی ترتیبی که مدل برتر ممکن است آن را ضبط کرده باشد، وجود دارد.
خلاصه عملکرد (AUC)
- خط پایه رگرسیون لجستیک: 0.774
- DeepFM (این کار): 0.815
- مدل با عملکرد برتر: 0.861
مقدار AUC بالاتر نشاندهنده عملکرد پیشبینی بهتر است.
6. تحلیل انتقادی و بینشهای تخصصی
بینش اصلی: این مقاله در مورد یک الگوریتم جدید انقلابی نیست، بلکه یک کاربرد هوشمندانه و عملگرایانه از یک مدل سیستم توصیهگر صنعتی موجود (DeepFM) در یک فضای مسئله نوپا است: ردیابی دانش دانهریز و غنی از ویژگی. حرکت نویسنده گویاست—آنها از چرخه تبآلود آکادمیک حول یادگیری عمیق محض برای آموزش (مانند DKT اولیه) عبور میکنند و در عوض یک مدل اثباتشده در تجارت الکترونیک را برای ضبط تعاملات پیچیده کاربر-مورد-ویژگی بازهدفگذاری میکنند. بینش واقعی، قالببندی ردیابی دانش نه تنها به عنوان یک مسئله پیشبینی دنباله، بلکه به عنوان یک مسئله تعامل ویژگی پراکنده با ابعاد بالا است، بسیار شبیه به پیشبینی کلیک در تبلیغات.
جریان منطقی و موقعیتیابی راهبردی: منطق قانعکننده است. ۱) مدلهای سنتی (IRT، BKT) قابل تفسیر هستند اما به تعاملات از پیش تعریفشده و کمبعد محدود میشوند. ۲) مدلهای یادگیری عمیق اولیه (DKT) دنبالهها را ضبط میکنند اما میتوانند گرسنه داده و کدر باشند، همانطور که Wilson و همکاران اشاره کردند گاهی از مدلهای سادهتر عملکرد ضعیفتری دارند. ۳) وظیفه SLAM گنجینهای از اطلاعات جانبی (ویژگیهای زبانی) ارائه میدهد. ۴) بنابراین، از مدلی استفاده کنید که صراحتاً برای این طراحی شده است: DeepFM، که به خاطر سپردن تعاملات زوجی فاکتورشده (قسمت FM، مشابه تعامل دانشآموز-سؤال در IRT) را با قدرت تعمیم یک DNN ترکیب میکند. مقاله به طور هوشمندانهای نشان میدهد که چگونه IRT میتواند به عنوان یک مورد خاص و سادهشده از این چارچوب دیده شود، و بدین ترتیب ادعای جایگاه برتر کلیت را مطرح میکند.
نقاط قوت و ضعف: نقطه قوت اولیه عملگرایی و بهرهبرداری از ویژگیها است. DeepFM یک معماری قوی و آماده برای بهرهگیری از مجموعه ویژگی غنی وظیفه SLAM است. ضعف آن، همانطور که نتایج نشان میدهد، این است که احتمالاً توسط مدلهایی که پویاییهای ذاتی در یادگیری را بهتر ضبط کردند، شکست خورد. یک مدل مبتنی بر LSTM یا یک معماری ترنسفورمر (مانند آنهایی که بعداً در KT استفاده شدند، مانند SAKT یا AKT) ممکن است تاریخچه ترتیبی را مؤثرتر یکپارچه کرده باشد. AUC مقاله برابر با ۰.۸۱۵، اگرچه بهبودی محکم نسبت به خط پایه است، اما فاصله ۰.۰۴۶ با برنده باقی میگذارد—فاصلهای که احتمالاً بهای تخصصی نبودن در بعد زمانی را نشان میدهد. همانطور که پژوهشها از چالش Riiid! AI و کارهای بعدی نشان میدهند، ترکیب معماریهای آگاه از ویژگی مانند DeepFM با مدلهای ترتیبی پیچیده، مسیر برنده است.
بینشهای قابل اجرا: برای متخصصان و پژوهشگران: ۱) مهندسی ویژگی را نادیده نگیرید. موفقیت کاربرد DeepFM تأکید میکند که در دادههای آموزشی، "اطلاعات جانبی" (برچسبهای مهارت، دشواری، زمان پاسخ، ویژگیهای زبانی) اغلب اطلاعات اصلی هستند. ۲) به حوزههای مجاور نگاه کنید. سیستمهای توصیهگر یک دهه را صرف حل مسائل مشابه شروع سرد، پراکندگی و تعامل ویژگی کردهاند؛ جعبه ابزار آنها (FM، DeepFM، DCN) مستقیماً قابل انتقال است. ۳) آینده در ترکیب است. گام بعدی روشن است: قدرت تعامل ویژگی DeepFM را با یک ماژول ترتیبی پیشرفته یکپارچه کنید. یک "DeepFM زمانی" را تصور کنید که در آن مؤلفه عمیق یک LSTM یا ترنسفورمر است که دنبالهای از این بازنماییهای تعامل فاکتورشده را پردازش میکند. این با مسیری که در کارهایی مانند "شبکه تکامل علاقه عمیق" (DIEN) در تبلیغات دیده میشود همسو است، که تعامل ویژگی را با مدلسازی ترتیبی تکامل علاقه کاربر ترکیب میکند—یک قیاس کامل برای تکامل دانش.
7. جزئیات فنی و فرمولبندی ریاضی
هسته DeepFM در معماری دو مؤلفهای آن نهفته است. فرض کنید ورودی یک بردار ویژگی پراکنده $\mathbf{x} \in \mathbb{R}^n$ باشد.
مؤلفه ماشین فاکتورگیری (FM):
$y_{FM} = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$
در اینجا، $w_0$ بایاس سراسری است، $w_i$ وزنها برای جملههای خطی هستند و $\mathbf{v}_i \in \mathbb{R}^k$ بردار عامل پنهان برای ویژگی i-ام است. ضرب داخلی $\langle \mathbf{v}_i, \mathbf{v}_j \rangle$ تعامل بین ویژگی $i$ و $j$ را مدل میکند. این به طور کارآمد در زمان $O(kn)$ محاسبه میشود.
مؤلفه عمیق:
فرض کنید $\mathbf{a}^{(0)} = [\mathbf{e}_1, \mathbf{e}_2, ..., \mathbf{e}_m]$ الحاق بردارهای جاسازی برای ویژگیهای موجود در $\mathbf{x}$ باشد، که در آن $\mathbf{e}_i$ از یک ماتریس جاسازی جستجو میشود. این از طریق یک سری لایههای کاملاً متصل تغذیه میشود:
$\mathbf{a}^{(l+1)} = \sigma(\mathbf{W}^{(l)} \mathbf{a}^{(l)} + \mathbf{b}^{(l)})$
خروجی لایه نهایی $y_{DNN}$ است.
پیشبینی نهایی:
$\hat{y} = \sigma(y_{FM} + y_{DNN})$
مدل از طریق کمینهسازی تابع زیان آنتروپی متقاطع دودویی، سرتاسری آموزش داده میشود.
8. چارچوب تحلیل و مثال مفهومی
سناریو: پیشبینی اینکه آیا Student_42 کلمه "was" (ریشه: "be"، زمان: گذشته) را در یک تمرین اسپانیایی به درستی ترجمه میکند یا خیر.
موجودیتهای ویژگی و کدگذاری:
user_id=42(گسسته)word_lemma="be"(گسسته)grammar_tense="past"(گسسته)
previous_accuracy=0.85 (پیوسته، نرمالشده)
تفسیر مدل:
- قسمت FM ممکن است یاد بگیرد که وزن تعامل $\langle \mathbf{v}_{user42}, \mathbf{v}_{tense:past} \rangle$ منفی است، که نشان میدهد Student_42 به طور کلی با زمان گذشته مشکل دارد.
- همزمان، ممکن است یاد بگیرد که $\langle \mathbf{v}_{lemma:be}, \mathbf{v}_{tense:past} \rangle$ به شدت منفی است، که نشان میدهد "be" در زمان گذشته به طور خاص برای همه دانشآموزان دشوار است.
- قسمت عمیق ممکن است یک الگوی پیچیدهتر و غیرخطی را یاد بگیرد: به عنوان مثال، یک
previous_accuracyبالا در ترکیب با یک الگوی خاص از خطاهای گذشته روی افعال بیقاعده، پیشبینی نهایی را تعدیل میکند و یک تعامل مرتبه بالاتر فراتر از زوجی را ضبط میکند.
9. کاربردهای آینده و جهتهای پژوهشی
کاربرد DeepFM در ردیابی دانش چندین مسیر امیدوارکننده را باز میکند:
- یکپارچهسازی با مدلهای ترتیبی: مستقیمترین گسترش، گنجاندن پویاییهای زمانی است. یک DeepFM میتواند به عنوان موتور تعامل ویژگی در هر گام زمانی عمل کند، و خروجی آن به یک RNN یا ترنسفورمر تغذیه شود تا تکامل حالت دانش در طول زمان مدل شود و نقاط قوت مدلهای آگاه از ویژگی و آگاه از دنباله را ترکیب کند.
- توصیه محتوای شخصیشده: فراتر از پیشبینی، جاسازیهای یادگرفتهشده برای کاربران، مهارتها و موارد محتوا میتوانند سیستمهای توصیهگر پیچیدهای را در پلتفرمهای یادگیری سازگار توانمند سازند و بهترین تمرین یا منبع یادگیری بعدی را پیشنهاد دهند.
- انتقال یادگیری بین حوزهای: جاسازیهای موجودیت یادگرفتهشده از دادههای یادگیری زبان (مانند جاسازیها برای مفاهیم دستوری) میتوانند به طور بالقوه برای حوزههای دیگر مانند تدریس ریاضی یا علوم منتقل یا تنظیم دقیق شوند و توسعه مدل را در جایی که داده کمتر است تسریع کنند.
- قابل تفسیر بودن و مداخله: اگرچه نسبت به یک DNN محض قابل تفسیرتر است، اما توضیحات DeepFM هنوز بر اساس عوامل پنهان است. کار آینده میتواند بر توسعه روشهای توضیح پسرو متمرکز شود تا تعاملات عامل را به بینشهای قابل اجرا برای معلمان ترجمه کند (مانند "دانشآموز به طور خاص با تعامل بین جمله مجهول و زمان گذشته کامل مشکل دارد").
- آزمون سازگار بلادرنگ: کارایی مؤلفه FM آن را برای سیستمهای بلادرنگ مناسب میسازد. میتوان آن را در محیطهای آزمون سازگار رایانهای (CAT) مستقر کرد تا سؤال بعدی را بر اساس یک تخمین بهطور مداوم بهروز شده از توانایی دانشآموز و تعاملات مورد-ویژگی به صورت پویا انتخاب کند.
10. مراجع
- Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
- Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
- Wilson, K. H., Karklin, Y., Han, B., & Ekanadham, C. (2016). Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation. In Educational Data Mining.
- Cheng, H. T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., ... & Shah, H. (2016, September). Wide & deep learning for recommender systems. In Proceedings of the 1st workshop on deep learning for recommender systems (pp. 7-10).
- Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. (2017). DeepFM: a factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247.
- Vie, J. J., & Kashima, H. (2018). Knowledge tracing machines: Factorization machines for knowledge tracing. arXiv preprint arXiv:1811.03388.
- Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage.
- Settles, B., Brust, C., Gustafson, E., Hagiwara, M., & Madnani, N. (2018). Second language acquisition modeling. In Proceedings of the NAACL-HLT Workshop on Innovative Use of NLP for Building Educational Applications.