ماشین‌های فاکتورگیری عمیق برای ردیابی دانش: تحلیل راه‌حل Duolingo SLAM 2018

فهرست مطالب

1. مقدمه و مرور کلی

این مقاله راه‌حل نویسنده را برای وظیفه مشترک Duolingo در سال ۲۰۱۸ در زمینه مدل‌سازی اکتساب زبان دوم (SLAM) ارائه می‌دهد. چالش اصلی ردیابی دانش در سطح کلمه بود: پیش‌بینی اینکه آیا یک دانش‌آموز کلمات یک جمله جدید را به درستی می‌نویسد یا خیر، با توجه به داده‌های تلاش تاریخی او بر روی هزاران جمله که با ویژگی‌های واژگانی، ریخت‌شناسی و نحوی حاشیه‌نویسی شده بودند.

راه‌حل پیشنهادی از ماشین‌های فاکتورگیری عمیق (DeepFM) استفاده می‌کند، یک مدل ترکیبی که یک مؤلفه گسترده (یک ماشین فاکتورگیری) برای یادگیری تعاملات زوجی ویژگی‌ها و یک مؤلفه عمیق (یک شبکه عصبی عمیق) برای یادگیری تعاملات مرتبه بالاتر ویژگی‌ها را با هم ترکیب می‌کند. این مدل به AUC برابر با ۰.۸۱۵ دست یافت که از خط پایه رگرسیون لجستیک (AUC 0.774) بهتر عمل کرد اما به مدل برتر (AUC 0.861) نرسید. این کار DeepFM را به عنوان یک چارچوب انعطاف‌پذیر معرفی می‌کند که می‌تواند مدل‌های آموزشی سنتی مانند نظریه پاسخ به سؤال (IRT) را در بر گیرد.

2. کارهای مرتبط و پیشینه نظری

این مقاله سهم خود را در چشم‌انداز گسترده‌تر مدل‌سازی دانش‌آموز و ردیابی دانش قرار می‌دهد.

2.1. نظریه پاسخ به سؤال (IRT)

IRT یک چارچوب روان‌سنجی کلاسیک است که احتمال پاسخ صحیح را به عنوان تابعی از توانایی پنهان دانش‌آموز ($\theta$) و پارامترهای سؤال (مانند دشواری $b$) مدل می‌کند. یک مدل رایج، مدل لجستیک دوپارامتری (2PL) است: $P(\text{correct} | \theta) = \sigma(a(\theta - b))$، که در آن $a$ پارامتر تشخیص و $\sigma$ تابع لجستیک است. مقاله خاطرنشان می‌کند که IRT یک خط پایه قوی و قابل تفسیر تشکیل می‌دهد اما معمولاً اطلاعات جانبی غنی را در بر نمی‌گیرد.

2.2. تکامل ردیابی دانش

ردیابی دانش بر مدل‌سازی تکامل دانش یک دانش‌آموز در طول زمان متمرکز است.

ردیابی دانش بیزی (BKT): یادگیرنده را به عنوان یک مدل مارکوف پنهان با حالت‌های دانش پنهان مدل می‌کند.
ردیابی دانش عمیق (DKT): از شبکه‌های عصبی بازگشتی (RNN)، مانند LSTM، برای مدل‌سازی دنباله‌های زمانی تعاملات دانش‌آموز استفاده می‌کند. مقاله به کار Wilson و همکاران (۲۰۱۶) اشاره می‌کند که نشان می‌دهد گونه‌های IRT می‌توانند از مدل‌های اولیه DKT بهتر عمل کنند و نیاز به معماری‌های قوی و آگاه از ویژگی را برجسته می‌سازد.

2.3. یادگیری گسترده و عمیق

مقاله بر اساس پارادایم یادگیری گسترده و عمیق معرفی شده توسط Cheng و همکاران (۲۰۱۶) در گوگل بنا شده است. مدل خطی "گسترده" هم‌رخدادهای مکرر ویژگی‌ها را به خاطر می‌سپارد، در حالی که شبکه عصبی "عمیق" به ترکیبات ویژگی دیده نشده تعمیم می‌یابد. Guo و همکاران (۲۰۱۷) پیشنهاد کردند که مدل خطی گسترده با یک ماشین فاکتورگیری (FM) جایگزین شود، که به طور کارآمد تمام تعاملات زوجی بین ویژگی‌ها را از طریق پارامترهای فاکتورشده مدل می‌کند و منجر به معماری DeepFM می‌شود.

3. DeepFM برای ردیابی دانش

مقاله مدل DeepFM را برای حوزه ردیابی دانش تطبیق می‌دهد.

3.1. معماری و فرمول‌بندی مدل

DeepFM از دو مؤلفه موازی تشکیل شده است که خروجی‌های آن‌ها ترکیب می‌شود:

مؤلفه FM: تعاملات خطی و زوجی ویژگی‌ها را مدل می‌کند. برای یک بردار ویژگی ورودی $\mathbf{x}$، خروجی FM به این صورت است: $y_{FM} = w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$، که در آن $\mathbf{v}_i$ بردارهای عامل پنهان هستند.
مؤلفه عمیق: یک شبکه عصبی پیش‌خور استاندارد که جاسازی‌های متراکم ویژگی‌ها را به عنوان ورودی می‌گیرد و الگوهای پیچیده و مرتبه بالا را یاد می‌گیرد.

پیش‌بینی نهایی به این صورت است: $p(\mathbf{x}) = \psi(y_{FM} + y_{DNN})$، که در آن $\psi$ یک تابع پیوند است (مانند سیگموید $\sigma$ یا تابع توزیع تجمعی نرمال $\Phi$).

3.2. کدگذاری ویژگی‌ها و جاسازی‌ها

یک سهم کلیدی، نحوه برخورد با ویژگی‌ها است. مدل C دسته از ویژگی‌ها را در نظر می‌گیرد (مانند user_id، item_id، مهارت، کشور، زمان). هر مقدار گسسته درون یک دسته (مانند user=123، country='FR') یا خود یک مقدار پیوسته، یک موجودیت نامیده می‌شود. به هر یک از N موجودیت ممکن، یک بردار جاسازی قابل یادگیری اختصاص داده می‌شود. یک نمونه (مانند پاسخ یک دانش‌آموز به یک کلمه) به عنوان یک بردار پراکنده $\mathbf{x}$ به اندازه N کدگذاری می‌شود، که در آن مؤلفه‌ها برای موجودیت‌های گسسته حاضر روی ۱، برای ویژگی‌های پیوسته روی مقدار واقعی و برای بقیه روی ۰ تنظیم می‌شوند.

4. کاربرد در وظیفه SLAM

4.1. آماده‌سازی داده

برای وظیفه SLAM در Duolingo، ویژگی‌ها شامل شناسه کاربر، مورد واژگانی (کلمه)، ویژگی‌های زبانی مرتبط با آن (قسمت سخن، ریخت‌شناسی)، زمینه جمله و اطلاعات زمانی بودند. این موارد به فرمت پراکنده مبتنی بر موجودیت مورد نیاز DeepFM تبدیل شدند. این کدگذاری به مدل اجازه می‌دهد تا تعاملات بین هر جفت موجودیت، مانند (user=Alice، word="ser") و (word="ser"، tense=past) را یاد بگیرد.

4.2. تنظیمات آزمایشی

مدل برای پیش‌بینی نتیجه دودویی (صحیح/غلط) برای نوشتن یک کلمه خاص توسط یک دانش‌آموز آموزش داده شد. AUC (مساحت زیر منحنی ROC) به عنوان معیار ارزیابی اولیه استفاده شد که برای وظایف طبقه‌بندی دودویی با داده نامتعادل رایج در محیط‌های آموزشی استاندارد است.

5. نتایج و تحلیل عملکرد

مدل DeepFM به AUC آزمون برابر با ۰.۸۱۵ دست یافت. این نشان‌دهنده بهبود قابل توجهی نسبت به خط پایه رگرسیون لجستیک (AUC 0.774) است و ارزش مدل‌سازی تعاملات ویژگی‌ها را نشان می‌دهد. با این حال، به بالاترین امتیاز ۰.۸۶۱ نرسید. مقاله پیشنهاد می‌کند که این امر "راهبردهای جالبی برای بنا نهادن بر مدل‌های نظریه پاسخ به سؤال" را آشکار می‌سازد، به این معنا که اگرچه DeepFM یک چارچوب قدرتمند و غنی از ویژگی ارائه می‌دهد، اما فضایی برای گنجاندن جنبه‌های نظری آموزشی ظریف‌تر یا مدل‌سازی ترتیبی که مدل برتر ممکن است آن را ضبط کرده باشد، وجود دارد.

خلاصه عملکرد (AUC)

خط پایه رگرسیون لجستیک: 0.774
DeepFM (این کار): 0.815
مدل با عملکرد برتر: 0.861

مقدار AUC بالاتر نشان‌دهنده عملکرد پیش‌بینی بهتر است.

6. تحلیل انتقادی و بینش‌های تخصصی

بینش اصلی: این مقاله در مورد یک الگوریتم جدید انقلابی نیست، بلکه یک کاربرد هوشمندانه و عمل‌گرایانه از یک مدل سیستم توصیه‌گر صنعتی موجود (DeepFM) در یک فضای مسئله نوپا است: ردیابی دانش دانه‌ریز و غنی از ویژگی. حرکت نویسنده گویاست—آن‌ها از چرخه تب‌آلود آکادمیک حول یادگیری عمیق محض برای آموزش (مانند DKT اولیه) عبور می‌کنند و در عوض یک مدل اثبات‌شده در تجارت الکترونیک را برای ضبط تعاملات پیچیده کاربر-مورد-ویژگی بازهدف‌گذاری می‌کنند. بینش واقعی، قالب‌بندی ردیابی دانش نه تنها به عنوان یک مسئله پیش‌بینی دنباله، بلکه به عنوان یک مسئله تعامل ویژگی پراکنده با ابعاد بالا است، بسیار شبیه به پیش‌بینی کلیک در تبلیغات.

جریان منطقی و موقعیت‌یابی راهبردی: منطق قانع‌کننده است. ۱) مدل‌های سنتی (IRT، BKT) قابل تفسیر هستند اما به تعاملات از پیش تعریف‌شده و کم‌بعد محدود می‌شوند. ۲) مدل‌های یادگیری عمیق اولیه (DKT) دنباله‌ها را ضبط می‌کنند اما می‌توانند گرسنه داده و کدر باشند، همان‌طور که Wilson و همکاران اشاره کردند گاهی از مدل‌های ساده‌تر عملکرد ضعیف‌تری دارند. ۳) وظیفه SLAM گنجینه‌ای از اطلاعات جانبی (ویژگی‌های زبانی) ارائه می‌دهد. ۴) بنابراین، از مدلی استفاده کنید که صراحتاً برای این طراحی شده است: DeepFM، که به خاطر سپردن تعاملات زوجی فاکتورشده (قسمت FM، مشابه تعامل دانش‌آموز-سؤال در IRT) را با قدرت تعمیم یک DNN ترکیب می‌کند. مقاله به طور هوشمندانه‌ای نشان می‌دهد که چگونه IRT می‌تواند به عنوان یک مورد خاص و ساده‌شده از این چارچوب دیده شود، و بدین ترتیب ادعای جایگاه برتر کلیت را مطرح می‌کند.

نقاط قوت و ضعف: نقطه قوت اولیه عمل‌گرایی و بهره‌برداری از ویژگی‌ها است. DeepFM یک معماری قوی و آماده برای بهره‌گیری از مجموعه ویژگی غنی وظیفه SLAM است. ضعف آن، همان‌طور که نتایج نشان می‌دهد، این است که احتمالاً توسط مدل‌هایی که پویایی‌های ذاتی در یادگیری را بهتر ضبط کردند، شکست خورد. یک مدل مبتنی بر LSTM یا یک معماری ترنسفورمر (مانند آن‌هایی که بعداً در KT استفاده شدند، مانند SAKT یا AKT) ممکن است تاریخچه ترتیبی را مؤثرتر یکپارچه کرده باشد. AUC مقاله برابر با ۰.۸۱۵، اگرچه بهبودی محکم نسبت به خط پایه است، اما فاصله ۰.۰۴۶ با برنده باقی می‌گذارد—فاصله‌ای که احتمالاً بهای تخصصی نبودن در بعد زمانی را نشان می‌دهد. همان‌طور که پژوهش‌ها از چالش Riiid! AI و کارهای بعدی نشان می‌دهند، ترکیب معماری‌های آگاه از ویژگی مانند DeepFM با مدل‌های ترتیبی پیچیده، مسیر برنده است.

بینش‌های قابل اجرا: برای متخصصان و پژوهشگران: ۱) مهندسی ویژگی را نادیده نگیرید. موفقیت کاربرد DeepFM تأکید می‌کند که در داده‌های آموزشی، "اطلاعات جانبی" (برچسب‌های مهارت، دشواری، زمان پاسخ، ویژگی‌های زبانی) اغلب اطلاعات اصلی هستند. ۲) به حوزه‌های مجاور نگاه کنید. سیستم‌های توصیه‌گر یک دهه را صرف حل مسائل مشابه شروع سرد، پراکندگی و تعامل ویژگی کرده‌اند؛ جعبه ابزار آن‌ها (FM، DeepFM، DCN) مستقیماً قابل انتقال است. ۳) آینده در ترکیب است. گام بعدی روشن است: قدرت تعامل ویژگی DeepFM را با یک ماژول ترتیبی پیشرفته یکپارچه کنید. یک "DeepFM زمانی" را تصور کنید که در آن مؤلفه عمیق یک LSTM یا ترنسفورمر است که دنباله‌ای از این بازنمایی‌های تعامل فاکتورشده را پردازش می‌کند. این با مسیری که در کارهایی مانند "شبکه تکامل علاقه عمیق" (DIEN) در تبلیغات دیده می‌شود همسو است، که تعامل ویژگی را با مدل‌سازی ترتیبی تکامل علاقه کاربر ترکیب می‌کند—یک قیاس کامل برای تکامل دانش.

7. جزئیات فنی و فرمول‌بندی ریاضی

هسته DeepFM در معماری دو مؤلفه‌ای آن نهفته است. فرض کنید ورودی یک بردار ویژگی پراکنده $\mathbf{x} \in \mathbb{R}^n$ باشد.

مؤلفه ماشین فاکتورگیری (FM):
$y_{FM} = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$
در اینجا، $w_0$ بایاس سراسری است، $w_i$ وزن‌ها برای جمله‌های خطی هستند و $\mathbf{v}_i \in \mathbb{R}^k$ بردار عامل پنهان برای ویژگی i-ام است. ضرب داخلی $\langle \mathbf{v}_i, \mathbf{v}_j \rangle$ تعامل بین ویژگی $i$ و $j$ را مدل می‌کند. این به طور کارآمد در زمان $O(kn)$ محاسبه می‌شود.

مؤلفه عمیق:
فرض کنید $\mathbf{a}^{(0)} = [\mathbf{e}_1, \mathbf{e}_2, ..., \mathbf{e}_m]$ الحاق بردارهای جاسازی برای ویژگی‌های موجود در $\mathbf{x}$ باشد، که در آن $\mathbf{e}_i$ از یک ماتریس جاسازی جستجو می‌شود. این از طریق یک سری لایه‌های کاملاً متصل تغذیه می‌شود:
$\mathbf{a}^{(l+1)} = \sigma(\mathbf{W}^{(l)} \mathbf{a}^{(l)} + \mathbf{b}^{(l)})$
خروجی لایه نهایی $y_{DNN}$ است.

پیش‌بینی نهایی:
$\hat{y} = \sigma(y_{FM} + y_{DNN})$
مدل از طریق کمینه‌سازی تابع زیان آنتروپی متقاطع دودویی، سرتاسری آموزش داده می‌شود.

8. چارچوب تحلیل و مثال مفهومی

سناریو: پیش‌بینی اینکه آیا Student_42 کلمه "was" (ریشه: "be"، زمان: گذشته) را در یک تمرین اسپانیایی به درستی ترجمه می‌کند یا خیر.

موجودیت‌های ویژگی و کدگذاری:

user_id=42 (گسسته)
word_lemma="be" (گسسته)
grammar_tense="past" (گسسته)

previous_accuracy=0.85

بردار ورودی پراکنده $\mathbf{x}$ در موقعیت‌های متناظر با موجودیت‌های گسسته مقدار ۱، برای ویژگی پیوسته مقدار ۰.۸۵ و در جاهای دیگر مقدار ۰ خواهد داشت.

تفسیر مدل:

قسمت FM ممکن است یاد بگیرد که وزن تعامل $\langle \mathbf{v}_{user42}, \mathbf{v}_{tense:past} \rangle$ منفی است، که نشان می‌دهد Student_42 به طور کلی با زمان گذشته مشکل دارد.
همزمان، ممکن است یاد بگیرد که $\langle \mathbf{v}_{lemma:be}, \mathbf{v}_{tense:past} \rangle$ به شدت منفی است، که نشان می‌دهد "be" در زمان گذشته به طور خاص برای همه دانش‌آموزان دشوار است.
قسمت عمیق ممکن است یک الگوی پیچیده‌تر و غیرخطی را یاد بگیرد: به عنوان مثال، یک previous_accuracy بالا در ترکیب با یک الگوی خاص از خطاهای گذشته روی افعال بی‌قاعده، پیش‌بینی نهایی را تعدیل می‌کند و یک تعامل مرتبه بالاتر فراتر از زوجی را ضبط می‌کند.

این نشان می‌دهد که چگونه DeepFM می‌تواند همزمان روابط ساده و قابل تفسیر (مانند IRT) و الگوهای پیچیده غیرخطی را ضبط کند.

9. کاربردهای آینده و جهت‌های پژوهشی

کاربرد DeepFM در ردیابی دانش چندین مسیر امیدوارکننده را باز می‌کند:

یکپارچه‌سازی با مدل‌های ترتیبی: مستقیم‌ترین گسترش، گنجاندن پویایی‌های زمانی است. یک DeepFM می‌تواند به عنوان موتور تعامل ویژگی در هر گام زمانی عمل کند، و خروجی آن به یک RNN یا ترنسفورمر تغذیه شود تا تکامل حالت دانش در طول زمان مدل شود و نقاط قوت مدل‌های آگاه از ویژگی و آگاه از دنباله را ترکیب کند.
توصیه محتوای شخصی‌شده: فراتر از پیش‌بینی، جاسازی‌های یادگرفته‌شده برای کاربران، مهارت‌ها و موارد محتوا می‌توانند سیستم‌های توصیه‌گر پیچیده‌ای را در پلتفرم‌های یادگیری سازگار توانمند سازند و بهترین تمرین یا منبع یادگیری بعدی را پیشنهاد دهند.
انتقال یادگیری بین حوزه‌ای: جاسازی‌های موجودیت یادگرفته‌شده از داده‌های یادگیری زبان (مانند جاسازی‌ها برای مفاهیم دستوری) می‌توانند به طور بالقوه برای حوزه‌های دیگر مانند تدریس ریاضی یا علوم منتقل یا تنظیم دقیق شوند و توسعه مدل را در جایی که داده کم‌تر است تسریع کنند.
قابل تفسیر بودن و مداخله: اگرچه نسبت به یک DNN محض قابل تفسیرتر است، اما توضیحات DeepFM هنوز بر اساس عوامل پنهان است. کار آینده می‌تواند بر توسعه روش‌های توضیح پس‌رو متمرکز شود تا تعاملات عامل را به بینش‌های قابل اجرا برای معلمان ترجمه کند (مانند "دانش‌آموز به طور خاص با تعامل بین جمله مجهول و زمان گذشته کامل مشکل دارد").
آزمون سازگار بلادرنگ: کارایی مؤلفه FM آن را برای سیستم‌های بلادرنگ مناسب می‌سازد. می‌توان آن را در محیط‌های آزمون سازگار رایانه‌ای (CAT) مستقر کرد تا سؤال بعدی را بر اساس یک تخمین به‌طور مداوم به‌روز شده از توانایی دانش‌آموز و تعاملات مورد-ویژگی به صورت پویا انتخاب کند.

10. مراجع

Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
Wilson, K. H., Karklin, Y., Han, B., & Ekanadham, C. (2016). Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation. In Educational Data Mining.
Cheng, H. T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., ... & Shah, H. (2016, September). Wide & deep learning for recommender systems. In Proceedings of the 1st workshop on deep learning for recommender systems (pp. 7-10).
Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. (2017). DeepFM: a factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247.
Vie, J. J., & Kashima, H. (2018). Knowledge tracing machines: Factorization machines for knowledge tracing. arXiv preprint arXiv:1811.03388.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage.
Settles, B., Brust, C., Gustafson, E., Hagiwara, M., & Madnani, N. (2018). Second language acquisition modeling. In Proceedings of the NAACL-HLT Workshop on Innovative Use of NLP for Building Educational Applications.