深度分解機於知識追蹤之應用：2018年 Duolingo SLAM 解決方案分析

1. 簡介與概述

本文介紹作者針對 2018 年 Duolingo 第二語言習得建模共享任務所提出的解決方案。核心挑戰在於詞彙層級的知識追蹤：在給定學生於數千個標註了詞彙、形態和句法特徵的句子上的歷史嘗試資料後，預測學生是否能正確寫出新句子中的單詞。

所提出的解決方案採用深度分解機，這是一種混合模型，結合了用於學習成對特徵交互的寬度元件（分解機）和用於學習高階特徵交互的深度元件（深度神經網路）。該模型達到了 0.815 的 AUC，優於羅吉斯迴歸基線（AUC 0.774），但未達到最佳模型（AUC 0.861）的表現。這項工作將 DeepFM 定位為一個靈活的框架，能夠涵蓋傳統的教育模型，如試題反應理論。

2. 相關研究與理論背景

本文將其貢獻置於更廣泛的學生建模與知識追蹤領域中。

2.1. 試題反應理論 (IRT)

IRT 是一個經典的心理計量學框架，它將正確反應的機率建模為學生潛在能力 ($\theta$) 和試題參數（例如難度 $b$）的函數。一個常見的模型是雙參數羅吉斯模型：$P(\text{正確} | \theta) = \sigma(a(\theta - b))$，其中 $a$ 是鑑別度，$\sigma$ 是羅吉斯函數。本文指出，IRT 提供了一個強大且可解釋的基線，但通常不包含豐富的輔助資訊。

2.2. 知識追蹤的演進

知識追蹤著重於對學生知識隨時間演變的建模。

貝氏知識追蹤 (BKT)：將學習者建模為具有潛在知識狀態的隱馬可夫模型。
深度知識追蹤 (DKT)：使用循環神經網路（如 LSTM）來建模學生互動的時間序列。本文引用了 Wilson 等人（2016）的研究，該研究表明 IRT 的變體可以勝過早期的 DKT 模型，凸顯了對穩健、具特徵感知能力的架構的需求。

2.3. 寬度與深度學習

本文建立在 Google 的 Cheng 等人（2016）提出的寬度與深度學習範式之上。「寬度」線性模型記憶頻繁的特徵共現，而「深度」神經網路則泛化到未見過的特徵組合。Guo 等人（2017）提出用分解機取代寬度線性模型，它透過分解參數有效地建模特徵之間的所有成對交互，從而產生了 DeepFM 架構。

3. 用於知識追蹤的 DeepFM

本文將 DeepFM 模型調整應用於知識追蹤領域。

3.1. 模型架構與公式化

DeepFM 由兩個平行元件組成，其輸出被結合：

FM 元件：建模線性和成對特徵交互。對於輸入特徵向量 $\mathbf{x}$，FM 輸出為：$y_{FM} = w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$，其中 $\mathbf{v}_i$ 是潛在因子向量。
深度元件：一個標準的前饋神經網路，以密集的特徵嵌入作為輸入，並學習複雜的高階模式。

最終預測為：$p(\mathbf{x}) = \psi(y_{FM} + y_{DNN})$，其中 $\psi$ 是連結函數（例如，Sigmoid $\sigma$ 或常態分佈的 CDF $\Phi$）。

3.2. 特徵編碼與嵌入

一個關鍵貢獻在於對特徵的處理。模型考慮C 個類別的特徵（例如，使用者 ID、項目 ID、技能、國家、時間）。類別內的每個離散值（例如，使用者=123，國家='FR'）或連續值本身被稱為一個實體。每個可能的 N 個實體都被分配一個可學習的嵌入向量。一個實例（例如，學生回答一個單詞）被編碼為大小為 N 的稀疏向量 $\mathbf{x}$，其中分量被設置為 1（對於存在的離散實體）、實際值（對於連續特徵）或 0。

4. 應用於 SLAM 任務

4.1. 資料準備

對於 Duolingo SLAM 任務，特徵包括使用者 ID、詞彙項目（單詞）、其相關的語言學特徵（詞性、形態）、句子上下文和時間資訊。這些被轉換為 DeepFM 所需的基於實體的稀疏格式。這種編碼允許模型學習任何一對實體之間的交互，例如（使用者=Alice，單詞="ser"）和（單詞="ser"，時態=過去式）。

4.2. 實驗設定

模型被訓練來預測學生書寫特定單詞的二分類結果（正確/錯誤）。AUC（ROC 曲線下面積）被用作主要的評估指標，這是在教育情境中常見的、資料不平衡的二分類任務的標準指標。

5. 結果與效能分析

DeepFM 模型在測試集上達到了 AUC 0.815。這相較於羅吉斯迴歸基線（AUC 0.774）有顯著提升，證明了建模特徵交互的價值。然而，它並未達到最高分 0.861。本文認為這揭示了「在試題反應理論模型基礎上進行建構的有趣策略」，暗示雖然 DeepFM 提供了一個強大、特徵豐富的框架，但在融入更細緻的教育理論或最佳模型可能捕捉到的序列建模方面仍有改進空間。

效能摘要 (AUC)

羅吉斯迴歸基線： 0.774
DeepFM（本工作）： 0.815
最佳表現模型： 0.861

AUC 越高表示預測效能越好。

6. 批判性分析與專家見解

核心見解： 本文並非關於一個突破性的新演算法，而是對一個現有的、工業級推薦系統模型（DeepFM）進行了一次精明且務實的應用，對象是一個新興問題領域：細粒度、特徵豐富的知識追蹤。作者的舉動頗具啟發性——他們繞過了學術界圍繞純深度學習應用於教育（如早期的 DKT）的炒作循環，轉而重新利用一個在電子商務中已被證明能捕捉複雜使用者-項目-特徵交互的模型。真正的洞見在於將知識追蹤不僅僅框架為一個序列預測問題，更是一個高維度、稀疏的特徵交互問題，就像預測廣告點擊一樣。

邏輯流程與策略定位： 其邏輯具有說服力。1) 傳統模型（IRT、BKT）可解釋性強，但僅限於預先定義的低維度交互。2) 早期的深度學習模型（DKT）能捕捉序列，但可能資料需求量大且不透明，有時表現不如更簡單的模型，正如 Wilson 等人所指出的。3) SLAM 任務提供了豐富的輔助資訊（語言學特徵）。4) 因此，使用一個專為此設計的模型：DeepFM，它將分解成對交互的記憶（FM 部分，類似於 IRT 的學生-項目交互）與 DNN 的泛化能力相結合。本文巧妙地展示了 IRT 如何可以被視為此框架的一個特殊、簡化的案例，從而佔據了通用性的高地。

優點與缺點： 主要優點是實用性和特徵利用。DeepFM 是一個穩健、現成的架構，用於利用 SLAM 任務豐富的特徵集。其缺點，正如結果所揭示的，是它可能被那些更能捕捉學習過程中固有時間動態的模型所超越。基於 LSTM 的模型或 Transformer 架構（如後來在 KT 中使用的 SAKT 或 AKT）可能更有效地整合了序列歷史。本文的 AUC 0.815，雖然相較於基線有穩固的提升，但與冠軍模型仍有 0.046 的差距——這個差距很可能代表了未專門處理時間維度所付出的代價。正如 Riiid! AI 挑戰賽及後續研究所示，將像 DeepFM 這樣具特徵感知能力的架構與複雜的序列模型相結合，才是致勝之道。

可操作的見解： 對於實務工作者和研究人員：1) 不要忽視特徵工程。 應用 DeepFM 的成功強調了在教育資料中，「輔助資訊」（技能標籤、難度、反應時間、語言學特徵）往往是主要資訊。2) 關注相鄰領域。 推薦系統花了十年時間解決類似的冷啟動、稀疏性和特徵交互問題；它們的工具包（FM、DeepFM、DCN）可以直接轉移。3) 未來是混合的。 下一步很明確：將 DeepFM 的特徵交互能力與最先進的序列模組整合。想像一個「時序 DeepFM」，其中深度元件是一個 LSTM 或 Transformer，用於處理這些分解交互表示序列。這與廣告領域中「深度興趣演化網路」等工作的軌跡一致，該網路結合了特徵交互與使用者興趣演化的序列建模——這正是知識演化的完美類比。

7. 技術細節與數學公式

DeepFM 的核心在於其雙元件架構。令輸入為稀疏特徵向量 $\mathbf{x} \in \mathbb{R}^n$。

分解機 (FM) 元件：
$y_{FM} = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$
其中，$w_0$ 是全域偏置，$w_i$ 是線性項的權重，$\mathbf{v}_i \in \mathbb{R}^k$ 是第 i 個特徵的潛在因子向量。內積 $\langle \mathbf{v}_i, \mathbf{v}_j \rangle$ 建模了特徵 $i$ 和 $j$ 之間的交互。這可以在 $O(kn)$ 時間內高效計算。

深度元件：
令 $\mathbf{a}^{(0)} = [\mathbf{e}_1, \mathbf{e}_2, ..., \mathbf{e}_m]$ 為 $\mathbf{x}$ 中存在的特徵的嵌入向量串接，其中 $\mathbf{e}_i$ 是從嵌入矩陣中查找得到的。這將通過一系列全連接層：
$\mathbf{a}^{(l+1)} = \sigma(\mathbf{W}^{(l)} \mathbf{a}^{(l)} + \mathbf{b}^{(l)})$
最後一層的輸出是 $y_{DNN}$。

最終預測：
$\hat{y} = \sigma(y_{FM} + y_{DNN})$
模型通過最小化二元交叉熵損失進行端到端訓練。

8. 分析框架與概念範例

情境： 預測學生_42 是否能在西班牙語練習中正確翻譯單詞 "was"（詞元："be"，時態：過去式）。

特徵實體與編碼：

user_id=42 (離散)
word_lemma="be" (離散)
grammar_tense="past" (離散)

previous_accuracy=0.85

稀疏輸入向量 $\mathbf{x}$ 將在對應於離散實體的位置上為 1，連續特徵的值為 0.85，其餘位置為 0。

模型解釋：

FM 部分 可能學習到交互權重 $\langle \mathbf{v}_{user42}, \mathbf{v}_{tense:past} \rangle$ 為負值，表明學生_42 普遍在過去式上有困難。
同時，它可能學習到 $\langle \mathbf{v}_{lemma:be}, \mathbf{v}_{tense:past} \rangle$ 為高度負值，表明 "be" 的過去式對所有學生來說都特別困難。
深度部分 可能學習到一個更複雜、非線性的模式：例如，高 previous_accuracy 結合特定模式的不規則動詞過去式錯誤，會調節最終預測，捕捉到超越成對交互的高階交互。

這展示了 DeepFM 如何能同時捕捉簡單、可解釋的關係（如 IRT）和複雜、非線性的模式。

9. 未來應用與研究方向

將 DeepFM 應用於知識追蹤開闢了幾個有前景的方向：

與序列模型整合： 最直接的延伸是納入時間動態。DeepFM 可以在每個時間步作為特徵交互引擎，其輸出被饋入 RNN 或 Transformer 以建模知識狀態隨時間的演化，融合具特徵感知能力和序列感知能力模型的優勢。
個人化內容推薦： 除了預測，學習到的使用者、技能和內容項目的嵌入可以驅動自適應學習平台內的複雜推薦系統，建議下一個最佳練習或學習資源。
跨領域遷移學習： 從語言學習資料中學習到的實體嵌入（例如，語法概念的嵌入）有可能遷移或微調到其他領域，如數學或科學輔導，在資料較稀缺的地方加速模型開發。
可解釋性與介入： 雖然比純 DNN 更具可解釋性，但 DeepFM 的解釋仍基於潛在因子。未來的工作可以專注於開發事後解釋方法，將因子交互轉化為教師可操作的見解（例如，「學生在『被動語態』與『過去完成式』的交互上特別有困難」）。
即時自適應測驗： FM 元件的效率使其適合即時系統。它可以部署在電腦化自適應測驗環境中，根據持續更新的學生能力和項目-特徵交互估計，動態選擇下一個問題。

10. 參考文獻

Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
Wilson, K. H., Karklin, Y., Han, B., & Ekanadham, C. (2016). Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation. In Educational Data Mining.
Cheng, H. T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., ... & Shah, H. (2016, September). Wide & deep learning for recommender systems. In Proceedings of the 1st workshop on deep learning for recommender systems (pp. 7-10).
Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. (2017). DeepFM: a factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247.
Vie, J. J., & Kashima, H. (2018). Knowledge tracing machines: Factorization machines for knowledge tracing. arXiv preprint arXiv:1811.03388.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage.
Settles, B., Brust, C., Gustafson, E., Hagiwara, M., & Madnani, N. (2018). Second language acquisition modeling. In Proceedings of the NAACL-HLT Workshop on Innovative Use of NLP for Building Educational Applications.

目錄