目录
1. 引言与概述
本文介绍了作者针对2018年多邻国第二语言习得建模共享任务的解决方案。核心挑战在于词汇级别的知识追踪:在给定学生数千个带有词汇、形态和句法特征标注的句子历史作答数据的情况下,预测学生能否正确写出新句子中的单词。
提出的解决方案采用了深度因子分解机,这是一种混合模型,结合了用于学习特征间成对交互的广度组件(因子分解机)和用于学习高阶特征交互的深度组件(深度神经网络)。该模型取得了0.815的AUC值,优于逻辑回归基线(AUC 0.774),但未达到最佳模型(AUC 0.861)的水平。这项工作将DeepFM定位为一个灵活的框架,能够涵盖如项目反应理论等传统教育模型。
2. 相关工作与理论背景
本文将其贡献置于学生建模和知识追踪的更广阔背景中。
2.1. 项目反应理论
IRT是一种经典的心理测量学框架,它将正确作答的概率建模为学生潜在能力($\theta$)和项目参数(例如难度 $b$)的函数。一个常见的模型是双参数逻辑斯蒂模型:$P(\text{正确} | \theta) = \sigma(a(\theta - b))$,其中 $a$ 是区分度,$\sigma$ 是逻辑斯蒂函数。本文指出,IRT构成了一个强大且可解释的基线,但通常不包含丰富的辅助信息。
2.2. 知识追踪的演进
知识追踪侧重于对学生知识随时间演变的建模。
- 贝叶斯知识追踪:将学习者建模为具有潜在知识状态的隐马尔可夫模型。
- 深度知识追踪:使用循环神经网络(如LSTM)来建模学生交互的时间序列。本文引用了Wilson等人(2016)的研究,表明IRT的变体可以超越早期的DKT模型,这凸显了对鲁棒且特征感知架构的需求。
2.3. 广度与深度学习
本文建立在谷歌Cheng等人(2016)提出的广度与深度学习范式之上。“广度”线性模型记忆频繁的特征共现,而“深度”神经网络则泛化到未见过的特征组合。Guo等人(2017)提出用因子分解机取代广度线性模型,它通过因子化参数高效地建模所有特征间的成对交互,从而形成了DeepFM架构。
3. 用于知识追踪的深度因子分解机
本文将DeepFM模型适配到知识追踪领域。
3.1. 模型架构与公式化
DeepFM由两个并行组件组成,其输出被合并:
- FM组件:建模线性和成对特征交互。对于输入特征向量 $\mathbf{x}$,FM输出为:$y_{FM} = w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$,其中 $\mathbf{v}_i$ 是潜在因子向量。
- 深度组件:一个标准的前馈神经网络,以密集的特征嵌入作为输入,学习复杂的高阶模式。
3.2. 特征编码与嵌入
一个关键贡献在于对特征的处理。模型考虑C个类别的特征(例如,用户ID、项目ID、技能、国家、时间)。每个类别内的离散值(例如,用户=123,国家='FR')或连续值本身被称为一个实体。每个可能的N个实体都被分配一个可学习的嵌入向量。一个实例(例如,学生回答一个单词)被编码为一个大小为N的稀疏向量 $\mathbf{x}$,其中分量被设置为1(对于存在的离散实体)、实际值(对于连续特征)或0。
4. 在SLAM任务中的应用
4.1. 数据准备
对于多邻国SLAM任务,特征包括用户ID、词汇项(单词)、其相关的语言学特征(词性、形态)、句子上下文和时间信息。这些被转换为DeepFM所需的基于实体的稀疏格式。这种编码允许模型学习任意实体对之间的交互,例如(用户=Alice,单词="ser")和(单词="ser",时态=过去时)。
4.2. 实验设置
模型被训练用于预测学生书写特定单词的二元结果(正确/错误)。AUC(ROC曲线下面积)被用作主要评估指标,这是教育场景中常见的数据不平衡二元分类任务的标准指标。
5. 结果与性能分析
DeepFM模型在测试集上取得了0.815的AUC值。这相对于逻辑回归基线(AUC 0.774)是一个显著的提升,证明了建模特征交互的价值。然而,它并未达到0.861的最高分。本文认为这揭示了“在项目反应理论模型基础上进行构建的有趣策略”,暗示虽然DeepFM提供了一个强大且特征丰富的框架,但在融入更细致入微的教育理论或序列建模方面仍有空间,而最佳模型可能捕捉到了这些方面。
性能摘要(AUC)
- 逻辑回归基线: 0.774
- DeepFM(本工作): 0.815
- 最佳表现模型: 0.861
AUC值越高,表示预测性能越好。
6. 批判性分析与专家见解
核心见解: 本文并非关于一个突破性的新算法,而是对一个现有的工业级推荐系统模型(DeepFM)在一个新兴问题领域——细粒度、特征丰富的知识追踪——进行了一次精明、务实的应用。作者的举动颇具启发性——他们绕过了围绕教育领域纯深度学习(如早期DKT)的学术炒作周期,转而利用一个在电子商务中已被证明能捕捉复杂用户-项目-特征交互的模型。真正的洞见在于将知识追踪不仅视为一个序列预测问题,更视为一个高维、稀疏的特征交互问题,类似于广告点击预测。
逻辑流程与战略定位: 其逻辑具有说服力。1) 传统模型(IRT、BKT)可解释性强,但仅限于预定义的低维交互。2) 早期深度学习模型(DKT)能捕捉序列,但可能数据需求量大且不透明,有时表现不如更简单的模型,正如Wilson等人所指出的。3) SLAM任务提供了丰富的辅助信息(语言学特征)。4) 因此,使用一个为此明确设计的模型:DeepFM,它融合了因子化成对交互的记忆能力(FM部分,类似于IRT的学生-项目交互)和DNN的泛化能力。本文巧妙地展示了IRT如何可以被视为该框架的一个特殊、简化的案例,从而占据了通用性的高地。
优势与不足: 主要优势在于实用性和特征利用。DeepFM是一个鲁棒的、现成的架构,可用于利用SLAM任务丰富的特征集。其不足,正如结果所揭示的,在于它很可能被那些更好地捕捉了学习过程中固有时间动态的模型所超越。基于LSTM的模型或Transformer架构(如后来在KT中使用的SAKT或AKT)可能更有效地整合了序列历史。本文0.815的AUC值,虽然相对于基线是坚实的提升,但与获胜者仍有0.046的差距——这个差距很可能代表了未在时间维度上进行专门化建模所付出的代价。正如Riiid! AI挑战赛及后续研究所表明的,将像DeepFM这样的特征感知架构与复杂的序列模型相结合才是制胜之道。
可操作的见解: 对于实践者和研究者:1) 不要忽视特征工程。 应用DeepFM的成功强调了在教育数据中,“辅助信息”(技能标签、难度、响应时间、语言学特征)往往是主要信息。2) 关注相邻领域。 推荐系统花费了十年时间解决冷启动、稀疏性和特征交互等类似问题;它们的工具包(FM、DeepFM、DCN)可直接迁移。3) 未来在于混合。 下一步是明确的:将DeepFM的特征交互能力与最先进的序列模块相结合。设想一个“时序DeepFM”,其中深度组件是一个LSTM或Transformer,用于处理这些因子化交互表示序列。这与广告领域“深度兴趣演化网络”等工作所见的轨迹一致,它将特征交互与用户兴趣演化的序列建模相结合——这正是知识演化的完美类比。
7. 技术细节与数学公式
DeepFM的核心在于其双组件架构。设输入为稀疏特征向量 $\mathbf{x} \in \mathbb{R}^n$。
因子分解机组件:
$y_{FM} = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$
其中,$w_0$ 是全局偏置,$w_i$ 是线性项的权重,$\mathbf{v}_i \in \mathbb{R}^k$ 是第i个特征的潜在因子向量。内积 $\langle \mathbf{v}_i, \mathbf{v}_j \rangle$ 建模了特征 $i$ 和 $j$ 之间的交互。这可以在 $O(kn)$ 时间内高效计算。
深度组件:
令 $\mathbf{a}^{(0)} = [\mathbf{e}_1, \mathbf{e}_2, ..., \mathbf{e}_m]$ 为 $\mathbf{x}$ 中存在的特征嵌入向量的拼接,其中 $\mathbf{e}_i$ 是从嵌入矩阵中查找得到的。这通过一系列全连接层:
$\mathbf{a}^{(l+1)} = \sigma(\mathbf{W}^{(l)} \mathbf{a}^{(l)} + \mathbf{b}^{(l)})$
最后一层的输出是 $y_{DNN}$。
最终预测:
$\hat{y} = \sigma(y_{FM} + y_{DNN})$
模型通过最小化二元交叉熵损失进行端到端训练。
8. 分析框架与概念示例
场景: 预测学生_42能否在西班牙语练习中正确翻译单词“was”(词元:“be”,时态:过去时)。
特征实体与编码:
user_id=42(离散)word_lemma="be"(离散)grammar_tense="past"(离散)previous_accuracy=0.85(连续,已归一化)
模型解释:
- FM部分 可能学到交互权重 $\langle \mathbf{v}_{user42}, \mathbf{v}_{tense:past} \rangle$ 为负,表明学生_42通常在处理过去时时态时存在困难。
- 同时,它可能学到 $\langle \mathbf{v}_{lemma:be}, \mathbf{v}_{tense:past} \rangle$ 为高度负值,表明“be”的过去时态对所有学生来说都特别困难。
- 深度部分 可能学习到一个更复杂的非线性模式:例如,高
previous_accuracy结合在不规则动词过去时错误上的特定模式,会调节最终预测,捕捉到超越成对交互的高阶交互。
9. 未来应用与研究展望
将DeepFM应用于知识追踪开辟了几个有前景的方向:
- 与序列模型集成: 最直接的扩展是融入时间动态。DeepFM可以作为每个时间步的特征交互引擎,其输出被馈送到RNN或Transformer中,以建模知识状态随时间的演变,从而融合特征感知和序列感知模型的优势。
- 个性化内容推荐: 超越预测,学习到的用户、技能和内容项目的嵌入可以为自适应学习平台内的复杂推荐系统提供动力,建议下一个最佳练习或学习资源。
- 跨领域迁移学习: 从语言学习数据中学到的实体嵌入(例如,语法概念的嵌入)有可能迁移或微调到其他领域,如数学或科学辅导,从而在数据较稀缺的情况下加速模型开发。
- 可解释性与干预: 虽然比纯DNN更具可解释性,但DeepFM的解释仍基于潜在因子。未来的工作可以侧重于开发事后解释方法,将因子交互转化为对教师可操作的见解(例如,“学生特别在被动语态和过去完成时态的交互上存在困难”)。
- 实时自适应测试: FM组件的高效性使其适用于实时系统。它可以部署在计算机化自适应测试环境中,基于对学生能力和项目-特征交互的持续更新估计,动态选择下一个问题。
10. 参考文献
- Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
- Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
- Wilson, K. H., Karklin, Y., Han, B., & Ekanadham, C. (2016). Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation. In Educational Data Mining.
- Cheng, H. T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., ... & Shah, H. (2016, September). Wide & deep learning for recommender systems. In Proceedings of the 1st workshop on deep learning for recommender systems (pp. 7-10).
- Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. (2017). DeepFM: a factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247.
- Vie, J. J., & Kashima, H. (2018). Knowledge tracing machines: Factorization machines for knowledge tracing. arXiv preprint arXiv:1811.03388.
- Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage.
- Settles, B., Brust, C., Gustafson, E., Hagiwara, M., & Madnani, N. (2018). Second language acquisition modeling. In Proceedings of the NAACL-HLT Workshop on Innovative Use of NLP for Building Educational Applications.