Deep Factorization Machines pour le Suivi des Connaissances : Analyse de la Solution Duolingo SLAM 2018

Table des matières

1. Introduction & Aperçu

Cet article présente la solution de l'auteur à la tâche partagée Duolingo 2018 sur la modélisation de l'acquisition d'une seconde langue (SLAM). Le défi central était le suivi des connaissances au niveau lexical : prédire si un étudiant écrirait correctement les mots d'une nouvelle phrase, compte tenu de ses données historiques de tentatives sur des milliers de phrases annotées avec des caractéristiques lexicales, morphologiques et syntaxiques.

La solution proposée utilise les Deep Factorization Machines (DeepFM), un modèle hybride combinant une composante large (une Machine à Facteurs) pour apprendre les interactions par paires de caractéristiques et une composante profonde (un Réseau de Neurones Profond) pour apprendre les interactions d'ordre supérieur. Le modèle a atteint une AUC de 0,815, surpassant une ligne de base de régression logistique (AUC 0,774) mais restant en deçà du modèle le plus performant (AUC 0,861). Ce travail positionne DeepFM comme un cadre flexible capable de subsumer des modèles éducatifs traditionnels comme la Théorie de la réponse à l'item (IRT).

2. Travaux connexes & Contexte théorique

L'article situe sa contribution dans le paysage plus large de la modélisation des étudiants et du suivi des connaissances.

2.1. Théorie de la réponse à l'item (IRT)

L'IRT est un cadre psychométrique classique qui modélise la probabilité d'une réponse correcte en fonction de la capacité latente de l'étudiant ($\theta$) et des paramètres de l'item (par ex., la difficulté $b$). Un modèle courant est le modèle logistique à 2 paramètres (2PL) : $P(\text{correct} | \theta) = \sigma(a(\theta - b))$, où $a$ est le pouvoir discriminant et $\sigma$ est la fonction logistique. L'article note que l'IRT constitue une base de référence solide et interprétable mais n'intègre généralement pas d'informations contextuelles riches.

2.2. Évolution du suivi des connaissances

Le suivi des connaissances se concentre sur la modélisation de l'évolution des connaissances d'un étudiant dans le temps.

Suivi Bayésien des Connaissances (BKT) : Modélise l'apprenant comme un Modèle de Markov Caché avec des états de connaissances latents.
Suivi Profond des Connaissances (DKT) : Utilise des Réseaux de Neurones Récurrents (RNN), comme les LSTM, pour modéliser les séquences temporelles d'interactions étudiantes. L'article cite les travaux de Wilson et al. (2016) montrant que des variantes de l'IRT peuvent surpasser les premiers modèles DKT, soulignant le besoin d'architectures robustes et conscientes des caractéristiques.

2.3. Apprentissage Large & Profond

L'article s'appuie sur le paradigme de l'Apprentissage Large & Profond introduit par Cheng et al. (2016) chez Google. Le modèle linéaire "large" mémorise les co-occurrences fréquentes de caractéristiques, tandis que le réseau neuronal "profond" généralise aux combinaisons de caractéristiques non vues. Guo et al. (2017) ont proposé de remplacer le modèle linéaire large par une Machine à Facteurs (FM), qui modélise efficacement toutes les interactions par paires entre caractéristiques via des paramètres factorisés, conduisant à l'architecture DeepFM.

3. DeepFM pour le suivi des connaissances

L'article adapte le modèle DeepFM au domaine du suivi des connaissances.

3.1. Architecture & Formulation du modèle

DeepFM se compose de deux composantes parallèles dont les sorties sont combinées :

Composante FM : Modélise les interactions linéaires et par paires des caractéristiques. Pour un vecteur de caractéristiques d'entrée $\mathbf{x}$, la sortie FM est : $y_{FM} = w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$, où $\mathbf{v}_i$ sont des vecteurs de facteurs latents.
Composante Profonde : Un réseau neuronal feed-forward standard qui prend les plongements denses des caractéristiques en entrée et apprend des motifs complexes d'ordre supérieur.

La prédiction finale est : $p(\mathbf{x}) = \psi(y_{FM} + y_{DNN})$, où $\psi$ est une fonction de lien (par ex., sigmoïde $\sigma$ ou la CDF normale $\Phi$).

3.2. Encodage des caractéristiques & Plongements

Une contribution clé est le traitement des caractéristiques. Le modèle considère C catégories de caractéristiques (par ex., user_id, item_id, compétence, pays, temps). Chaque valeur discrète dans une catégorie (par ex., user=123, country='FR') ou une valeur continue elle-même est appelée une entité. Chacune des N entités possibles se voit attribuer un vecteur de plongement apprenable. Une instance (par ex., un étudiant répondant à un mot) est encodée comme un vecteur creux $\mathbf{x}$ de taille N, où les composantes sont définies à 1 (pour les entités discrètes présentes), à la valeur réelle (pour les caractéristiques continues), ou à 0.

4. Application à la tâche SLAM

4.1. Préparation des données

Pour la tâche Duolingo SLAM, les caractéristiques incluaient l'ID utilisateur, l'item lexical (mot), ses caractéristiques linguistiques associées (catégorie grammaticale, morphologie), le contexte de la phrase et les informations temporelles. Celles-ci ont été transformées dans le format creux basé sur les entités requis par DeepFM. Cet encodage permet au modèle d'apprendre les interactions entre n'importe quelle paire d'entités, comme (user=Alice, word="ser") et (word="ser", tense=past).

4.2. Configuration expérimentale

Le modèle a été entraîné à prédire le résultat binaire (correct/incorrect) pour un étudiant écrivant un mot spécifique. L'AUC (Aire Sous la Courbe ROC) a été utilisée comme métrique d'évaluation principale, standard pour les tâches de classification binaire avec des données déséquilibrées, courantes dans les contextes éducatifs.

5. Résultats & Analyse des performances

Le modèle DeepFM a atteint une AUC de test de 0,815. Cela représente une amélioration significative par rapport à la ligne de base de régression logistique (AUC 0,774), démontrant la valeur de la modélisation des interactions de caractéristiques. Cependant, il n'a pas atteint le score maximal de 0,861. L'article suggère que cela révèle "des stratégies intéressantes pour s'appuyer sur les modèles de théorie de la réponse à l'item", impliquant que si DeepFM fournit un cadre puissant et riche en caractéristiques, il y a de la place pour incorporer des aspects de théorie éducative plus nuancés ou de modélisation séquentielle que le meilleur modèle a peut-être capturés.

Résumé des performances (AUC)

Ligne de base (Régression Logistique) : 0,774
DeepFM (Ce travail) : 0,815
Modèle le plus performant : 0,861

Une AUC plus élevée indique une meilleure performance prédictive.

6. Analyse critique & Perspectives d'expert

Perspective centrale : Cet article ne porte pas sur un nouvel algorithme révolutionnaire, mais sur une application astucieuse et pragmatique d'un modèle de système de recommandation industriel existant (DeepFM) à un espace de problème naissant : le suivi des connaissances granulaire et riche en caractéristiques. La démarche de l'auteur est révélatrice — elle contourne le cycle de battage médiatique académique autour de l'apprentissage profond pur pour l'éducation (comme les premiers DKT) et réutilise plutôt un modèle éprouvé dans le commerce électronique pour capturer des interactions complexes utilisateur-item-caractéristiques. La véritable perspicacité est de cadrer le suivi des connaissances non seulement comme un problème de prédiction de séquence, mais comme un problème d'interaction de caractéristiques de haute dimension et creux, un peu comme prédire un clic dans les publicités.

Flux logique & Positionnement stratégique : La logique est convaincante. 1) Les modèles traditionnels (IRT, BKT) sont interprétables mais limités à des interactions prédéfinies et de faible dimension. 2) Les premiers modèles d'apprentissage profond (DKT) capturent les séquences mais peuvent être gourmands en données et opaques, sous-performant parfois des modèles plus simples comme noté par Wilson et al. 3) La tâche SLAM fournit un trésor d'informations contextuelles (caractéristiques linguistiques). 4) Par conséquent, utilisez un modèle conçu explicitement pour cela : DeepFM, qui hybride la mémorisation des interactions par paires factorisées (la partie FM, similaire à l'interaction étudiant-item de l'IRT) avec le pouvoir de généralisation d'un DNN. L'article montre habilement comment l'IRT peut être vu comme un cas spécial et simpliste de ce cadre, revendiquant ainsi le terrain élevé de la généralité.

Forces & Faiblesses : La force principale est la pragmatisme et l'exploitation des caractéristiques. DeepFM est une architecture robuste et prête à l'emploi pour tirer parti de l'ensemble riche de caractéristiques de la tâche SLAM. Sa faiblesse, révélée par les résultats, est qu'il a probablement été surpassé par des modèles qui capturaient mieux la dynamique temporelle inhérente à l'apprentissage. Un modèle basé sur LSTM ou une architecture de type transformateur (comme ceux utilisés plus tard en KT, par ex., SAKT ou AKT) aurait pu intégrer l'historique séquentiel plus efficacement. L'AUC de 0,815 de l'article, bien qu'une amélioration solide par rapport à la base de référence, laisse un écart de 0,046 avec le gagnant — un écart qui représente probablement le prix payé pour ne pas se spécialiser dans la dimension temporelle. Comme le montrent les recherches du Riiid! AI Challenge et des travaux ultérieurs, combiner des architectures conscientes des caractéristiques comme DeepFM avec des modèles séquentiels sophistiqués est la voie gagnante.

Perspectives actionnables : Pour les praticiens et chercheurs : 1) Ne négligez pas l'ingénierie des caractéristiques. Le succès de l'application de DeepFM souligne que dans les données éducatives, les "informations contextuelles" (étiquettes de compétence, difficulté, temps de réponse, caractéristiques linguistiques) sont souvent les informations principales. 2) Regardez vers les domaines adjacents. Les systèmes de recommandation ont passé une décennie à résoudre des problèmes analogues de démarrage à froid, de parcimonie et d'interaction de caractéristiques ; leur boîte à outils (FM, DeepFM, DCN) est directement transférable. 3) L'avenir est hybride. La prochaine étape est claire : intégrer la puissance d'interaction de caractéristiques de DeepFM avec un module séquentiel de pointe. Imaginez un "DeepFM Temporel" où la composante profonde est un LSTM ou un Transformer qui traite une séquence de ces représentations d'interactions factorisées. Cela s'aligne sur la trajectoire observée dans des travaux comme "Deep Interest Evolution Network" (DIEN) dans la publicité, qui combine l'interaction de caractéristiques avec la modélisation séquentielle de l'évolution des intérêts de l'utilisateur — un analogue parfait pour l'évolution des connaissances.

7. Détails techniques & Formulation mathématique

Le cœur de DeepFM réside dans son architecture à double composante. Soit l'entrée un vecteur de caractéristiques creux $\mathbf{x} \in \mathbb{R}^n$.

Composante Machine à Facteurs (FM) :
$y_{FM} = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$
Ici, $w_0$ est le biais global, $w_i$ sont les poids pour les termes linéaires, et $\mathbf{v}_i \in \mathbb{R}^k$ est le vecteur de facteur latent pour la i-ème caractéristique. Le produit scalaire $\langle \mathbf{v}_i, \mathbf{v}_j \rangle$ modélise l'interaction entre la caractéristique $i$ et $j$. Ceci est calculé efficacement en temps $O(kn)$.

Composante Profonde :
Soit $\mathbf{a}^{(0)} = [\mathbf{e}_1, \mathbf{e}_2, ..., \mathbf{e}_m]$ la concaténation des vecteurs de plongement pour les caractéristiques présentes dans $\mathbf{x}$, où $\mathbf{e}_i$ est extrait d'une matrice de plongements. Ceci est passé à travers une série de couches entièrement connectées :
$\mathbf{a}^{(l+1)} = \sigma(\mathbf{W}^{(l)} \mathbf{a}^{(l)} + \mathbf{b}^{(l)})$
La sortie de la dernière couche est $y_{DNN}$.

Prédiction Finale :
$\hat{y} = \sigma(y_{FM} + y_{DNN})$
Le modèle est entraîné de bout en bout en minimisant la perte d'entropie croisée binaire.

8. Cadre d'analyse & Exemple conceptuel

Scénario : Prédire si l'Étudiant_42 traduira correctement le mot "was" (lemme : "be", temps : passé) dans un exercice d'espagnol.

Entités de caractéristiques & Encodage :

user_id=42 (Discrète)
word_lemma="be" (Discrète)
grammar_tense="past" (Discrète)
previous_accuracy=0.85 (Continue, normalisée)

Le vecteur d'entrée creux $\mathbf{x}$ aurait des 1 dans les positions correspondant aux entités discrètes, la valeur 0,85 pour la caractéristique continue, et des 0 ailleurs.

Interprétation du modèle :

La partie FM pourrait apprendre que le poids d'interaction $\langle \mathbf{v}_{user42}, \mathbf{v}_{tense:past} \rangle$ est négatif, suggérant que l'Étudiant_42 a généralement des difficultés avec le passé.
Simultanément, elle pourrait apprendre que $\langle \mathbf{v}_{lemma:be}, \mathbf{v}_{tense:past} \rangle$ est très négatif, indiquant que "be" au passé est particulièrement difficile pour tous les étudiants.
La partie Profonde pourrait apprendre un motif non linéaire plus complexe : par ex., une valeur élevée de previous_accuracy combinée à un motif spécifique d'erreurs passées sur les verbes irréguliers module la prédiction finale, capturant une interaction d'ordre supérieur au-delà des paires.

Cela démontre comment DeepFM peut simultanément capturer des relations simples et interprétables (comme l'IRT) et des motifs non linéaires complexes.

9. Applications futures & Directions de recherche

L'application de DeepFM au suivi des connaissances ouvre plusieurs voies prometteuses :

Intégration avec des modèles séquentiels : L'extension la plus directe est l'incorporation de la dynamique temporelle. Un DeepFM pourrait servir de moteur d'interaction de caractéristiques à chaque pas de temps, avec sa sortie alimentant un RNN ou un Transformer pour modéliser l'évolution de l'état des connaissances dans le temps, mélangeant les forces des modèles conscients des caractéristiques et des séquences.
Recommandation de contenu personnalisé : Au-delà de la prédiction, les plongements appris pour les utilisateurs, compétences et items de contenu peuvent alimenter des systèmes de recommandation sophistiqués au sein de plateformes d'apprentissage adaptatif, suggérant le prochain meilleur exercice ou ressource d'apprentissage.
Transfert d'apprentissage inter-domaines : Les plongements d'entités appris à partir de données d'apprentissage des langues (par ex., plongements pour des concepts grammaticaux) pourraient potentiellement être transférés ou affinés pour d'autres domaines comme le tutorat en mathématiques ou en sciences, accélérant le développement de modèles là où les données sont plus rares.
Explicabilité & Intervention : Bien que plus interprétable qu'un DNN pur, les explications de DeepFM sont encore basées sur des facteurs latents. Les travaux futurs pourraient se concentrer sur le développement de méthodes d'explication post-hoc pour traduire les interactions de facteurs en perspectives actionnables pour les enseignants (par ex., "L'étudiant a des difficultés spécifiquement avec l'interaction entre la voix passive et le passé composé").
Test adaptatif en temps réel : L'efficacité de la composante FM la rend adaptée aux systèmes en temps réel. Elle pourrait être déployée dans des environnements de test adaptatif informatisé (CAT) pour sélectionner dynamiquement la prochaine question basée sur une estimation continuellement mise à jour de la capacité de l'étudiant et des interactions item-caractéristiques.

10. Références

Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
Wilson, K. H., Karklin, Y., Han, B., & Ekanadham, C. (2016). Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation. In Educational Data Mining.
Cheng, H. T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., ... & Shah, H. (2016, September). Wide & deep learning for recommender systems. In Proceedings of the 1st workshop on deep learning for recommender systems (pp. 7-10).
Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. (2017). DeepFM: a factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247.
Vie, J. J., & Kashima, H. (2018). Knowledge tracing machines: Factorization machines for knowledge tracing. arXiv preprint arXiv:1811.03388.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage.
Settles, B., Brust, C., Gustafson, E., Hagiwara, M., & Madnani, N. (2018). Second language acquisition modeling. In Proceedings of the NAACL-HLT Workshop on Innovative Use of NLP for Building Educational Applications.