Deep Factorization Machines pour le Suivi des Connaissances : Analyse de la Solution Duolingo SLAM 2018
Analyse d'un article de recherche appliquant les Deep Factorization Machines à la tâche de modélisation de l'acquisition d'une seconde langue de Duolingo, explorant sa méthodologie, ses résultats et ses implications pour le data mining éducatif.
Accueil »
Documentation »
Deep Factorization Machines pour le Suivi des Connaissances : Analyse de la Solution Duolingo SLAM 2018
1. Introduction & Aperçu
Cet article présente la solution de l'auteur pour la Tâche partagée Duolingo 2018 sur la modélisation de l'acquisition d'une seconde langue (SLAM). Le défi central était le suivi des connaissances au niveau du mot : prédire si un étudiant écrirait correctement les mots d'une nouvelle phrase, compte tenu de ses données historiques de tentatives sur des milliers de phrases annotées avec des caractéristiques lexicales, morphologiques et syntaxiques.
La solution proposée utilise les Deep Factorization Machines (DeepFM), un modèle conçu pour capturer à la fois les interactions d'ordre faible (linéaires) et d'ordre élevé (non linéaires) entre caractéristiques. Le modèle a atteint une AUC de 0,815, surpassant une ligne de base de régression logistique (AUC 0,774) mais restant en deçà du modèle le plus performant (AUC 0,861) de la compétition.
Points clés
Applique un modèle de système de recommandation (DeepFM) au problème de data mining éducatif du suivi des connaissances.
Montre comment les modèles traditionnels comme la Théorie de la réponse à l'item (IRT) peuvent être vus comme des cas particuliers dans un cadre de factorisation plus général.
Souligne l'importance d'exploiter des informations contextuelles riches (utilisateur, item, compétence, caractéristiques linguistiques) pour une prédiction précise de la performance.
2. Travaux connexes & Contexte théorique
L'article se positionne dans le paysage historique et contemporain de la modélisation des étudiants.
2.1 Théorie de la réponse à l'item (IRT)
La Théorie de la réponse à l'item (IRT) est un cadre psychométrique qui modélise la probabilité d'une réponse correcte en fonction de la capacité latente de l'étudiant ($\theta$) et des paramètres de l'item (par ex., difficulté $b$, pouvoir discriminant $a$). Un modèle courant est le modèle logistique à 2 paramètres (2PL) :
L'IRT est fondamentale dans les tests standardisés mais traite traditionnellement des interactions simples étudiant-item sans informations contextuelles riches.
2.2 Évolution du suivi des connaissances
Suivi bayésien des connaissances (BKT) : Modélise l'apprenant comme un modèle de Markov caché, suivant la probabilité de maîtriser une compétence au fil du temps.
Suivi profond des connaissances (DKT) : Utilise des réseaux de neurones récurrents (RNN), spécifiquement des LSTM, pour modéliser les séquences temporelles d'interactions des apprenants. Piech et al. (2015) en ont démontré le potentiel, mais des travaux ultérieurs (Wilson et al., 2016) ont montré que des variantes de l'IRT pouvaient être compétitives.
Limitation : Le BKT et les premiers DKT ignoraient souvent les informations auxiliaires sur les items et les apprenants.
2.3 Machines à factorisation & Apprentissage Large & Profond
L'article s'appuie sur deux idées clés des systèmes de recommandation :
Machines à factorisation (FM) : Proposées par Rendle (2010), les FM modélisent toutes les interactions par paires entre variables en utilisant des paramètres factorisés, apprenant efficacement des plongements pour les caractéristiques catégorielles. La prédiction pour un vecteur de caractéristiques $\mathbf{x}$ est :
où $\mathbf{v}_i$ sont des vecteurs de facteurs latents.
Apprentissage Large & Profond : Proposé par Cheng et al. (2016) chez Google, cette architecture entraîne conjointement un modèle linéaire large (pour la mémorisation) et un réseau de neurones profond (pour la généralisation).
DeepFM : Guo et al. (2017) ont fusionné ces idées, remplaçant le composant large par une FM pour apprendre automatiquement les interactions d'ordre faible, tandis qu'un DNN apprend les interactions d'ordre élevé. C'est le modèle adopté dans cet article.
3. Modèle DeepFM pour le suivi des connaissances
L'article adapte l'architecture DeepFM à la tâche de suivi des connaissances.
3.1 Formulation & Architecture du modèle
L'idée centrale est de traiter chaque interaction d'apprentissage (par ex., "l'utilisateur 123 tente le mot 'sérendipité' dans une phrase ayant la caractéristique X") comme un vecteur de caractéristiques creux $\mathbf{x}$. Le modèle apprend un plongement pour chaque entité (par ex., user_id=123, word='sérendipité', feature_X=1).
La prédiction finale est une probabilité :
$p(\mathbf{x}) = \psi(y_{FM} + y_{DNN})$
où $\psi$ est une fonction de lien (sigmoïde $\sigma$ ou CDF normale $\Phi$).
Composant FM : Calcule $y_{FM}$ comme dans l'équation FM standard, capturant toutes les interactions par paires entre les plongements d'entités (par ex., utilisateur-mot, utilisateur-compétence, mot-compétence).
Composant Profond : Un réseau de neurones feed-forward standard prend en entrée la concaténation des plongements d'entités et calcule $y_{DNN}$, capturant des interactions complexes d'ordre élevé entre caractéristiques.
Les deux composants partagent les mêmes plongements d'entités en entrée, rendant le modèle efficace et entraîné conjointement.
3.2 Encodage des caractéristiques & Plongements d'entités
Chaque instance est encodée en un vecteur creux de taille $N$, où $N$ est le nombre total d'entités possibles à travers toutes les catégories de caractéristiques catégorielles et continues (utilisateur, item, compétence, temps, étiquettes linguistiques).
Entités discrètes : Encodées avec une valeur de 1 si présentes.
Entités continues (par ex., horodatage) : La valeur continue réelle est utilisée.
Entités absentes : Encodées comme 0.
Cet encodage flexible permet au modèle d'intégrer de manière transparente des types de données divers provenant de la tâche Duolingo.
4. Configuration expérimentale & Résultats
4.1 Tâche Duolingo SLAM 2018
La tâche fournissait des séquences de tentatives d'étudiants sur des phrases en langue étrangère. Pour chaque mot d'une nouvelle phrase, l'objectif était de prédire la probabilité que l'étudiant l'écrive correctement. Le jeu de données incluait des annotations linguistiques riches pour chaque mot/jeton.
4.2 Préparation des données & Ingénierie des caractéristiques
Pour appliquer DeepFM, les données séquentielles brutes ont été transformées en un format matriciel de caractéristiques standard. Les étapes clés incluaient probablement :
Création d'instances : Chaque tentative étudiant-mot est devenue une instance de données unique.
Catégorisation des caractéristiques : Identification des catégories : ID utilisateur, ID mot/jeton, ID phrase, étiquette grammaticale, caractéristique morphologique, relation de dépendance syntaxique, etc.
Représentation creuse : Conversion de ces catégories en vecteur d'entités creux $\mathbf{x}$.
4.3 Résultats de performance & Analyse
Performance des modèles (AUC)
Ligne de base Régression Logistique : 0,774
DeepFM (Modèle proposé) :0,815
Modèle le plus performant (Référence) : 0,861
Interprétation : Le modèle DeepFM a fourni une amélioration relative significative de 5,3 % par rapport à une ligne de base linéaire solide, validant la puissance de la modélisation des interactions entre caractéristiques. Cependant, l'écart avec le modèle le plus performant indique une marge d'amélioration architecturale ou d'ingénierie des caractéristiques plus sophistiquée.
L'article suggère que DeepFM peut subsumer les modèles IRT traditionnels. Par exemple, un modèle IRT simple peut être approximé par le composant FM avec des entités uniquement pour la capacité de l'utilisateur et la difficulté de l'item, où leur terme d'interaction $\langle \mathbf{v}_{user}, \mathbf{v}_{item} \rangle$ capture la dynamique $a(\theta - b)$.
Le pari fondamental de l'article est que le suivi des connaissances est, au fond, un problème de recommandation. Au lieu de recommander des films, on prédit la "pertinence" (exactitude) d'un composant de connaissance (mot) pour un utilisateur (étudiant) dans un contexte spécifique (phrase avec caractéristiques). Ce recadrage est puissant. L'enchaînement logique est élégant : 1) Reconnaître la limitation des modèles purement séquentiels (DKT) et des modèles linéaires simples (IRT, LR). 2) Identifier le besoin de modéliser des interactions riches et transversales entre caractéristiques (utilisateur-compétence, compétence-contexte). 3) Importer une architecture de système de recommandation de pointe (DeepFM) prouvée excellente pour ce problème exact. 4) Valider qu'elle surpasse les lignes de base simples. C'est un cas classique de pollinisation croisée d'un domaine mature (systèmes de recommandation) vers un domaine émergent (IA EdTech), similaire à la façon dont les techniques de vision par ordinateur ont révolutionné l'analyse d'images médicales.
5.2 Points forts & Faiblesses critiques
Points forts :
Cadre unifié : Sa plus grande contribution théorique est de montrer comment l'IRT, les FM et d'autres modèles existent sur un spectre au sein de cette architecture. Cela rappelle la vision unificatrice fournie par des modèles comme le Transformer en TALN, qui a subsumé les RNN et CNN pour les tâches séquentielles.
Agnosticisme des caractéristiques : Le modèle peut ingérer n'importe quelle caractéristique catégorielle ou continue sans prétraitement extensif, un avantage pratique énorme pour les jeux de données éducatifs désordonnés.
Surpasse une ligne de base solide : Une AUC de 0,815 est un résultat solide, viable en production, convaincant par rapport à la ligne de base de régression logistique.
Faiblesses critiques & Opportunités manquées :
L'éléphant dans la pièce : la référence à 0,861. L'article passe sous silence les raisons pour lesquelles DeepFM est resté en deçà. Était-ce la capacité du modèle ? Les données d'entraînement ? L'absence de modélisation temporelle explicite est une faiblesse flagrante. DeepFM traite chaque tentative comme indépendante, ignorant la séquence cruciale. Le modèle gagnant a probablement incorporé des dynamiques temporelles, à la manière dont WaveNet ou les convolutions temporelles surpassent les modèles feed-forward en prédiction de séries temporelles. C'est un angle mort architectural majeur.
Compromis de la boîte noire : Bien que plus interprétable qu'un DNN pur, les plongements appris restent opaques. Pour les parties prenantes de l'éducation, expliquer pourquoi une prédiction a été faite est souvent aussi important que la prédiction elle-même. L'article n'offre aucun outil d'interprétabilité.
Coût computationnel : Apprendre des plongements pour chaque entité unique (chaque utilisateur, chaque mot) peut être massif et inefficace pour des plateformes dynamiques à grande échelle comme Duolingo avec des millions de nouveaux utilisateurs et contenus.
Prioriser l'ingénierie des caractéristiques sur la nouveauté du modèle : Le succès de cet article découle plus de sa représentation des caractéristiques (encoder toutes les informations contextuelles) que d'un modèle radicalement nouveau. Investissez dans l'infrastructure de données pour capturer et servir des caractéristiques contextuelles riches (heure de la journée, appareil, historique des leçons précédentes, métriques d'engagement).
Hybrider, ne pas juste importer : La prochaine étape n'est pas un autre modèle de recommandation. C'est DeepFM + Conscience temporelle. Explorez des architectures comme DeepFM avec tours LSTM/GRU ou Machines à factorisation temporelles. Regardez des travaux comme TiSASRec (Li et al., 2020) qui combine l'auto-attention avec des intervalles de temps pour la recommandation séquentielle.
Évaluer sans relâche contre la simplicité : Le fait qu'une variante IRT bien réglée (Wilson et al., 2016) puisse rivaliser avec DKT est une leçon d'humilité. Évaluez toujours par rapport à des lignes de base solides et interprétables (IRT, régression logistique avec des caractéristiques astucieuses). La complexité doit justifier son gain de performance et son coût computationnel.
Se concentrer sur les résultats exploitables : Allez au-delà de l'AUC de prédiction. La vraie valeur est dans la prescription. Utilisez les forces d'interaction par paires du modèle (du composant FM) pour identifier quelles lacunes de compétences sont les plus critiques pour un étudiant ou quelles caractéristiques de leçon sont les plus déroutantes. Transformez les diagnostics en parcours d'apprentissage personnalisés.
6. Cadre d'analyse & Exemple conceptuel
Cadre conceptuel pour appliquer DeepFM à un nouveau jeu de données éducatif :
Définir la cible de prédiction : Binaire (correct/incorrect), ou multi-classe (niveaux de crédit partiel).
Inventorier toutes les caractéristiques (Entités) :
Niveau Étudiant : ID, catégorie démographique, historique global de performance.
Niveau Item/Question : ID, composant(s) de connaissance, niveau de difficulté, format (QCM, réponse ouverte).
Contexte d'interaction : Horodatage, temps passé, numéro de tentative, plateforme utilisée.
Externes : ID leçon, ID enseignant (en contexte de classe).
Construire le vecteur creux pour une instance :
Exemple : L'étudiant_S123 tente la Question_Q456 sur le Composant de Connaissance "Équations linéaires".
Le vecteur de caractéristiques $\mathbf{x}$ aurait des 1 aux indices correspondant aux entités : [student=S123, question=Q456, kc=equations_lineaires, attempt_num=2, ...] et des 0 ailleurs.
Entraînement du modèle & Interprétation :
Le composant FM apprend que l'interaction $\langle \mathbf{v}_{S123}, \mathbf{v}_{equations\_lineaires} \rangle$ est fortement négative, indiquant que cet étudiant a des difficultés avec ce CC.
Le composant DNN pourrait détecter un schéma complexe : les étudiants qui ont des difficultés avec les "équations linéaires" et qui tentent les questions rapidement (caractéristique de temps court) et sur appareils mobiles ont un taux d'échec encore plus élevé.
7. Applications futures & Directions de recherche
Améliorations temporelles & séquentielles : Intégrer des couches récurrentes ou basées sur l'attention (comme les Transformers) pour modéliser explicitement l'ordre et le timing des activités d'apprentissage. Des modèles comme SAINT+ (Choi et al., 2020) combinent l'auto-attention pour les caractéristiques d'exercice et de réponse, montrant la voie à suivre.
Suivi des connaissances inter-domaines : Utiliser des plongements d'un modèle de langage (par ex., BERT) pour représenter le texte d'un exercice ou les explications d'un étudiant, permettant au modèle de généraliser à des exercices non vus basés sur la similarité sémantique.
Inférence causale pour la conception d'interventions : Passer de la corrélation (prédiction) à la causalité. Le modèle pourrait-il identifier non seulement qu'un étudiant va échouer, mais quelle intervention spécifique (une vidéo, un indice, un problème plus simple) changerait le plus probablement ce résultat ? Cela se connecte au domaine en plein essor de la modélisation de l'effet causal (uplift modeling) dans l'éducation personnalisée.
Apprentissage fédéré & préservant la vie privée : Développer des versions de DeepFM pouvant s'entraîner sur des données étudiantes décentralisées (sur des appareils individuels/serveurs scolaires) sans centraliser les informations sensibles, crucial pour un déploiement éthique de l'EdTech.
Intégration avec la théorie des sciences de l'apprentissage : Contrindre ou initialiser les paramètres du modèle sur la base de théories cognitives (par ex., effet d'espacement, théorie de la charge cognitive) pour rendre les modèles plus interprétables et théoriquement fondés.
8. Références
Cheng, H. T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., ... & Shah, H. (2016). Wide & deep learning for recommender systems. Proceedings of the 1st workshop on deep learning for recommender systems.
Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction.
Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. (2017). DeepFM: A factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage.
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems.
Rendle, S. (2010). Factorization machines. 2010 IEEE International Conference on Data Mining.
Settles, B., Brunk, B., & T. (2018). The 2018 Duolingo Shared Task on Second Language Acquisition Modeling. Proceedings of the 2018 SLAM Workshop.
Vie, J. J., & Kashima, H. (2018). Knowledge tracing machines: Factorization machines for knowledge tracing. arXiv preprint arXiv:1811.03388.
Wilson, K. H., Karklin, Y., Han, B., & Ekanadham, C. (2016). Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation. Educational Data Mining.
Li, J., Wang, Y., & McAuley, J. (2020). Time interval aware self-attention for sequential recommendation. Proceedings of the 13th International Conference on Web Search and Data Mining.
Choi, Y., Lee, Y., Cho, J., Baek, J., Kim, B., Cha, Y., ... & Kim, S. (2020). Towards an appropriate query, key, and value computation for knowledge tracing. Proceedings of the Seventh ACM Conference on Learning@ Scale.