Projet MOSLA : Un ensemble de données multimodal et longitudinal pour la recherche sur l'acquisition des langues secondes

1. Introduction

L'acquisition d'une langue seconde (ALS) est un processus complexe et dynamique traditionnellement étudié à travers des ensembles de données fragmentés, unimodaux ou à court terme. Le projet MOSLA (Moments of Second Language Acquisition) pallie ces limites en créant un ensemble de données pionnier, longitudinal, multimodal, multilingue et contrôlé. Le projet documente l'apprentissage de l'arabe, de l'espagnol ou du chinois à partir de zéro sur deux ans via un enseignement en ligne exclusif, en enregistrant chaque leçon. Cet ensemble de données, comprenant plus de 250 heures de vidéo, d'audio et d'enregistrements d'écran, associés à des annotations semi-automatisées, constitue une ressource sans précédent pour étudier la trajectoire nuancée de l'apprentissage des langues.

2. Méthodologie de collecte des données

L'ensemble de données MOSLA a été construit selon un protocole rigoureux et contrôlé pour garantir la cohérence et la validité de la recherche.

2.1 Recrutement des participants & Sélection de la langue

Les participants ont été recrutés pour apprendre l'une des trois langues cibles : l'arabe, l'espagnol ou le mandarin. Cette sélection inclut des langues avec des alphabets non latins (arabe et chinois), élargissant ainsi l'applicabilité translinguistique de l'ensemble de données au-delà des langues indo-européennes couramment étudiées.

2.2 Environnement d'apprentissage contrôlé

Une caractéristique clé de la conception est le mandat d'exposition contrôlée. Les participants ont accepté d'apprendre la langue cible uniquement via les leçons en ligne fournies pendant la durée de l'étude de deux ans. Ce contrôle minimise les variables confondantes liées à une exposition externe à la langue, permettant une attribution plus claire des progrès de compétence à la méthode pédagogique.

2.3 Configuration d'enregistrement multimodal

Toutes les leçons ont été menées et enregistrées via Zoom, capturant trois flux synchronisés :

Vidéo : Les flux webcam du participant et de l'instructeur.
Audio : L'audio complet de la leçon.
Partage d'écran : L'écran partagé de l'instructeur contenant les supports pédagogiques, les diapositives et les applications.

Cette triade crée un enregistrement riche et contextualisé de l'interaction d'apprentissage.

L'ensemble de données en un coup d'œil

Durée : ~2 ans par participant
Enregistrements totaux : >250 heures
Modalités : Vidéo, Audio, Écran
Langues cibles : 3 (Arabe, Espagnol, Chinois)
Contrôle : Instruction en ligne exclusive

3. Chaîne de traitement d'annotation des données

Les enregistrements bruts ont été traités via une chaîne de traitement semi-automatisée pour générer des métadonnées structurées et interrogeables.

3.1 Cadre d'annotation semi-automatisé

Les annotations ont été produites en utilisant une approche hybride homme-machine :

Diarisation des locuteurs : Segmentation de l'audio en régions homogènes par locuteur (« qui a parlé quand ? »).
Identification des locuteurs : Étiquetage des segments comme « instructeur » ou « apprenant ».
Identification de la langue : Marquage des segments par langue (par ex., L1/Anglais vs. Langue Cible).
Reconnaissance automatique de la parole (ASR) : Génération de transcriptions pour tous les segments de parole.

Les annotations initiales ont été créées par des annotateurs humains, formant un sous-ensemble de référence utilisé pour affiner des modèles de pointe.

3.2 Affinage des modèles & Performances

Des modèles pré-entraînés (par ex., pour l'ASR, la diarisation) ont été affinés sur les données MOSLA annotées manuellement. L'article rapporte des améliorations substantielles des performances après l'affinage, démontrant la valeur des données spécifiques au domaine, même pour de grands modèles pré-entraînés. Cette étape a été cruciale pour étendre l'annotation à l'ensemble du corpus de plus de 250 heures.

4. Analyse linguistique & multimodale

L'ensemble de données annoté permet de nouvelles analyses du processus d'ALS.

4.1 Métriques de développement de la compétence

Les tendances longitudinales ont été analysées à l'aide de métriques telles que :

Taux d'utilisation de la langue cible : Le pourcentage d'énoncés de l'apprenant dans la langue cible par rapport à sa langue maternelle au fil du temps.
Diversité lexicale : Mesure de la croissance et de la complexité du vocabulaire (par ex., via le rapport Type-Token).
Longueur & Complexité des énoncés : Suivi du développement des structures syntaxiques.

Ces métriques dressent un tableau quantitatif du développement de la compétence au cours du parcours de deux ans.

4.2 Détection du focus sur l'écran

Une analyse particulièrement innovante a consisté à utiliser des modèles d'apprentissage profond multimodaux pour prédire la zone de l'écran partagé sur laquelle l'apprenant se concentre, uniquement à partir des signaux vidéo et audio non annotés. En corrélant les indices audio (par ex., la discussion d'un mot spécifique) avec le contenu de l'écran, le modèle peut inférer ce que l'apprenant regarde, offrant ainsi des perspectives sur l'attention et l'engagement.

5. Idée centrale & Perspective analytique

Idée centrale : Le projet MOSLA n'est pas simplement un autre ensemble de données ; c'est une infrastructure fondamentale qui met en lumière l'écart critique entre les études d'ALS isolées et instantanées et la réalité désordonnée et continue de l'apprentissage. Sa proposition de valeur réside dans sa longitudinalité contrôlée – une caractéristique aussi rare qu'essentielle. Alors que des projets comme le corpus Mozilla Common Voice démocratisent les données vocales, ils manquent de la trajectoire d'apprentissage structurée et du contexte multimodal que MOSLA fournit. De même, la tâche partagée BEA-2019 se concentrait sur la compétence écrite isolée, manquant la dimension interactive et riche capturée ici.

Flux logique : La logique du projet est élégamment linéaire : 1) Identifier un vide méthodologique (manque de données d'ALS longitudinales, multimodales et contrôlées), 2) Concevoir une solution (protocole rigoureux pour les participants + enregistrement Zoom), 3) Résoudre le problème de mise à l'échelle (annotation ML avec intervention humaine), et 4) Démontrer l'utilité (analyse linguistique + nouvelles tâches multimodales). Cette chaîne de traitement de bout en bout, de la création des données à l'application, est un modèle pour les sciences de l'apprentissage empiriques.

Points forts & Limites : Le point fort est indéniable : l'échelle, le contrôle et la richesse multimodale. C'est le rêve d'un chercheur pour étudier la dynamique temporelle. Cependant, les limites résident dans les compromis. L'environnement « contrôlé » est aussi sa plus grande artificialité – l'acquisition linguistique dans le monde réel est glorieusement incontrôlée. La taille de l'échantillon, bien qu'elle crée un ensemble de données longitudinal profond, peut limiter la généralisabilité à des populations d'apprenants diverses. De plus, la barrière technique pour utiliser un tel ensemble de données multimodal complexe reste élevée, limitant potentiellement son adoption immédiate.

Perspectives exploitables : Pour les chercheurs, l'action immédiate est d'explorer cet ensemble de données ouvert. Pour les entreprises d'EdTech, l'idée est d'aller au-delà des simples métriques de complétion et de modéliser le processus d'apprentissage comme le fait MOSLA. L'expérience de détection du focus sur l'écran suggère à elle seule un avenir où les plateformes d'apprentissage infèrent l'engagement cognitif en temps réel. L'impératif plus large est que le domaine passe de « photos » transversales à des « films » longitudinaux de l'apprentissage. MOSLA a construit la caméra ; il est maintenant temps pour la communauté de commencer à faire les films.

6. Détails d'implémentation technique

La chaîne de traitement d'annotation repose sur plusieurs modèles d'apprentissage automatique. Une vue simplifiée de la tâche de diarisation et d'identification des locuteurs peut être formulée comme un problème d'optimisation. Soit $X = \{x_1, x_2, ..., x_T\}$ la séquence des caractéristiques audio. L'objectif est de trouver la séquence des étiquettes de locuteurs $S = \{s_1, s_2, ..., s_T\}$ et des identités des locuteurs $Y = \{y_1, y_2, ..., y_K\}$ qui maximise la probabilité a posteriori :

$P(S, Y | X) \propto P(X | S, Y) \cdot P(S) \cdot P(Y)$

Où :

$P(X | S, Y)$ est la vraisemblance des caractéristiques audio étant donné les segments et identités des locuteurs, souvent modélisée à l'aide de modèles de mélanges gaussiens (GMM) ou d'embeddings de réseaux neuronaux profonds comme les x-vectors.
$P(S)$ est un a priori sur la dynamique des tours de parole, favorisant la continuité temporelle (par ex., en utilisant un modèle de Markov caché).
$P(Y)$ représente la connaissance a priori des identités des locuteurs (instructeur vs. apprenant).

L'affinage sur les données MOSLA améliore principalement l'estimation de $P(X | S, Y)$ en adaptant le modèle acoustique (par ex., l'extracteur de x-vectors) aux conditions acoustiques spécifiques et aux caractéristiques des locuteurs de la classe en ligne.

7. Résultats expérimentaux & Conclusions

L'article présente les principales conclusions de l'analyse de l'ensemble de données MOSLA :

Trajectoires de compétence : Les graphiques montrent une augmentation claire et non linéaire du pourcentage d'utilisation de la langue cible par les apprenants au fil du temps, avec des paliers et des sauts correspondant à différentes unités pédagogiques. Les métriques de diversité lexicale montrent une tendance à la hausse constante, s'accélérant après les six premiers mois.
Gains de performance des modèles : L'affinage d'un modèle Wav2Vec2.0 pré-entraîné pour l'ASR sur seulement 10 heures de transcriptions humaines MOSLA a réduit le taux d'erreur sur les mots (WER) de plus de 35 % sur des données MOSLA de test par rapport au modèle de base. Des améliorations significatives similaires sont rapportées pour les tâches d'identification des locuteurs et de la langue.
Détection du focus sur l'écran : Un modèle multimodal (par ex., un transformeur de vision pour les images d'écran combiné à un encodeur audio) a été entraîné pour classer la zone générale de focus sur l'écran (par ex., « texte de la diapositive », « vidéo », « tableau blanc »). Le modèle a atteint une précision significativement supérieure au hasard, démontrant que la corrélation audio-visuelle contient des signaux significatifs sur l'attention de l'apprenant, même sans matériel d'oculométrie.

Figure 1 (Conceptuelle) : L'article inclut une figure conceptuelle illustrant la chaîne de traitement MOSLA : Collecte des données (enregistrements Zoom) -> Annotation des données (Diarisation, Identification, ASR) -> Analyse multimodale (Focus sur l'écran) & Analyse linguistique de l'ALS (Métriques de compétence). Cette figure souligne l'approche complète et orientée chaîne de traitement du projet.

8. Cadre d'analyse : Modélisation de la trajectoire de compétence

Cas : Modélisation de la trajectoire « Utilisation de la langue cible »

Les chercheurs peuvent utiliser l'ensemble de données MOSLA pour construire des modèles de courbes de croissance. Un exemple simplifié analyse le ratio hebdomadaire d'énoncés en langue cible (LC) d'un apprenant. Soit $R_t$ le ratio LC à la semaine $t$.

Un modèle linéaire à effets mixtes de base pourrait être spécifié comme suit :

R_t ~ 1 + Time_t + (1 + Time_t | Learner_ID)

Où :

1 + Time_t modélise l'effet fixe d'une ordonnée à l'origine globale et d'une pente (trajectoire de croissance moyenne).
(1 + Time_t | Learner_ID) permet à la fois le point de départ (ordonnée à l'origine) et le taux de croissance (pente) de varier aléatoirement selon les apprenants individuels.

En utilisant les données MOSLA, on pourrait ajuster ce modèle (par ex., en utilisant lme4 de R ou statsmodels de Python) pour estimer l'augmentation hebdomadaire moyenne de l'utilisation de la LC et le degré de variabilité individuelle. Des modèles plus complexes pourraient inclure la phase pédagogique comme prédicteur ou modéliser une croissance non linéaire en utilisant des termes polynomiaux ou des splines pour le Temps. Ce cadre va au-delà de la comparaison de pré-tests et post-tests pour modéliser la courbe d'apprentissage entière.

9. Applications futures & Directions de recherche

L'ensemble de données MOSLA ouvre de nombreuses voies pour des travaux futurs :

Parcours d'apprentissage personnalisés : Des algorithmes pourraient analyser la trajectoire précoce d'un apprenant dans MOSLA pour prédire les futurs obstacles et recommander des supports de révision ou de pratique personnalisés.
Évaluation automatisée de la compétence : Développer des modèles d'évaluation fine et continue qui vont au-delà des tests standardisés, en utilisant des indices multimodaux (aisance, choix lexical, prononciation, engagement) comme dans la recherche de l'ETS sur l'évaluation automatisée de l'expression orale.
Analytique pour les enseignants : Analyser les stratégies des instructeurs et leur corrélation avec les progrès des apprenants, fournissant un retour d'information basé sur les données pour la formation des enseignants.
Études sur le transfert translinguistique : Comparer les schémas d'acquisition entre l'arabe, l'espagnol et le chinois pour comprendre comment les caractéristiques spécifiques à chaque langue (par ex., système tonal, écriture) affectent le processus d'apprentissage.
Modèles de fondation multimodaux : MOSLA est un terrain d'entraînement idéal pour construire des modèles d'IA multimodaux qui comprennent le dialogue éducatif, conduisant potentiellement à des tuteurs IA plus sophistiqués.
Expansion : Les itérations futures pourraient inclure plus de langues, des pools de participants plus larges et diversifiés, des données biométriques (comme la fréquence cardiaque pour le stress/la charge cognitive) et une intégration avec les données des systèmes de gestion de l'apprentissage (LMS).

10. Références

Geertzen, J., Alexopoulou, T., & Korhonen, A. (2014). Automatic Linguistic Annotation of Large Scale L2 Databases: The EF-Cambridge Open Language Database (EFCAMDAT). In Proceedings of the 9th Workshop on Innovative Use of NLP for Building Educational Applications.
Settles, B., T. LaFlair, G., & Hagiwara, M. (2018). Machine Learning-Driven Language Assessment. Transactions of the Association for Computational Linguistics.
Stasaski, K., Devlin, J., & Hearst, M. A. (2020). Measuring and Improving Semantic Diversity of Dialogue Generation. In Findings of the Association for Computational Linguistics: EMNLP 2020.
Hampel, R., & Stickler, U. (2012). The use of videoconferencing to support multimodal interaction in an online language classroom. ReCALL, 24(2), 116-137.
Mozilla Common Voice. (n.d.). Retrieved from https://commonvoice.mozilla.org/
Educational Testing Service (ETS). (2021). Automated Scoring of Speech. Research Report.
Hagiwara, M., & Tanner, J. (2024). Project MOSLA: Recording Every Moment of Second Language Acquisition. arXiv preprint arXiv:2403.17314.