Proyecto MOSLA: Un Conjunto de Datos Multimodal y Longitudinal para la Investigación de la Adquisición de Segundas Lenguas

1. Introducción

La adquisición de una segunda lengua (ASL) es un proceso complejo y dinámico que tradicionalmente se ha estudiado mediante conjuntos de datos fragmentados, unimodales o a corto plazo. El Proyecto MOSLA (Momentos de Adquisición de Segunda Lengua) aborda estas limitaciones creando un conjunto de datos pionero, longitudinal, multimodal, multilingüe y controlado. El proyecto documenta a aprendices que adquieren árabe, español o chino desde cero durante dos años a través de instrucción exclusivamente en línea, grabando cada lección. Este conjunto de datos, que comprende más de 250 horas de video, audio y grabaciones de pantalla, junto con anotaciones semiautomáticas, proporciona un recurso sin precedentes para estudiar la trayectoria matizada del aprendizaje de idiomas.

2. Metodología de Recopilación de Datos

El conjunto de datos MOSLA se construyó bajo un protocolo riguroso y controlado para garantizar la consistencia y la validez de la investigación.

2.1 Reclutamiento de Participantes y Selección de Lenguas

Se reclutaron participantes para aprender uno de tres idiomas objetivo: árabe, español o chino mandarín. La selección incluye idiomas con alfabetos no latinos (árabe y chino), ampliando la aplicabilidad translingüística del conjunto de datos más allá de los idiomas indoeuropeos comúnmente estudiados.

2.2 Entorno de Aprendizaje Controlado

Una característica clave del diseño es el mandato de exposición controlada. Los participantes acordaron aprender el idioma objetivo únicamente a través de las lecciones en línea proporcionadas durante la duración del estudio de dos años. Este control minimiza las variables de confusión por exposición externa al idioma, permitiendo una atribución más clara de las ganancias de competencia al método de instrucción.

2.3 Configuración de Grabación Multimodal

Todas las lecciones se realizaron y grabaron a través de Zoom, capturando tres flujos sincronizados:

Video: Las transmisiones de la cámara web del participante y del instructor.
Audio: El audio completo de la lección.
Compartición de Pantalla: La pantalla compartida del instructor que contenía materiales didácticos, diapositivas y aplicaciones.

Esta tríada crea un registro rico y contextualizado de la interacción de aprendizaje.

Conjunto de Datos en una Mirada

Duración: ~2 años por participante
Grabaciones Totales: >250 horas
Modalidades: Video, Audio, Pantalla
Idiomas Objetivo: 3 (Árabe, Español, Chino)
Control: Instrucción exclusiva en línea

3. Proceso de Anotación de Datos

Las grabaciones en bruto se procesaron a través de un flujo de trabajo semiautomático para generar metadatos estructurados y consultables.

3.1 Marco de Anotación Semiautomática

Las anotaciones se produjeron utilizando un enfoque híbrido humano-máquina:

Diarización de Hablantes: Segmentar el audio en regiones homogéneas de hablantes ("¿quién habló cuándo?").
Identificación de Hablantes: Etiquetar segmentos como 'instructor' o 'aprendiz'.
Identificación de Idioma: Etiquetar segmentos por idioma (por ejemplo, L1/Inglés vs. Idioma Objetivo).
Reconocimiento Automático del Habla (RAH): Generar transcripciones para todos los segmentos de habla.

Las anotaciones iniciales fueron creadas por anotadores humanos, formando un subconjunto de referencia utilizado para ajustar modelos de última generación.

3.2 Ajuste Fino del Modelo y Rendimiento

Los modelos preentrenados (por ejemplo, para RAH, diarización) se ajustaron finamente con los datos MOSLA anotados por humanos. El artículo reporta mejoras sustanciales en el rendimiento después del ajuste fino, demostrando el valor de los datos específicos del dominio incluso para modelos preentrenados grandes. Este paso fue crucial para escalar la anotación a todo el corpus de más de 250 horas.

4. Análisis Lingüístico y Multimodal

El conjunto de datos anotado permite análisis novedosos del proceso de ASL.

4.1 Métricas de Desarrollo de Competencia

Se analizaron las tendencias longitudinales utilizando métricas como:

Proporción de Idioma Objetivo: El porcentaje de enunciados del aprendiz en el idioma objetivo frente a su lengua materna a lo largo del tiempo.
Diversidad Léxica: Medir el crecimiento y la complejidad del vocabulario (por ejemplo, mediante la Relación Tipo-Token).
Longitud y Complejidad del Enunciado: Rastrear el desarrollo de estructuras sintácticas.

Estas métricas pintan una imagen cuantitativa del desarrollo de la competencia a lo largo del viaje de dos años.

4.2 Detección del Foco de Atención en Pantalla

Un análisis particularmente innovador implicó el uso de modelos de aprendizaje profundo multimodal para predecir el área de enfoque del aprendiz en la pantalla compartida únicamente a partir de las señales de video y audio sin anotar. Al correlacionar pistas de audio (por ejemplo, discutir una palabra específica) con el contenido de la pantalla, el modelo puede inferir en qué está mirando el aprendiz, ofreciendo información sobre la atención y el compromiso.

5. Perspectiva Central y del Analista

Perspectiva Central: El Proyecto MOSLA no es solo otro conjunto de datos; es una jugada de infraestructura fundamental que expone la brecha crítica entre los estudios de ASL aislados y de instantánea, y la realidad desordenada y continua del aprendizaje. Su propuesta de valor radica en la longitudinalidad controlada, una característica tan rara como esencial. Si bien proyectos como el corpus Mozilla Common Voice democratizan los datos de voz, carecen de la trayectoria de aprendizaje estructurada y el contexto multimodal que proporciona MOSLA. De manera similar, la Tarea Compartida BEA-2019 se centró en la competencia de escritura aislada, perdiendo la rica dimensión interactiva capturada aquí.

Flujo Lógico: La lógica del proyecto es elegantemente lineal: 1) Identificar un vacío metodológico (falta de datos de ASL controlados, multimodales y longitudinales), 2) Diseñar una solución (protocolo riguroso de participantes + grabación en Zoom), 3) Resolver el problema de escalabilidad (anotación con ML con intervención humana), y 4) Demostrar utilidad (análisis lingüístico + tareas multimodales novedosas). Este flujo de trabajo integral, desde la creación de datos hasta la aplicación, es un modelo para las ciencias del aprendizaje empíricas.

Fortalezas y Debilidades: La fortaleza es innegable: escala, control y riqueza multimodal. Es el sueño de un investigador para estudiar la dinámica temporal. Sin embargo, las debilidades están en las compensaciones. El entorno "controlado" es también su mayor artificialidad: la adquisición de idiomas en el mundo real es gloriosamente incontrolada. El tamaño de la muestra, si bien crea un conjunto de datos longitudinal profundo, puede limitar la generalización a diversas poblaciones de aprendices. Además, la barrera técnica para utilizar un conjunto de datos multimodal tan complejo sigue siendo alta, lo que potencialmente limita su adopción inmediata.

Información Accionable: Para los investigadores, la acción inmediata es explorar este conjunto de datos abierto. Para las empresas de EdTech, la idea es ir más allá de las métricas simples de finalización y modelar el proceso de aprendizaje como lo hace MOSLA. El solo experimento de detección del foco en pantalla sugiere un futuro donde las plataformas de aprendizaje infieran el compromiso cognitivo en tiempo real. El imperativo más grande es que el campo cambie de "fotos" transversales a "películas" longitudinales del aprendizaje. MOSLA ha construido la cámara; ahora es el momento de que la comunidad comience a hacer las películas.

6. Detalles de Implementación Técnica

El flujo de trabajo de anotación se basa en varios modelos de aprendizaje automático. Una vista simplificada de la tarea de diarización e identificación de hablantes puede plantearse como un problema de optimización. Sea $X = \{x_1, x_2, ..., x_T\}$ la secuencia de características de audio. El objetivo es encontrar la secuencia de etiquetas de hablantes $S = \{s_1, s_2, ..., s_T\}$ e identidades de hablantes $Y = \{y_1, y_2, ..., y_K\}$ que maximicen la probabilidad posterior:

$P(S, Y | X) \propto P(X | S, Y) \cdot P(S) \cdot P(Y)$

Donde:

$P(X | S, Y)$ es la verosimilitud de las características de audio dadas las identidades y segmentos de hablantes, a menudo modelada usando Modelos de Mezcla de Gaussianas (GMM) o incrustaciones de redes neuronales profundas como x-vectors.
$P(S)$ es un previo sobre la dinámica de turnos de hablantes, fomentando la continuidad temporal (por ejemplo, usando un modelo oculto de Markov).
$P(Y)$ representa el conocimiento previo de las identidades de los hablantes (instructor vs. aprendiz).

El ajuste fino con los datos MOSLA mejora principalmente la estimación de $P(X | S, Y)$ al adaptar el modelo acústico (por ejemplo, el extractor de x-vectors) a las condiciones acústicas específicas y las características de los hablantes del aula en línea.

7. Resultados Experimentales y Hallazgos

El artículo presenta hallazgos clave del análisis del conjunto de datos MOSLA:

Trayectorias de Competencia: Los gráficos muestran un aumento claro y no lineal en el porcentaje de uso del idioma objetivo por parte de los aprendices a lo largo del tiempo, con mesetas y saltos correspondientes a diferentes unidades de instrucción. Las métricas de diversidad léxica muestran una tendencia ascendente constante, acelerándose después de los primeros seis meses.
Ganancias en el Rendimiento del Modelo: El ajuste fino de un modelo Wav2Vec2.0 preentrenado para RAH con solo 10 horas de transcripciones humanas de MOSLA redujo la Tasa de Error de Palabras (WER) en más del 35% en datos MOSLA de prueba, en comparación con el modelo base. Se reportan mejoras significativas similares para las tareas de identificación de hablantes e idiomas.
Detección del Foco en Pantalla: Se entrenó un modelo multimodal (por ejemplo, un transformador de visión para los fotogramas de pantalla combinado con un codificador de audio) para clasificar el área amplia de enfoque en pantalla (por ejemplo, "texto de diapositiva", "video", "pizarra"). El modelo logró una precisión significativamente superior al azar, demostrando que la correlación audiovisual contiene señales significativas sobre la atención del aprendiz, incluso sin hardware de seguimiento ocular.

Figura 1 (Conceptual): El artículo incluye una figura conceptual que ilustra el flujo de trabajo de MOSLA: Recopilación de Datos (grabaciones de Zoom) -> Anotación de Datos (Diarización, ID, RAH) -> Análisis Multimodal (Foco en pantalla) y Análisis Lingüístico de ASL (Métricas de competencia). Esta figura subraya el enfoque integral y orientado al flujo de trabajo del proyecto.

8. Marco de Análisis: Modelado de la Trayectoria de Competencia

Caso: Modelado de la Trayectoria de "Uso del Idioma Objetivo"

Los investigadores pueden usar el conjunto de datos MOSLA para construir modelos de curvas de crecimiento. Un ejemplo simplificado analiza la proporción semanal de enunciados en el idioma objetivo (IO) por un aprendiz. Sea $R_t$ la proporción de IO en la semana $t$.

Se podría especificar un modelo básico de efectos mixtos lineales como:

R_t ~ 1 + Time_t + (1 + Time_t | Learner_ID)

Donde:

1 + Time_t modela el efecto fijo de una intersección general y una pendiente (trayectoria de crecimiento promedio).
(1 + Time_t | Learner_ID) permite que tanto el punto de partida (intersección) como la tasa de crecimiento (pendiente) varíen aleatoriamente entre los aprendices individuales.

Usando los datos de MOSLA, se podría ajustar este modelo (por ejemplo, usando lme4 de R o statsmodels de Python) para estimar el aumento semanal promedio en el uso de IO y el grado de variabilidad individual. Modelos más complejos podrían incluir la fase de instrucción como predictor o modelar el crecimiento no lineal usando términos polinomiales o de spline para el Tiempo. Este marco va más allá de comparar pruebas previas y posteriores para modelar toda la curva de aprendizaje.

9. Aplicaciones Futuras y Direcciones de Investigación

El conjunto de datos MOSLA abre numerosas vías para trabajos futuros:

Rutas de Aprendizaje Personalizadas: Los algoritmos podrían analizar la trayectoria temprana de un aprendiz en MOSLA para predecir futuros obstáculos y recomendar materiales de repaso o práctica personalizados.
Evaluación Automatizada de Competencia: Desarrollar modelos de evaluación continua y detallada que vayan más allá de las pruebas estandarizadas, utilizando pistas multimodales (fluidez, elección léxica, pronunciación, compromiso) como en la investigación de ETS sobre evaluación automatizada del habla.
Analíticas para Docentes: Analizar las estrategias de los instructores y su correlación con el progreso de los aprendices, proporcionando retroalimentación basada en datos para la formación docente.
Estudios de Transferencia Translingüística: Comparar patrones de adquisición entre árabe, español y chino para comprender cómo las características específicas del idioma (por ejemplo, sistema tonal, escritura) afectan el proceso de aprendizaje.
Modelos Fundacionales Multimodales: MOSLA es un campo de entrenamiento ideal para construir modelos de IA multimodal que comprendan el diálogo educativo, lo que podría conducir a tutores de IA más sofisticados.
Expansión: Las iteraciones futuras podrían incluir más idiomas, grupos de participantes más grandes y diversos, datos biométricos (como la frecuencia cardíaca para estrés/carga cognitiva) e integración con datos de sistemas de gestión del aprendizaje (LMS).

10. Referencias

Geertzen, J., Alexopoulou, T., & Korhonen, A. (2014). Automatic Linguistic Annotation of Large Scale L2 Databases: The EF-Cambridge Open Language Database (EFCAMDAT). En Proceedings of the 9th Workshop on Innovative Use of NLP for Building Educational Applications.
Settles, B., T. LaFlair, G., & Hagiwara, M. (2018). Machine Learning-Driven Language Assessment. Transactions of the Association for Computational Linguistics.
Stasaski, K., Devlin, J., & Hearst, M. A. (2020). Measuring and Improving Semantic Diversity of Dialogue Generation. En Findings of the Association for Computational Linguistics: EMNLP 2020.
Hampel, R., & Stickler, U. (2012). The use of videoconferencing to support multimodal interaction in an online language classroom. ReCALL, 24(2), 116-137.
Mozilla Common Voice. (s.f.). Recuperado de https://commonvoice.mozilla.org/
Educational Testing Service (ETS). (2021). Automated Scoring of Speech. Informe de Investigación.
Hagiwara, M., & Tanner, J. (2024). Project MOSLA: Recording Every Moment of Second Language Acquisition. arXiv preprint arXiv:2403.17314.