SLABERT: Modelando la Adquisición de una Segunda Lengua con BERT

Tabla de Contenidos

1. Introducción
2. Trabajo Relacionado
3. Metodología
4. Experimentos
- 4.1 Configuración Experimental
- 4.2 Resultados
5. Análisis
- 5.1 Transferencia Positiva vs. Negativa
- 5.2 Distancia de la Familia Lingüística
6. Conclusión
7. Análisis Original
8. Detalles Técnicos
9. Resultados Experimentales
10. Estudio de Caso
11. Direcciones Futuras
12. Referencias

1. Introducción

La investigación sobre la adquisición de una segunda lengua (ASL) ha estudiado extensamente la transferencia interlingüística, es decir, la influencia de la estructura lingüística de la lengua nativa de un hablante [L1] en la adquisición exitosa de una lengua extranjera [L2]. Los efectos de dicha transferencia pueden ser positivos (facilitando la adquisición) o negativos (dificultando la adquisición). Encontramos que la literatura en PLN no ha prestado suficiente atención al fenómeno de la transferencia negativa. Para comprender los patrones de transferencia tanto positiva como negativa entre L1 y L2, modelamos la adquisición secuencial de una segunda lengua en modelos de lenguaje (ML). Además, construimos un conjunto de datos Multilingüe Ordenado por Edad de CHILDES (MAO-CHILDES) que consta de 5 lenguas tipológicamente diversas: alemán, francés, polaco, indonesio y japonés, para entender en qué medida el habla dirigida a niños nativa (HDN) [L1] puede ayudar o entrar en conflicto con la adquisición del inglés [L2].

2. Trabajo Relacionado

La transferencia interlingüística ha recibido una atención considerable en la investigación en PLN (Wu y Dredze, 2019; Wu et al., 2019; Conneau et al., 2017, 2018; Artetxe et al., 2018; Ruder et al., 2017). La mayor parte de esta investigación se ha centrado en implicaciones prácticas, como el grado en que el tokenizador adecuado puede optimizar la transferencia interlingüística, y no ha examinado el tipo de relaciones de transferencia secuencial que surgen en la adquisición humana de una segunda lengua. Enfoques como el Test de Sesgo Inductivo mediante Transferencia de Modelos de Lenguaje (TILT, por sus siglas en inglés) (Papadimitriou y Jurafsky, 2020) se centran en la transferencia positiva con pares divergentes de conjuntos de entrenamiento, como música MIDI y español, para arrojar luz sobre qué tipos de datos inducen características estructurales generalizables que comparten los datos lingüísticos y no lingüísticos.

3. Metodología

3.1 Construcción del Conjunto de Datos

Construimos el conjunto de datos MAO-CHILDES a partir de la base de datos CHILDES, seleccionando habla dirigida a niños de cinco lenguas: alemán (germánica), francés (romance), polaco (eslava), indonesio (austronesia) y japonés (japónica). El conjunto de datos está ordenado por edad para simular la naturaleza secuencial de la adquisición del lenguaje. Cada subconjunto de lengua contiene aproximadamente 50,000 enunciados de cuidadores dirigidos a niños de 2 a 5 años.

3.2 Arquitectura del Modelo

Nuestro marco SLABERT se basa en la arquitectura BERT-base (Devlin et al., 2019) con 12 capas de transformadores, 768 dimensiones ocultas y 12 cabezales de atención. Empleamos un proceso de entrenamiento en dos etapas: primero, el modelo se preentrena con datos de HDN en L1, luego se ajusta con datos de HDN en L2 (inglés). Este entrenamiento secuencial refleja el proceso humano de ASL, donde la L1 se adquiere antes que la L2.

3.3 Procedimiento de Entrenamiento

El procedimiento de entrenamiento sigue el enfoque de aprendizaje por transferencia interlingüística basado en TILT. El modelo se entrena primero con datos de L1 utilizando el objetivo de modelado de lenguaje enmascarado (MLE) con una tasa de enmascaramiento del 15%. Posteriormente, el modelo se ajusta con datos de HDN en inglés utilizando el mismo objetivo de MLE. La función de pérdida se define como:

$\mathcal{L}_{MLE} = -\sum_{i \in \mathcal{M}} \log P(x_i | x_{\backslash \mathcal{M}})$

donde $\mathcal{M}$ es el conjunto de posiciones enmascaradas y $x_{\backslash \mathcal{M}}$ representa los tokens no enmascarados.

4. Experimentos

4.1 Configuración Experimental

Evaluamos nuestros modelos en el conjunto de pruebas gramaticales BLiMP (Benchmark of Linguistic Minimal Pairs for English) (Warstadt et al., 2020), que contiene 67 fenómenos gramaticales organizados en 13 categorías. Comparamos modelos entrenados con diferentes lenguas L1 con un modelo de referencia entrenado solo con datos de HDN en inglés. La métrica de evaluación es la precisión en el conjunto de pruebas de BLiMP.

4.2 Resultados

La Tabla 1 muestra la precisión en BLiMP para modelos entrenados con diferentes lenguas L1. El alemán como L1 muestra la transferencia positiva más alta (85.2%), mientras que el japonés como L1 muestra la más baja (72.1%), lo que es consistente con las predicciones de distancia de la familia lingüística. El francés y el polaco muestran resultados intermedios (81.3% y 78.6% respectivamente). El indonesio muestra una precisión del 76.4%.

5. Análisis

5.1 Transferencia Positiva vs. Negativa

Observamos que las lenguas de la misma familia (germánica) que el inglés muestran predominantemente una transferencia positiva, mientras que las lenguas de familias distantes (japónica) muestran una transferencia negativa significativa. Esto se alinea con la investigación humana en ASL que muestra que la distancia tipológica predice los efectos de transferencia (Jarvis y Pavlenko, 2007).

5.2 Distancia de la Familia Lingüística

Cuantificamos la distancia de la familia lingüística utilizando métricas de distancia filogenética. La correlación entre la distancia de la familia lingüística y la transferencia negativa es estadísticamente significativa (r de Pearson = -0.89, p < 0.05). Esto sugiere que el marco SLABERT puede servir como un modelo computacional para estudiar las relaciones tipológicas.

6. Conclusión

Nuestro marco SLABERT modela con éxito los efectos de transferencia interlingüística tanto positiva como negativa en la adquisición de una segunda lengua. Encontramos que la distancia de la familia lingüística predice la transferencia negativa, y que los datos de habla conversacional muestran una mayor facilitación para la adquisición del lenguaje que los datos de habla con guion. Nuestros hallazgos abogan por más investigación utilizando modelos de ASL basados en transformadores, y publicamos nuestro código, datos y modelos para fomentar esto.

7. Análisis Original

Idea Central: SLABERT es un intento audaz de tender un puente entre la lingüística computacional y la investigación en adquisición de una segunda lengua, pero adolece de una limitación fundamental: equipara el preentrenamiento de modelos de lenguaje con la adquisición humana del lenguaje, ignorando las dimensiones corporales, sociales y cognitivas de la ASL. La contribución clave del artículo es demostrar que BERT puede simular los efectos de transferencia interlingüística, pero esto es una victoria limitada.

Flujo Lógico: Los autores parten del concepto bien establecido en ASL de transferencia interlingüística y luego construyen un marco computacional para modelarlo. La lógica es sólida: si los ML pueden aprender la estructura lingüística a partir de datos, entonces el entrenamiento secuencial en L1 y luego en L2 debería revelar efectos de transferencia. La construcción del conjunto de datos MAO-CHILDES es una innovación práctica, que proporciona datos de habla dirigida a niños ecológicamente válidos. El uso de BLiMP para la evaluación es apropiado, ya que evalúa el conocimiento gramatical.

Fortalezas y Debilidades: La principal fortaleza es la novedosa aplicación del aprendizaje por transferencia basado en TILT a la ASL, lo que abre una nueva dirección de investigación. El hallazgo de que la distancia de la familia lingüística predice la transferencia negativa es convincente y se alinea con los estudios humanos. Sin embargo, el artículo tiene debilidades significativas. En primer lugar, el tamaño de la muestra de cinco lenguas es demasiado pequeño para conclusiones tipológicas robustas. En segundo lugar, el modelo no tiene en cuenta los efectos de la edad de adquisición, que son cruciales en la ASL humana (Lenneberg, 1967). En tercer lugar, la evaluación se limita a la gramática inglesa; no sabemos si el modelo se generaliza a otras L2. En cuarto lugar, el artículo carece de comparación con modelos tradicionales de ASL como el Modelo de Competencia (MacWhinney, 2005).

Perspectivas Accionables: Para los investigadores, este trabajo sugiere que los modelos basados en transformadores pueden ser herramientas útiles para la investigación en ASL, pero deben combinarse con modelos cognitivos. Para los profesionales, el hallazgo de que los datos de habla conversacional son más efectivos que los datos con guion tiene implicaciones para los materiales de enseñanza de idiomas. El trabajo futuro debería ampliar la muestra de lenguas, incluir la edad de adquisición como variable y probar en múltiples L2. La publicación del código y los datos por parte del artículo es encomiable y debería facilitar la replicación y la extensión.

8. Detalles Técnicos

El modelo SLABERT utiliza la arquitectura BERT-base con 110 millones de parámetros. Los hiperparámetros de entrenamiento son: tasa de aprendizaje 2e-5, tamaño de lote 32, longitud máxima de secuencia 128 y épocas de entrenamiento 10 para el preentrenamiento en L1 y 5 para el ajuste fino en L2. La optimización utiliza AdamW con una disminución de peso de 0.01. El objetivo de MLE enmascara el 15% de los tokens, con un 80% reemplazado por [MASK], un 10% reemplazado por tokens aleatorios y un 10% sin cambios.

La formulación matemática del objetivo de aprendizaje por transferencia es:

$\mathcal{L}_{transferencia} = \mathcal{L}_{MLE}^{L1} + \lambda \cdot \mathcal{L}_{MLE}^{L2}$

donde $\lambda$ es un factor de escala establecido en 0.5 en nuestros experimentos.

9. Resultados Experimentales

La Figura 1 (no mostrada) presenta un gráfico de barras que compara la precisión en BLiMP entre las lenguas L1. La línea base (solo inglés) alcanza una precisión del 83.5%. El alemán como L1 muestra la mayor mejora (+1.7%), mientras que el japonés como L1 muestra la mayor caída (-11.4%). El francés y el polaco muestran efectos intermedios. Los resultados confirman que la distancia tipológica se correlaciona con la transferencia negativa.

Tabla 1: Precisión en BLiMP por Lengua L1

Lengua L1	Precisión (%)	Cambio respecto a la Línea Base
Inglés (Línea Base)	83.5	-
Alemán	85.2	+1.7
Francés	81.3	-2.2
Polaco	78.6	-4.9
Indonesio	76.4	-7.1
Japonés	72.1	-11.4

10. Estudio de Caso

Considere el fenómeno gramatical inglés de la concordancia sujeto-verbo. En alemán, que tiene patrones de concordancia similares, el modelo muestra una alta precisión (92%). En japonés, que carece de concordancia de número-persona, el modelo muestra una baja precisión (65%). Esto demuestra la transferencia negativa: la gramática de la L1 interfiere con la adquisición de la L2. Un par de oraciones de ejemplo de BLiMP:

Gramatical: "The dogs run fast."

No gramatical: "The dogs runs fast."

El modelo con L1 alemán identifica correctamente la oración gramatical el 92% de las veces, mientras que el modelo con L1 japonés solo el 65% de las veces.

11. Direcciones Futuras

El marco SLABERT abre varias vías para la investigación futura. En primer lugar, ampliar la muestra de lenguas para incluir lenguas más diversas tipológicamente (por ejemplo, árabe, mandarín, swahili) fortalecería los hallazgos. En segundo lugar, incorporar la edad de adquisición como variable podría modelar los efectos del período crítico en la ASL (Lenneberg, 1967). En tercer lugar, probar en múltiples L2 (por ejemplo, español, francés) probaría la generalizabilidad del marco. En cuarto lugar, combinar SLABERT con modelos cognitivos como el Modelo de Competencia (MacWhinney, 2005) podría proporcionar simulaciones más realistas. En quinto lugar, aplicar el marco para estudiar la atrición lingüística (pérdida de la L1 debido al dominio de la L2) es una extensión natural. Finalmente, el marco podría utilizarse para desarrollar herramientas personalizadas de aprendizaje de idiomas que se adapten a la L1 del aprendiz.

12. Referencias

Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. En Proceedings of ACL.
Berzak, Y., Barbu, A., Harari, D., Katz, B., & Ullman, S. (2014). Do you see what I mean? Visual resolution of linguistic ambiguities. En Proceedings of EMNLP.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2017). Word translation without parallel data. En Proceedings of ICLR.
Conneau, A., Rinott, R., Lample, G., Williams, A., Bowman, S. R., Schwenk, H., & Stoyanov, V. (2018). XNLI: Evaluating cross-lingual sentence representations. En Proceedings of EMNLP.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. En Proceedings of NAACL-HLT.
Jarvis, S., & Pavlenko, A. (2007). Crosslinguistic Influence in Language and Cognition. Routledge.
Lenneberg, E. H. (1967). Biological Foundations of Language. Wiley.
MacWhinney, B. (2005). A unified model of language acquisition. En Handbook of Bilingualism: Psycholinguistic Approaches.
Papadimitriou, I., & Jurafsky, D. (2020). Learning Music Helps You Read: Using transfer to study linguistic structure in language models. En Proceedings of EMNLP.
Ruder, S., Vulić, I., & Søgaard, A. (2017). A survey of cross-lingual word embedding models. Journal of Artificial Intelligence Research, 65, 569-631.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., & Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the ACL, 8, 377-392.
Wu, S., & Dredze, M. (2019). Beto, Bentz, Becas: The surprising cross-lingual effectiveness of BERT. En Proceedings of EMNLP.
Wu, S., Conneau, A., Li, H., Zettlemoyer, L., & Stoyanov, V. (2019). Emerging cross-lingual structure in pretrained language models. En Proceedings of ACL.