Глубокие факторизационные машины для трассировки знаний: анализ решения Duolingo SLAM 2018 года

Содержание

1. Введение и обзор

В данной статье представлено решение автора для совместного задания Duolingo 2018 года по моделированию усвоения второго языка (SLAM). Основной задачей была трассировка знаний на уровне слов: предсказание, правильно ли студент напишет слова нового предложения, учитывая исторические данные о его попытках для тысяч предложений, аннотированных лексическими, морфологическими и синтаксическими признаками.

Предложенное решение использует Глубокие факторизационные машины (DeepFM) — гибридную модель, сочетающую широкий компонент (факторизационную машину) для изучения попарных взаимодействий признаков и глубокий компонент (глубокую нейронную сеть) для изучения взаимодействий признаков высшего порядка. Модель достигла AUC 0.815, превзойдя базовую модель логистической регрессии (AUC 0.774), но не дотянув до модели с наилучшим результатом (AUC 0.861). Работа позиционирует DeepFM как гибкий фреймворк, способный включать в себя традиционные образовательные модели, такие как Теория ответа на задание (IRT).

2. Смежные работы и теоретическая база

Статья помещает свой вклад в более широкий контекст моделирования студентов и трассировки знаний.

2.1. Теория ответа на задание (IRT)

IRT — это классический психометрический фреймворк, моделирующий вероятность правильного ответа как функцию скрытой способности студента ($\theta$) и параметров задания (например, сложности $b$). Распространённой моделью является 2-параметрическая логистическая (2PL) модель: $P(\text{правильно} | \theta) = \sigma(a(\theta - b))$, где $a$ — дискриминация, а $\sigma$ — логистическая функция. В статье отмечается, что IRT формирует сильную, интерпретируемую базовую модель, но обычно не включает в себя богатую дополнительную информацию.

2.2. Эволюция трассировки знаний

Трассировка знаний фокусируется на моделировании эволюции знаний студента во времени.

Байесовская трассировка знаний (BKT): Моделирует обучающегося как скрытую марковскую модель с латентными состояниями знаний.
Глубокая трассировка знаний (DKT): Использует рекуррентные нейронные сети (RNN), такие как LSTM, для моделирования временных последовательностей взаимодействий студента. В статье цитируется работа Wilson et al. (2016), показывающая, что варианты IRT могут превосходить ранние модели DKT, что подчёркивает необходимость в надёжных архитектурах, учитывающих признаки.

2.3. Широкое и глубокое обучение

Статья основывается на парадигме Широкого и глубокого обучения, представленной Cheng et al. (2016) в Google. «Широкая» линейная модель запоминает частые совместные появления признаков, а «глубокая» нейронная сеть обобщает на невидимые комбинации признаков. Guo et al. (2017) предложили заменить широкую линейную модель Факторизационной машиной (FM), которая эффективно моделирует все попарные взаимодействия между признаками через факторизованные параметры, что привело к архитектуре DeepFM.

3. DeepFM для трассировки знаний

В статье адаптируется модель DeepFM для области трассировки знаний.

3.1. Архитектура и формулировка модели

DeepFM состоит из двух параллельных компонентов, выходы которых объединяются:

Компонент FM: Моделирует линейные и попарные взаимодействия признаков. Для входного вектора признаков $\mathbf{x}$ выход FM: $y_{FM} = w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$, где $\mathbf{v}_i$ — векторы латентных факторов.
Глубокий компонент: Стандартная полносвязная нейронная сеть прямого распространения, которая принимает плотные эмбеддинги признаков на вход и изучает сложные, высокоуровневые паттерны.

Итоговый прогноз: $p(\mathbf{x}) = \psi(y_{FM} + y_{DNN})$, где $\psi$ — функция связи (например, сигмоида $\sigma$ или нормальная CDF $\Phi$).

3.2. Кодирование признаков и эмбеддинги

Ключевым вкладом является обработка признаков. Модель рассматривает C категорий признаков (например, user_id, item_id, навык, страна, время). Каждое дискретное значение внутри категории (например, user=123, country='FR') или само непрерывное значение называется сущностью. Каждой из N возможных сущностей присваивается обучаемый вектор эмбеддинга. Экземпляр (например, ответ студента на слово) кодируется как разреженный вектор $\mathbf{x}$ размера N, где компоненты установлены в 1 (для присутствующих дискретных сущностей), фактическое значение (для непрерывных признаков) или 0.

4. Применение к задаче SLAM

4.1. Подготовка данных

Для задачи Duolingo SLAM признаки включали ID пользователя, лексическую единицу (слово), связанные с ней лингвистические признаки (часть речи, морфология), контекст предложения и временную информацию. Они были преобразованы в разреженный формат на основе сущностей, требуемый DeepFM. Такое кодирование позволяет модели изучать взаимодействия между любой парой сущностей, например, (user=Alice, word="ser") и (word="ser", tense=past).

4.2. Экспериментальная установка

Модель обучалась для предсказания бинарного исхода (правильно/неправильно) написания студентом конкретного слова. В качестве основного метрики оценки использовалась AUC (площадь под ROC-кривой), стандартная для задач бинарной классификации с несбалансированными данными, характерными для образовательных сред.

5. Результаты и анализ производительности

Модель DeepFM достигла тестового AUC 0.815. Это представляет собой значительное улучшение по сравнению с базовой моделью логистической регрессии (AUC 0.774), демонстрируя ценность моделирования взаимодействий признаков. Однако она не достигла наивысшего результата 0.861. В статье предполагается, что это раскрывает «интересные стратегии для развития моделей теории ответа на задание», подразумевая, что хотя DeepFM предоставляет мощный, богатый признаками фреймворк, есть пространство для включения более тонких аспектов образовательной теории или последовательного моделирования, которые могла захватить лучшая модель.

Сводка производительности (AUC)

Базовая модель логистической регрессии: 0.774
DeepFM (данная работа): 0.815
Модель с наилучшим результатом: 0.861

Более высокий AUC указывает на лучшую прогностическую производительность.

6. Критический анализ и экспертные инсайты

Ключевой инсайт: Эта статья не о революционном новом алгоритме, а о проницательном, прагматичном применении существующей промышленной модели системы рекомендаций (DeepFM) к зарождающейся проблемной области: детальной, богатой признаками трассировке знаний. Ход автора показателен — он обходит академический хайп вокруг чистого глубокого обучения для образования (как ранний DKT) и вместо этого перепрофилирует модель, доказавшую свою эффективность в электронной коммерции для захвата сложных взаимодействий пользователь-предмет-признак. Настоящий инсайт заключается в том, чтобы рассматривать трассировку знаний не только как проблему предсказания последовательности, но как проблему взаимодействия признаков в высокоразмерном разреженном пространстве, подобно предсказанию клика в рекламе.

Логический поток и стратегическое позиционирование: Логика убедительна. 1) Традиционные модели (IRT, BKT) интерпретируемы, но ограничены предопределёнными, низкоразмерными взаимодействиями. 2) Ранние модели глубокого обучения (DKT) захватывают последовательности, но могут быть прожорливы к данным и непрозрачны, иногда уступая более простым моделям, как отмечает Wilson et al. 3) Задача SLAM предоставляет кладезь дополнительной информации (лингвистические признаки). 4) Следовательно, используем модель, разработанную именно для этого: DeepFM, которая гибридизирует запоминание факторизованных попарных взаимодействий (часть FM, аналогичная взаимодействию студент-предмет в IRT) с силой обобщения DNN. Статья умно показывает, как IRT можно рассматривать как частный, упрощённый случай этого фреймворка, тем самым занимая позицию общности.

Сильные стороны и недостатки: Основная сила — практичность и использование признаков. DeepFM — это надёжная, готовая к использованию архитектура для задействования богатого набора признаков задачи SLAM. Её недостаток, как показали результаты, заключается в том, что её, вероятно, превзошли модели, лучше захватившие временную динамику, присущую процессу обучения. Модель на основе LSTM или архитектура трансформера (как те, что позже использовались в KT, например, SAKT или AKT) могли бы эффективнее интегрировать последовательную историю. AUC статьи 0.815, хотя и является солидным улучшением по сравнению с базовой моделью, оставляет разрыв в 0.046 до победителя — разрыв, который, вероятно, представляет собой цену за отсутствие специализации на временном измерении. Как показывают исследования Riiid! AI Challenge и последующие работы, сочетание архитектур, учитывающих признаки, таких как DeepFM, с изощрёнными последовательными моделями — это путь к успеху.

Практические инсайты: Для практиков и исследователей: 1) Не упускайте из виду проектирование признаков. Успех применения DeepFM подчёркивает, что в образовательных данных «дополнительная информация» (теги навыков, сложность, время ответа, лингвистические признаки) часто является основной информацией. 2) Смотрите на смежные области. Системы рекомендаций потратили десятилетие на решение аналогичных проблем холодного старта, разреженности и взаимодействия признаков; их инструментарий (FM, DeepFM, DCN) напрямую переносим. 3) Будущее за гибридами. Следующий шаг очевиден: интегрировать мощь взаимодействия признаков DeepFM с современным последовательным модулем. Представьте «Временную DeepFM», где глубокий компонент — это LSTM или Трансформер, обрабатывающий последовательность этих факторизованных представлений взаимодействий. Это согласуется с траекторией, наблюдаемой в работах вроде «Deep Interest Evolution Network» (DIEN) в рекламе, которая сочетает взаимодействие признаков с последовательным моделированием эволюции интересов пользователя — идеальная аналогия для эволюции знаний.

7. Технические детали и математическая формулировка

Суть DeepFM заключается в её двухкомпонентной архитектуре. Пусть вход — разреженный вектор признаков $\mathbf{x} \in \mathbb{R}^n$.

Компонент факторизационной машины (FM):
$y_{FM} = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$
Здесь $w_0$ — глобальное смещение, $w_i$ — веса для линейных членов, а $\mathbf{v}_i \in \mathbb{R}^k$ — вектор латентных факторов для i-го признака. Скалярное произведение $\langle \mathbf{v}_i, \mathbf{v}_j \rangle$ моделирует взаимодействие между признаками $i$ и $j$. Это вычисляется эффективно за время $O(kn)$.

Глубокий компонент:
Пусть $\mathbf{a}^{(0)} = [\mathbf{e}_1, \mathbf{e}_2, ..., \mathbf{e}_m]$ — конкатенация векторов эмбеддингов для признаков, присутствующих в $\mathbf{x}$, где $\mathbf{e}_i$ извлекается из матрицы эмбеддингов. Это подаётся через серию полносвязных слоёв:
$\mathbf{a}^{(l+1)} = \sigma(\mathbf{W}^{(l)} \mathbf{a}^{(l)} + \mathbf{b}^{(l)})$
Выход последнего слоя — $y_{DNN}$.

Итоговый прогноз:
$\hat{y} = \sigma(y_{FM} + y_{DNN})$
Модель обучается end-to-end путём минимизации бинарной кросс-энтропийной функции потерь.

8. Фреймворк анализа и концептуальный пример

Сценарий: Предсказание, правильно ли Student_42 переведёт слово "was" (лемма: "be", время: past) в испанском упражнении.

Сущности признаков и кодирование:

user_id=42 (Дискретная)
word_lemma="be" (Дискретная)
grammar_tense="past" (Дискретная)

previous_accuracy=0.85

Разреженный входной вектор $\mathbf{x}$ будет иметь 1 на позициях, соответствующих дискретным сущностям, значение 0.85 для непрерывного признака и 0 в остальных местах.

Интерпретация модели:

Часть FM может изучить, что вес взаимодействия $\langle \mathbf{v}_{user42}, \mathbf{v}_{tense:past} \rangle$ отрицательный, что предполагает, что Student_42 вообще испытывает трудности с прошедшим временем.
Одновременно она может изучить, что $\langle \mathbf{v}_{lemma:be}, \mathbf{v}_{tense:past} \rangle$ сильно отрицательный, указывая, что "be" в прошедшем времени особенно сложно для всех студентов.
Глубокая часть может изучить более сложный, нелинейный паттерн: например, высокий previous_accuracy в сочетании с определённым паттерном прошлых ошибок на неправильных глаголах модулирует итоговый прогноз, захватывая взаимодействие высшего порядка, выходящее за рамки попарных.

Это демонстрирует, как DeepFM может одновременно захватывать простые, интерпретируемые отношения (как в IRT) и сложные, нелинейные паттерны.

9. Будущие применения и направления исследований

Применение DeepFM к трассировке знаний открывает несколько многообещающих направлений:

Интеграция с последовательными моделями: Наиболее прямое расширение — включение временной динамики. DeepFM может служить движком взаимодействия признаков на каждом временном шаге, а её выход подаваться в RNN или Трансформер для моделирования эволюции состояния знаний во времени, сочетая сильные стороны моделей, учитывающих признаки и последовательности.
Персонализированная рекомендация контента: Помимо предсказания, изученные эмбеддинги пользователей, навыков и элементов контента могут питать сложные системы рекомендаций в адаптивных обучающих платформах, предлагая следующее лучшее упражнение или учебный ресурс.
Междоменный трансфер обучения: Эмбеддинги сущностей, изученные на данных изучения языка (например, эмбеддинги грамматических концепций), потенциально могут быть перенесены или дообучены для других областей, таких как обучение математике или естественным наукам, ускоряя разработку моделей там, где данных меньше.
Объяснимость и вмешательство: Хотя и более интерпретируемая, чем чистая DNN, объяснения DeepFM всё ещё основаны на латентных факторах. Будущая работа может сосредоточиться на разработке методов постфактум объяснения для перевода взаимодействий факторов в практические инсайты для учителей (например, «Студент испытывает трудности именно с взаимодействием между пассивным залогом и временем Past Perfect»).
Адаптивное тестирование в реальном времени: Эффективность компонента FM делает его пригодным для систем реального времени. Он может быть развёрнут в средах компьютеризированного адаптивного тестирования (CAT) для динамического выбора следующего вопроса на основе постоянно обновляемой оценки способностей студента и взаимодействий признаков заданий.

10. Ссылки

Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
Wilson, K. H., Karklin, Y., Han, B., & Ekanadham, C. (2016). Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation. In Educational Data Mining.
Cheng, H. T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., ... & Shah, H. (2016, September). Wide & deep learning for recommender systems. In Proceedings of the 1st workshop on deep learning for recommender systems (pp. 7-10).
Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. (2017). DeepFM: a factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247.
Vie, J. J., & Kashima, H. (2018). Knowledge tracing machines: Factorization machines for knowledge tracing. arXiv preprint arXiv:1811.03388.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage.
Settles, B., Brust, C., Gustafson, E., Hagiwara, M., & Madnani, N. (2018). Second language acquisition modeling. In Proceedings of the NAACL-HLT Workshop on Innovative Use of NLP for Building Educational Applications.