Глубокие факторизационные машины для трассировки знаний: анализ решения Duolingo SLAM 2018

1. Введение и обзор

В данной статье представлено авторское решение совместной задачи Duolingo 2018 по моделированию усвоения второго языка (SLAM). Основная задача заключалась в трассировке знаний на уровне слов: предсказании, правильно ли студент напишет слова нового предложения, учитывая исторические данные о его попытках на тысячах предложений, аннотированных лексическими, морфологическими и синтаксическими признаками.

Предложенное решение использует Глубокие факторизационные машины (DeepFM) — модель, предназначенную для учета как низкоуровневых (линейных), так и высокоуровневых (нелинейных) взаимодействий признаков. Модель достигла AUC 0.815, превзойдя базовую логистическую регрессию (AUC 0.774), но уступив лучшей модели соревнования (AUC 0.861).

Ключевые выводы

Применяет модель рекомендательных систем (DeepFM) к задаче образовательного анализа данных — трассировке знаний.
Показывает, как традиционные модели, такие как теория ответа на задания (IRT), могут рассматриваться как частные случаи в более общей факторизационной структуре.
Подчеркивает важность использования богатой дополнительной информации (пользователь, задание, навык, лингвистические признаки) для точного прогнозирования успеваемости.

2. Смежные работы и теоретическая база

Статья позиционирует себя в историческом и современном контексте моделирования студентов.

2.1 Теория ответа на задания (IRT)

Теория ответа на задания (IRT) — это психометрическая структура, моделирующая вероятность правильного ответа как функцию скрытой способности студента ($\theta$) и параметров задания (например, сложность $b$, дискриминация $a$). Распространенной моделью является 2-параметрическая логистическая (2PL) модель:

$P(\text{правильно} | \theta) = \frac{1}{1 + e^{-a(\theta - b)}}$

IRT является основополагающей в стандартизированном тестировании, но традиционно обрабатывает простые взаимодействия студент-задание без богатой дополнительной информации.

2.2 Эволюция трассировки знаний

Байесовская трассировка знаний (BKT): Моделирует обучающегося как скрытую марковскую модель, отслеживая вероятность владения навыком с течением времени.
Глубокая трассировка знаний (DKT): Использует рекуррентные нейронные сети (RNN), в частности LSTM, для моделирования временных последовательностей взаимодействий обучающегося. Piech et al. (2015) продемонстрировали её потенциал, но последующие работы (Wilson et al., 2016) показали, что варианты IRT могут быть конкурентоспособными.
Ограничение: Как BKT, так и ранние DKT часто игнорировали вспомогательную информацию о заданиях и обучающихся.

2.3 Факторизационные машины и архитектура Wide & Deep

Статья основывается на двух ключевых идеях из рекомендательных систем:

Факторизационные машины (FMs): Предложенные Rendle (2010), FMs моделируют все попарные взаимодействия между переменными, используя факторизованные параметры, эффективно обучая эмбеддинги для категориальных признаков. Прогноз для вектора признаков $\mathbf{x}$:
$\hat{y}(\mathbf{x}) = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$
где $\mathbf{v}_i$ — векторы латентных факторов.
Архитектура Wide & Deep: Предложенная Cheng et al. (2016) в Google, эта архитектура совместно обучает широкую линейную модель (для запоминания) и глубокую нейронную сеть (для обобщения).
DeepFM: Guo et al. (2017) объединили эти идеи, заменив широкий компонент на FM для автоматического обучения низкоуровневым взаимодействиям признаков, в то время как DNN обучается высокоуровневым взаимодействиям. Именно эта модель используется в данной статье.

3. Модель DeepFM для трассировки знаний

Статья адаптирует архитектуру DeepFM для задачи трассировки знаний.

3.1 Формулировка и архитектура модели

Ключевая идея заключается в том, чтобы рассматривать каждое учебное взаимодействие (например, "пользователь 123 пытается написать слово 'serendipity' в предложении с признаком X") как разреженный вектор признаков $\mathbf{x}$. Модель обучает эмбеддинг для каждой сущности (например, user_id=123, word='serendipity', feature_X=1).

Итоговый прогноз — это вероятность:

$p(\mathbf{x}) = \psi(y_{FM} + y_{DNN})$

где $\psi$ — функция связи (сигмоида $\sigma$ или нормальная CDF $\Phi$).

Компонент FM: Вычисляет $y_{FM}$ как в стандартном уравнении FM, захватывая все попарные взаимодействия между эмбеддингами сущностей (например, пользователь-слово, пользователь-навык, слово-навык).
Глубокий компонент: Стандартная полносвязная нейронная сеть принимает конкатенированные эмбеддинги сущностей на вход и вычисляет $y_{DNN}$, захватывая сложные высокоуровневые взаимодействия признаков.

Оба компонента используют одни и те же входные эмбеддинги признаков, что делает модель эффективной и совместно обучаемой.

3.2 Кодирование признаков и эмбеддинги сущностей

Каждый экземпляр кодируется в разреженный вектор размера $N$, где $N$ — общее количество возможных сущностей по всем категориальным и непрерывным категориям признаков (пользователь, задание, навык, время, лингвистические теги).

Дискретные сущности: Кодируются значением 1, если присутствуют.
Непрерывные сущности (например, временная метка): Используется фактическое непрерывное значение.
Отсутствующие сущности: Кодируются как 0.

Такое гибкое кодирование позволяет модели бесшовно интегрировать разнообразные типы данных из задачи Duolingo.

4. Экспериментальная установка и результаты

4.1 Задача Duolingo SLAM 2018

Задача предоставляла последовательности попыток студентов на предложениях иностранного языка. Для каждого слова в новом предложении целью было предсказать вероятность того, что студент напишет его правильно. Набор данных включал богатые лингвистические аннотации для каждого слова/токена.

4.2 Подготовка данных и конструирование признаков

Для применения DeepFM исходные последовательные данные были преобразованы в стандартный формат матрицы признаков. Ключевые шаги, вероятно, включали:

Создание экземпляров: Каждая попытка студента-слово стала отдельным экземпляром данных.
Категоризация признаков: Определение категорий: ID пользователя, ID слова/токена, ID предложения, часть речи, морфологический признак, синтаксическая зависимость и т.д.
Разреженное представление: Преобразование этих категорий в разреженный вектор сущностей $\mathbf{x}$.

4.3 Результаты производительности и анализ

Производительность моделей (AUC)

Базовая логистическая регрессия: 0.774
DeepFM (Предложенная модель): 0.815
Лучшая модель (Бенчмарк): 0.861

Интерпретация: Модель DeepFM обеспечила значительное относительное улучшение на 5.3% по сравнению с сильной линейной базой, подтверждая мощь моделирования взаимодействий признаков. Однако разрыв с лучшей моделью указывает на пространство для улучшения архитектуры или более сложного конструирования признаков.

В статье предполагается, что DeepFM может включать в себя традиционные модели IRT. Например, простая модель IRT может быть аппроксимирована компонентом FM с сущностями только для способности пользователя и сложности задания, где их член взаимодействия $\langle \mathbf{v}_{user}, \mathbf{v}_{item} \rangle$ захватывает динамику $a(\theta - b)$.

5. Технический углубленный анализ

Перспектива индустриального аналитика: Ключевая идея, логика, сильные стороны и недостатки, практические выводы

5.1 Ключевая идея и логика

Фунментальная ставка статьи заключается в том, что трассировка знаний, по своей сути, является задачей рекомендации. Вместо рекомендации фильмов вы предсказываете "релевантность" (правильность) компонента знаний (слова) для пользователя (студента) в конкретном контексте (предложение с признаками). Эта переформулировка мощна. Логический поток элегантен: 1) Признать ограниченность моделей, ориентированных только на последовательности (DKT), и простых линейных моделей (IRT, LR). 2) Определить необходимость моделирования богатых кросс-признаковых взаимодействий (пользователь-навык, навык-контекст). 3) Импортировать передовую архитектуру рекомендательных систем (DeepFM), доказавшую свою эффективность именно в этой проблеме. 4) Подтвердить, что она превосходит простые базовые модели. Это классический случай перекрестного опыления из зрелой области (рекомендательные системы) в развивающуюся (EdTech AI), аналогично тому, как методы компьютерного зрения революционизировали анализ медицинских изображений.

5.2 Сильные стороны и критические недостатки

Сильные стороны:

Унифицированная структура: Её наибольший теоретический вклад — демонстрация того, как IRT, FM и другие модели существуют в спектре внутри этой архитектуры. Это напоминает унифицирующий взгляд, предоставляемый такими моделями, как Transformer в NLP, который включил в себя RNN и CNN для задач с последовательностями.
Агностичность к признакам: Модель может принимать любые категориальные или непрерывные признаки без обширной предобработки, что является огромным практическим преимуществом для неструктурированных образовательных наборов данных.
Превосходство над сильной базой: AUC 0.815 — это солидный, пригодный для продакшена результат, убедительно лучший, чем базовая логистическая регрессия.

Критические недостатки и упущенные возможности:

Слон в комнате: Бенчмарк 0.861. Статья умалчивает, почему DeepFM отстал. Была ли причина в ёмкости модели? Данных для обучения? Отсутствие явного временного моделирования — это явный недостаток. DeepFM рассматривает каждую попытку как независимую, игнорируя ключевую последовательность. Победившая модель, вероятно, включала временную динамику, подобно тому, как WaveNet или временные свертки превосходят полносвязные модели в прогнозировании временных рядов. Это главная архитектурная слепая зона.
Компромисс "черного ящика": Хотя модель более интерпретируема, чем чистая DNN, обученные эмбеддинги остаются непрозрачными. Для образовательных стейкхолдеров объяснение почему был сделан прогноз часто так же важно, как и сам прогноз. Статья не предлагает инструментов интерпретируемости.
Вычислительная стоимость: Обучение эмбеддингов для каждой уникальной сущности (каждого пользователя, каждого слова) может быть огромным и неэффективным для крупномасштабных динамических платформ, таких как Duolingo, с миллионами новых пользователей и элементов контента.

5.3 Практические выводы и стратегические последствия

Для EdTech-компаний и исследователей:

Приоритет конструирования признаков над новизной модели: Успех этой статьи проистекал больше из её представления признаков (кодирования всей дополнительной информации), чем из радикально новой модели. Инвестируйте в инфраструктуру данных для захвата и предоставления богатых контекстных признаков (время суток, устройство, история предыдущих уроков, метрики вовлеченности).
Гибридизируйте, а не просто импортируйте: Следующий шаг — не очередная модель рекомендаций. Это DeepFM + временная осведомленность. Исследуйте архитектуры, такие как DeepFM с башнями LSTM/GRU или Временные факторизационные машины. Обратите внимание на работы, подобные TiSASRec (Li et al., 2020), которые сочетают самовнимание с временными интервалами для последовательных рекомендаций.
Непрерывно сравнивайте с простыми моделями: Тот факт, что хорошо настроенный вариант IRT (Wilson et al., 2016) может конкурировать с DKT, — это отрезвляющий урок. Всегда сравнивайте с сильными, интерпретируемыми базовыми моделями (IRT, логистическая регрессия с умными признаками). Сложность должна оправдывать свой прирост производительности и вычислительную стоимость.
Фокус на практических результатах: Выходите за рамки AUC прогнозирования. Реальная ценность — в предписании. Используйте силы попарных взаимодействий модели (из компонента FM), чтобы определить, какие пробелы в навыках наиболее критичны для студента или какие особенности урока наиболее запутанны. Превращайте диагностику в персонализированные учебные траектории.

6. Фреймворк анализа и концептуальный пример

Концептуальный фреймворк для применения DeepFM к новому образовательному набору данных:

Определите цель прогнозирования: Бинарная (правильно/неправильно) или многоклассовая (уровни частичного зачета).
Инвентаризируйте все признаки (сущности):
- Уровень студента: ID, демографическая группа, общая история успеваемости.
- Уровень задания/вопроса: ID, компонент(ы) знаний, оценка сложности, формат (множественный выбор, открытый ответ).
- Контекст взаимодействия: Временная метка, затраченное время, номер попытки, используемая платформа.
- Внешние: ID урока, ID учителя (в условиях класса).
Сконструируйте разреженный вектор для экземпляра:
Пример: Студент_S123 пытается решить Вопрос_Q456 по компоненту знаний "Линейные уравнения".
Вектор признаков $\mathbf{x}$ будет иметь 1 на индексах, соответствующих сущностям: [student=S123, question=Q456, kc=linear_equations, attempt_num=2, ...] и 0 в остальных местах.
Обучение модели и интерпретация:
- Компонент FM узнает, что взаимодействие $\langle \mathbf{v}_{S123}, \mathbf{v}_{linear\_equations} \rangle$ сильно отрицательное, что указывает на трудности этого студента с данным КЗ.
- Компонент DNN может обнаружить сложную закономерность: студенты, которые испытывают трудности с "линейными уравнениями" и быстро отвечают на вопросы (короткое время) и используют мобильные устройства, имеют еще более высокий процент неудач.

7. Будущие применения и направления исследований

Временные и последовательные улучшения: Интеграция рекуррентных или слоев на основе внимания (как Transformers) для явного моделирования порядка и времени учебных активностей. Модели, такие как SAINT+ (Choi et al., 2020), сочетают самовнимание для признаков упражнений и ответов, указывая путь вперед.
Кросс-доменная трассировка знаний: Использование эмбеддингов из языковой модели (например, BERT) для представления текста упражнений или объяснений студентов, позволяя модели обобщать на невиданные упражнения на основе семантического сходства.
Причинный вывод для дизайна интервенций: Переход от корреляции (прогнозирования) к причинности. Может ли модель определить не только то, что студент потерпит неудачу, но и какая конкретная интервенция (видео, подсказка, более простая задача) с наибольшей вероятностью изменит этот исход? Это связано с развивающейся областью моделирования uplift в персонализированном образовании.
Федеративное и сохраняющее приватность обучение: Разработка версий DeepFM, которые могут обучаться на децентрализованных данных студентов (на отдельных устройствах/серверах школ) без централизации конфиденциальной информации, что критически важно для этического масштабирования EdTech.
Интеграция с теорией обучения: Ограничение или инициализация параметров модели на основе когнитивных теорий (например, эффект интервалов, теория когнитивной нагрузки) для повышения интерпретируемости и теоретической обоснованности моделей.

8. Ссылки

Cheng, H. T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., ... & Shah, H. (2016). Wide & deep learning for recommender systems. Proceedings of the 1st workshop on deep learning for recommender systems.
Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction.
Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. (2017). DeepFM: A factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage.
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems.
Rendle, S. (2010). Factorization machines. 2010 IEEE International Conference on Data Mining.
Settles, B., Brunk, B., & T. (2018). The 2018 Duolingo Shared Task on Second Language Acquisition Modeling. Proceedings of the 2018 SLAM Workshop.
Vie, J. J., & Kashima, H. (2018). Knowledge tracing machines: Factorization machines for knowledge tracing. arXiv preprint arXiv:1811.03388.
Wilson, K. H., Karklin, Y., Han, B., & Ekanadham, C. (2016). Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation. Educational Data Mining.
Li, J., Wang, Y., & McAuley, J. (2020). Time interval aware self-attention for sequential recommendation. Proceedings of the 13th International Conference on Web Search and Data Mining.
Choi, Y., Lee, Y., Cho, J., Baek, J., Kim, B., Cha, Y., ... & Kim, S. (2020). Towards an appropriate query, key, and value computation for knowledge tracing. Proceedings of the Seventh ACM Conference on Learning@ Scale.