1. Введение и предпосылки
Прогностическое моделирование в образовании, в частности Отслеживание знаний (Knowledge Tracing, KT), ставит целью смоделировать изменяющееся состояние знаний учащегося для прогнозирования будущих результатов и персонализации обучения. Традиционные методы, основанные на человеческой интерпретации данных об успеваемости, подвержены когнитивным искажениям (например, позитивному смещению, ограничениям памяти). Вычислительное отслеживание знаний, введённое Корбеттом и Андерсоном, смягчает эти проблемы, используя данные о взаимодействии учащихся.
В то время как большинство исследований отдают приоритет точности модели, данная статья смещает фокус на критическое, но малоизученное измерение: алгоритмическую справедливость. Справедливость гарантирует, что модели не ставят в систематически невыгодное положение группы на основе чувствительных атрибутов (например, типа устройства, страны происхождения). В контексте изучения второго языка (Second Language Acquisition, SLA) на платформах вроде Duolingo предвзятость может увековечить образовательное неравенство.
Ключевые исследовательские вопросы: В данном исследовании оценивается справедливость моделей KT по двум параметрам: 1) Различные клиентские платформы (iOS, Android, Web), и 2) Учащиеся из развитых и развивающихся стран.
2. Методология и экспериментальная установка
В исследовании используется сравнительная аналитическая структура для оценки как прогностической производительности, так и справедливости моделей.
2.1 Наборы данных: Треки Duolingo
Были использованы три различных учебных трека из совместного задания Duolingo 2018 года по изучению второго языка:
- en_es: Носители английского, изучающие испанский.
- es_en: Носители испанского, изучающие английский.
- fr_en: Носители французского, изучающие английский.
2.2 Оцениваемые прогностические модели
Исследование сравнивает два широких класса моделей:
- Модели машинного обучения (ML): Вероятно, включают традиционные модели, такие как логистическая регрессия, случайные леса или байесовское отслеживание знаний (BKT).
- Модели глубокого обучения (DL): Вероятно, включают последовательностные модели, такие как сети с долгой краткосрочной памятью (LSTM) или глубокое отслеживание знаний (DKT), которые хорошо улавливают временные зависимости в учебных последовательностях.
2.3 Метрики справедливости и оценочная структура
Справедливость оценивалась с использованием метрик групповой справедливости. Для бинарного прогноза (например, ответит ли ученик правильно на следующий вопрос?) распространённые метрики включают:
- Демографический паритет: Равные частоты прогнозов по группам.
- Равные возможности: Равные доли истинно положительных результатов по группам.
- Прогностический паритет: Равная точность (precision) по группам.
3. Экспериментальные результаты и выводы
Анализ дал четыре ключевых вывода, подчеркивающих компромиссы между точностью и справедливостью.
Ключевые выводы вкратце
- Преимущество DL: Модели DL в целом превзошли ML как по точности, так и по справедливости.
- Предвзятость к мобильным: И ML, и DL показали предвзятость в пользу мобильных пользователей (iOS/Android) по сравнению с веб-пользователями.
- Предвзятость по развитию: Модели ML проявили более сильную предвзятость против учащихся из развивающихся стран по сравнению с моделями DL.
- Контекстно-зависимый выбор: Оптимальный выбор модели (DL vs. ML) зависит от конкретного учебного трека.
3.1 Производительность: сравнение точности
Модели глубокого обучения продемонстрировали заметное преимущество в прогностической точности по всем оцениваемым трекам. Это согласуется с установленной способностью нейронных последовательностных моделей, таких как DKT, более эффективно моделировать сложные, нелинейные траектории обучения по сравнению с более простыми моделями ML, как отмечено в основополагающей статье по DKT Piech et al.
3.2 Справедливость по клиентским платформам
Было отмечено последовательное и заметное смещение в пользу пользователей мобильных приложений (iOS, Android) по сравнению с пользователями веб-браузеров. Это может быть вызвано:
- Различиями в качестве данных (например, паттерны взаимодействия, продолжительность сессий).
- Непреднамеренной корреляцией между выбором платформы и вовлечённостью учащегося или социально-экономическими факторами, заложенными в обучающие данные.
3.3 Справедливость по уровням развития стран
Алгоритмы машинного обучения показали более выраженную предвзятость против учащихся из развивающихся стран по сравнению с алгоритмами глубокого обучения. Это позволяет предположить, что модели DL, обладая большей ёмкостью, возможно, изучают более устойчивые, обобщаемые паттерны, менее чувствительные к ложным корреляциям, связанным с уровнем развития.
3.4 Анализ компромисса: точность vs. справедливость
Исследование рекомендует тонкий, контекстно-зависимый подход:
- Для треков en_es и es_en более подходит глубокое обучение, предлагающее лучший баланс.
- Для трека fr_en машинное обучение оказалось более подходящим вариантом, возможно, из-за характеристик набора данных, где более простые модели обобщаются более справедливо.
4. Техническое углубление
4.1 Формализм отслеживания знаний
По своей сути, KT моделирует состояние знаний учащегося как латентную переменную, которая развивается с течением времени. Имея последовательность взаимодействий учащегося (например, попыток выполнения упражнений) $X = \{x_1, x_2, ..., x_t\}$, цель — предсказать вероятность правильности ответа на следующий вопрос, $P(r_{t+1} = 1 | X)$.
Глубокое отслеживание знаний (DKT) использует рекуррентную нейронную сеть (RNN) для моделирования этого:
$h_t = \text{RNN}(x_t, h_{t-1})$
$P(r_{t+1}) = \sigma(W \cdot h_t + b)$
где $h_t$ — скрытое состояние, представляющее состояние знаний в момент времени $t$, а $\sigma$ — сигмоидная функция.
4.2 Формулировка метрик справедливости
Пусть $A \in \{0,1\}$ — чувствительный атрибут (например, $A=1$ для мобильного пользователя, $A=0$ для веб-пользователя). Пусть $\hat{Y}$ — прогноз модели. Демографический паритет требует:
$P(\hat{Y}=1 | A=1) = P(\hat{Y}=1 | A=0)$
Равные возможности (рассматривая правильность как положительный исход) требуют:
$P(\hat{Y}=1 | A=1, Y=1) = P(\hat{Y}=1 | A=0, Y=1)$
Наблюдаемая в исследовании предвзятость может быть количественно оценена как разность или отношение этих условных вероятностей для разных групп.
5. Структура анализа и пример из практики
Структура для аудита справедливости KT: Разработчики EdTech могут принять этот структурированный подход:
- Детализированная оценка: Никогда не сообщайте только общую точность. Всегда рассчитывайте метрики производительности (точность, AUC) и метрики справедливости (разность демографического паритета, разность равных возможностей) отдельно для каждой чувствительной подгруппы (по платформе, стране, полу, если доступно).
- Анализ первопричин: Для выявленных предубеждений исследуйте корреляции признаков. Коррелирует ли «количество сессий» как с платформой, так и с исходом прогноза? Могут ли прокси-переменные для социально-экономического статуса просачиваться в модель через поведенческие данные?
- Выбор стратегии смягчения: В зависимости от причины выберите метод смягчения: предварительная обработка (перевзвешивание данных), обработка в процессе (добавление ограничений справедливости в функцию потерь, как в подходах, предлагаемых сообществом конференции FAT*), или постобработка (калибровка порогов для каждой группы).
Пример из практики — предвзятость к мобильным: Представьте, что модель KT на основе LSTM, обученная на данных Duolingo, показывает на 15% более высокую прогнозируемую вероятность успеха для пользователей iOS по сравнению с веб-пользователями при постоянной фактической успеваемости. Наш аудит показывает, что признак «время суток» является ключевым драйвером: пользователи iOS практикуются чаще короткими сессиями (в поездках), в то время как веб-пользователи имеют более длинные, но менее частые сессии. Модель ассоциирует «паттерн поездок» с более высокой вовлечённостью и завышает прогнозы, несправедливо наказывая веб-пользователей, которые могут эффективно учиться по другим паттернам. Смягчение: Мы могли бы применить регуляризационный член, учитывающий справедливость, во время обучения, который штрафует модель за различия в распределениях прогнозов между группами платформ, руководствуясь работами исследователей вроде Земеля и др. об обучении справедливых представлений.
6. Критический анализ и экспертная интерпретация
Ключевая идея: Эта статья доносит важную, неудобную правду для процветающего сектора EdTech: ваши передовые модели отслеживания знаний, вероятно, запекают системные предубеждения, которые благоприятствуют обеспеченным, «мобильно-ориентированным» пользователям и развитым странам. Стремление к точности ослепило область, не позволяя увидеть этический долг, накапливающийся в её алгоритмах. Вывод о том, что предвзятость сохраняется даже в сложных моделях глубокого обучения, является отрезвляющим контраргументом вере в то, что более сложные модели по своей природе изучают «более справедливые» представления.
Логическая последовательность: Авторы логично переходят от установления парадигмы KT к разоблачению её слепого пятна в отношении справедливости. Использование хорошо зарекомендовавшего себя набора данных Duolingo обеспечивает достоверность и воспроизводимость. Двойной анализ — предвзятость по платформе и геополитическая предвзятость — удачно захватывает две основные оси цифрового разрыва. Сравнение классического ML и современного DL носит не только технический, но и стратегический характер, помогая практикам выбирать инструменты с учётом этических последствий.
Сильные стороны и недостатки: Основная сила — это её практическая, эмпирическая направленность на реальные данные и чёткие, сравнительные выводы. Она выходит за рамки теоретических дискуссий о справедливости. Однако значительный недостаток — отсутствие механистического объяснения. Почему возникает предвзятость к мобильным? Это артефакт данных, разница в поведении пользователей или ограничение модели? Статья диагностирует болезнь, но почти не предлагает патологии. Более того, предложение использовать ML для трека `fr_en` на основе справедливости, несмотря на его более низкую точность, представляет реальную дилемму: сколько точности мы готовы пожертвовать ради справедливости, и кто решает?
Практические выводы: Для руководителей продуктов и инженеров это исследование является мандатом на изменения. Во-первых, аудит справедливости должен стать стандартным KPI наряду с A/B-тестированием для развёртывания новых моделей, аналогично практикам, пропагандируемым инициативой Google PAIR. Во-вторых, наблюдаемые предубеждения указывают на необходимость специфической для платформы разработки признаков или калибровки. Возможно, веб-пользователям требуется слегка иная прогностическая модель. В-третьих, исследование подчёркивает необходимость более разнообразных и репрезентативных обучающих данных. Сотрудничество с НПО или образовательными учреждениями в развивающихся регионах может помочь сбалансировать наборы данных. Наконец, область должна разработать и внедрить архитектуры KT «Справедливость по дизайну», интегрируя ограничения с самого начала, а не дорабатывая справедливость постфактум.
7. Будущие применения и направления исследований
- Персонализированное тьюторство с учётом справедливости: Будущие ITS могут динамически корректироваться не только под состояние знаний, но и для противодействия прогнозируемым предубеждениям. Если система обнаруживает, что студент принадлежит к недостаточно представленной группе, для которой модель менее уверена, она может предоставить более поддерживающие подсказки или собрать больше данных для справедливого снижения неопределённости.
- Кросс-культурный и кросс-лингвистический перенос моделей: Исследования должны изучить справедливость при трансферном обучении. Является ли модель KT, обученная на англоговорящих учениках, справедливой при дообучении для испаноговорящих? Техники адаптации доменов можно объединить с ограничениями справедливости.
- Объяснимая справедливость (XFairness): Помимо измерения предвзятости, нам нужны инструменты для объяснения того, какие признаки способствуют несправедливым исходам. Это согласуется с более широким движением XAI (Explainable AI) и критически важно для доверия разработчиков и эффективного смягчения.
- Лонгитюдные исследования справедливости: Увеличивается или уменьшается алгоритмическая предвзятость на протяжении многолетнего пути учащегося? Необходимы лонгитюдные исследования, чтобы понять кумулятивные эффекты предвзятых обратных связей в адаптивных системах.
- Интеграция с наукой об обучении: Будущая работа должна преодолеть разрыв с педагогической теорией. Что означает «справедливость» с точки зрения когнитивной нагрузки или мотивации? Справедливость должна соответствовать принципам образовательного равенства, а не только статистическому паритету.
8. Список литературы
- Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
- Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
- Zemel, R., Wu, Y., Swersky, K., Pitassi, T., & Dwork, C. (2013). Learning fair representations. International conference on machine learning (pp. 325-333). PMLR.
- Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys (CSUR), 54(6), 1-35.
- Google PAIR. (n.d.). People + AI Guidebook. Retrieved from https://pair.withgoogle.com/
- Duolingo. (2018). Duolingo Second Language Acquisition Shared Task. Proceedings of the 2018 EMNLP Workshop W-NUT.
- Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning: Limitations and Opportunities. fairmlbook.org.