1. 서론 및 배경
교육 분야, 특히 지식 추적(Knowledge Tracing, KT)에서의 예측 모델링은 학습자의 변화하는 지식 상태를 모델링하여 미래 성과를 예측하고 맞춤형 교육을 제공하는 것을 목표로 합니다. 성과 데이터에 대한 인간의 해석에 의존하는 전통적 방법은 긍정적 편향, 기억 한계와 같은 인지적 편향에 취약합니다. Corbett와 Anderson이 도입한 계산적 KT는 학생 상호작용 데이터를 사용하여 이러한 문제를 완화합니다.
대부분의 연구가 모델 정확도를 우선시하는 반면, 본 논문은 중요하지만 충분히 탐구되지 않은 차원인 알고리즘 공정성에 초점을 전환합니다. 공정성은 모델이 민감한 속성(예: 기기 유형, 출신 국가)을 기반으로 특정 집단을 체계적으로 불리하게 대우하지 않도록 보장합니다. Duolingo와 같은 플랫폼을 통한 제2언어 습득(SLA) 맥락에서 편향은 교육적 불평등을 고착화시킬 수 있습니다.
핵심 연구 질문: 본 연구는 KT 모델의 공정성을 다음 두 가지 측면에서 평가합니다: 1) 서로 다른 클라이언트 플랫폼(iOS, Android, Web), 2) 선진국 대 개발도상국 출신 학습자.
2. 방법론 및 실험 설계
본 연구는 모델의 예측 성능과 공정성을 모두 평가하기 위해 비교 분석 프레임워크를 사용합니다.
2.1 데이터셋: Duolingo 학습 트랙
2018년 Duolingo 제2언어 습득 공유 과제(Shared Task)의 세 가지 서로 다른 학습 트랙이 사용되었습니다:
- en_es: 영어 사용자가 스페인어를 학습.
- es_en: 스페인어 사용자가 영어를 학습.
- fr_en: 프랑스어 사용자가 영어를 학습.
2.2 평가된 예측 모델
본 연구는 두 가지 광범위한 모델 범주를 비교합니다:
- 기계 학습(ML) 모델: 로지스틱 회귀, 랜덤 포레스트 또는 베이지안 지식 추적(BKT)과 같은 전통적 모델을 포함할 가능성이 높습니다.
- 딥러닝(DL) 모델: LSTM 네트워크 또는 딥 지식 추적(DKT)과 같은 시퀀스 모델을 포함할 가능성이 높으며, 이 모델들은 학습 시퀀스의 시간적 의존성을 포착하는 데 능숙합니다.
2.3 공정성 지표 및 평가 프레임워크
공정성은 집단 공정성 지표를 사용하여 평가되었습니다. 이진 예측(예: 학생이 다음 항목을 정답으로 맞출 것인가?)의 경우, 일반적인 지표는 다음과 같습니다:
- 인구 통계적 평등(Demographic Parity): 집단 간 동일한 예측률.
- 기회 균등(Equal Opportunity): 집단 간 동일한 참양성률.
- 예측 평등(Predictive Parity): 집단 간 동일한 정밀도.
3. 실험 결과 및 발견 사항
분석 결과 정확도와 공정성 사이의 절충을 강조하는 네 가지 주요 발견 사항이 도출되었습니다.
핵심 발견 사항 요약
- DL 우월성: DL 모델은 일반적으로 정확도와 공정성 모두에서 ML 모델을 능가했습니다.
- 모바일 편향: ML과 DL 모두 웹 사용자보다 모바일(iOS/Android) 사용자를 선호하는 편향을 보였습니다.
- 발전 편향: ML 모델은 DL 모델보다 개발도상국 출신 학습자에 대해 더 강한 편향을 나타냈습니다.
- 맥락 의존적 선택: 최적의 모델 선택(DL 대 ML)은 특정 학습 트랙에 따라 달라집니다.
3.1 성능: 정확도 비교
딥러닝 모델은 평가된 모든 트랙에서 예측 정확도 면에서 현저한 우위를 보였습니다. 이는 Piech 등의 선구적인 DKT 논문에서 언급된 바와 같이, DKT와 같은 신경망 시퀀스 모델이 단순한 ML 모델보다 복잡한 비선형 학습 경로를 더 효과적으로 모델링할 수 있는 확립된 능력과 일치합니다.
3.2 클라이언트 플랫폼 간 공정성
웹 브라우저 사용자보다 모바일 앱 사용자(iOS, Android)를 선호하는 일관적이고 주목할 만한 편향이 관찰되었습니다. 이는 다음과 같은 원인에서 비롯될 수 있습니다:
- 데이터 품질 차이(예: 상호작용 패턴, 세션 길이).
- 플랫폼 선택과 학습자 참여도 또는 훈련 데이터에 내재된 사회경제적 요인 간 의도치 않은 상관관계.
3.3 국가 발전 수준 간 공정성
기계 학습 알고리즘은 딥러닝 알고리즘에 비해 개발도상국 출신 학습자에 대해 더 뚜렷한 편향을 보였습니다. 이는 더 큰 용량을 가진 DL 모델이 발전 상태와 관련된 허위 상관관계에 덜 민감한, 더 강건하고 일반화 가능한 패턴을 학습하고 있을 수 있음을 시사합니다.
3.4 절충 분석: 정확도 대 공정성
본 연구는 미묘하고 맥락에 특화된 접근 방식을 권장합니다:
- en_es 및 es_en 트랙의 경우, 더 나은 균형을 제공하는 딥러닝이 더 적합합니다.
- fr_en 트랙의 경우, 데이터셋 특성으로 인해 단순한 모델이 더 공정하게 일반화될 가능성이 있어 기계 학습이 더 적합한 옵션으로 나타났습니다.
4. 기술 심층 분석
4.1 지식 추적 형식화
핵심적으로, KT는 학습자의 지식 상태를 시간에 따라 진화하는 잠재 변수로 모델링합니다. 학습자 상호작용(예: 연습 시도) 시퀀스 $X = \{x_1, x_2, ..., x_t\}$가 주어졌을 때, 목표는 다음 항목에 대한 정답 확률 $P(r_{t+1} = 1 | X)$를 예측하는 것입니다.
딥 지식 추적(DKT)은 이를 모델링하기 위해 순환 신경망(RNN)을 사용합니다:
$h_t = \text{RNN}(x_t, h_{t-1})$
$P(r_{t+1}) = \sigma(W \cdot h_t + b)$
여기서 $h_t$는 시간 $t$에서의 지식 상태를 나타내는 은닉 상태이며, $\sigma$는 시그모이드 함수입니다.
4.2 공정성 지표 공식화
$A \in \{0,1\}$를 민감 속성(예: 모바일 사용자의 경우 $A=1$, 웹 사용자의 경우 $A=0$)이라고 하고, $\hat{Y}$를 모델의 예측이라고 합시다. 인구 통계적 평등은 다음을 요구합니다:
$P(\hat{Y}=1 | A=1) = P(\hat{Y}=1 | A=0)$
기회 균등(정답을 긍정 결과로 간주)은 다음을 요구합니다:
$P(\hat{Y}=1 | A=1, Y=1) = P(\hat{Y}=1 | A=0, Y=1)$
연구에서 관찰된 편향은 서로 다른 집단에 대한 이러한 조건부 확률 간의 차이나 비율로 정량화될 수 있습니다.
5. 분석 프레임워크 및 사례 예시
KT 공정성 감사 프레임워크: 에듀테크 개발자는 다음과 같은 구조화된 접근 방식을 채택할 수 있습니다:
- 분리 평가: 집계 정확도만 보고하지 마십시오. 항상 각 민감 하위 집단(플랫폼, 국가, 성별(가능한 경우)별)에 대해 성능 지표(정확도, AUC)와 공정성 지표(인구 통계적 평등 차이, 기회 균등 차이)를 별도로 계산하십시오.
- 근본 원인 분석: 확인된 편향에 대해 특성 상관관계를 조사하십시오. "세션 수"가 플랫폼과 예측 결과 모두와 상관관계가 있습니까? 사회경제적 지위에 대한 대리 변수가 행동 데이터를 통해 모델에 유입되고 있습니까?
- 완화 전략 선택: 원인에 따라 완화 기법을 선택하십시오: 전처리(데이터 재가중), 처리 중 완화(FAT* 컨퍼런스 커뮤니티의 접근법과 같이 손실 함수에 공정성 제약 조건 추가), 또는 후처리(집단별 임계값 보정).
사례 예시 - 모바일 편향: Duolingo 데이터로 훈련된 LSTM 기반 KT 모델이 실제 성과는 동일하게 유지하면서 iOS 사용자에 대해 웹 사용자보다 15% 더 높은 성공 예측 확률을 보인다고 가정해 보십시오. 우리의 감사는 "시간대" 특성이 주요 동인임을 보여줍니다: iOS 사용자는 짧고 빈번한 폭발적 시간(통근 시간)에 더 많이 연습하는 반면, 웹 사용자는 더 길고 덜 빈번한 세션을 가집니다. 모델은 "통근 패턴"을 높은 참여도와 연관시키고 예측을 높여, 다른 패턴으로 효과적으로 학습할 수 있는 웹 사용자를 불공정하게 불이익을 줍니다. 완화: Zemel 등의 연구진이 공정한 표현 학습에 관한 연구를 참고하여, 훈련 중에 플랫폼 집단 간 예측 분포 차이에 대해 모델에 페널티를 주는 공정성 인식 정규화 항을 적용할 수 있습니다.
6. 비판적 분석 및 전문가 해석
핵심 통찰: 본 논문은 급성장하는 에듀테크 분야에 중요한, 불편한 진실을 전달합니다: 최첨단 지식 추적 모델은 부유하고 모바일 우선 사용자 및 선진국을 선호하는 체계적 편향을 내재시킬 가능성이 높습니다. 정확도 추구는 알고리즘에 축적되는 윤리적 부채에 대한 시야를 흐리게 했습니다. 정교한 딥러닝 모델에서조차 편향이 지속된다는 발견은 더 복잡한 모델이 본질적으로 "더 공정한" 표현을 학습한다는 믿음에 대한 냉정한 대조점입니다.
논리적 흐름: 저자들은 KT 패러다임을 정립하는 것에서 시작하여 그 공정성 맹점을 드러내는 것으로 논리적으로 진행합니다. 확립된 Duolingo 데이터셋을 사용함으로써 신뢰성과 재현성을 제공합니다. 플랫폼 편향과 지정학적 편향으로 양분된 분석은 디지털 격차의 두 가지 주요 축을 교묘하게 포착합니다. 고전적 ML과 현대 DL 간의 비교는 단순히 기술적이기보다 전략적이며, 실무자들이 윤리적 함의를 고려하여 도구를 선택하도록 돕습니다.
강점과 결점: 주요 강점은 실제 데이터에 대한 실용적이고 경험적인 초점과 명확한 비교적 발견 사항에 있습니다. 이는 이론적 공정성 논의를 넘어섭니다. 그러나 중요한 결점은 기계적 설명의 부재입니다. 모바일 편향은 왜 발생합니까? 데이터 인공물, 사용자 행동 차이, 또는 모델 한계 때문입니까? 논문은 질병을 진단하지만 병리학은 거의 제공하지 않습니다. 더욱이, 낮은 정확도에도 불구하고 공정성을 근거로 `fr_en` 트랙에 ML 사용을 제안하는 것은 현실 세계의 딜레마를 제기합니다: 우리는 공정성을 위해 얼마나 많은 정확도를 포기할 용의가 있으며, 누가 결정합니까?
실행 가능한 통찰: 제품 리더와 엔지니어에게 이 연구는 변화를 위한 명령입니다. 첫째, 공정성 감사는 Google PAIR 이니셔티브가 주창하는 실천 방식과 유사하게, 새로운 모델 배포를 위한 A/B 테스트와 함께 표준 KPI가 되어야 합니다. 둘째, 관찰된 편향은 플랫폼별 특성 공학 또는 보정의 필요성을 시사합니다. 아마도 웹 사용자는 미묘하게 다른 예측 모델이 필요할 수 있습니다. 셋째, 이 연구는 더 다양하고 대표적인 훈련 데이터의 필요성을 강조합니다. 개발도상국 지역의 NGO 또는 교육 기관과의 협력은 데이터셋의 균형을 재조정하는 데 도움이 될 수 있습니다. 마지막으로, 이 분야는 공정성을 사후 고려가 아닌 처음부터 통합하는 "공정성 설계(Fairness-by-Design)" KT 아키텍처를 개발하고 채택해야 합니다.
7. 향후 적용 및 연구 방향
- 맞춤형 공정성 인식 튜터링: 미래의 ITS는 지식 상태뿐만 아니라 예측된 편향을 상쇄하기 위해 동적으로 조정할 수 있습니다. 시스템이 모델의 확신이 낮은 대표성 부족 집단의 학생임을 감지하면, 더 지원적인 비계를 제공하거나 불확실성을 공정하게 줄이기 위해 더 많은 데이터를 수집할 수 있습니다.
- 교차 문화 및 교차 언어 모델 전이: 연구는 전이 학습에서의 공정성을 탐구해야 합니다. 영어 사용 학습자 데이터로 훈련된 KT 모델이 스페인어 사용자를 위해 미세 조정될 때 공정합니까? 도메인 적응 기술을 공정성 제약 조건과 통합할 수 있습니다.
- 설명 가능한 공정성(XFairness): 편향을 측정하는 것을 넘어, 어떤 특성이 불공정한 결과에 기여하는지 설명할 수 있는 도구가 필요합니다. 이는 더 넓은 XAI(설명 가능한 AI) 운동과 일치하며, 개발자 신뢰와 효과적인 완화에 중요합니다.
- 종단적 공정성 연구: 알고리즘 편향은 학습자의 다년간 여정 동안 증가하거나 감소합니까? 적응형 시스템에서 편향된 피드백 루프의 복합적 영향을 이해하기 위해 종단적 연구가 필요합니다.
- 학습 과학과의 통합: 향후 연구는 교육학 이론과의 간극을 메워야 합니다. 인지 부하나 동기 부여 관점에서 "공정성"은 무엇을 의미합니까? 공정성은 통계적 평등뿐만 아니라 교육적 형평성 원칙과 일치해야 합니다.
8. 참고문헌
- Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
- Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
- Zemel, R., Wu, Y., Swersky, K., Pitassi, T., & Dwork, C. (2013). Learning fair representations. International conference on machine learning (pp. 325-333). PMLR.
- Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys (CSUR), 54(6), 1-35.
- Google PAIR. (n.d.). People + AI Guidebook. Retrieved from https://pair.withgoogle.com/
- Duolingo. (2018). Duolingo Second Language Acquisition Shared Task. Proceedings of the 2018 EMNLP Workshop W-NUT.
- Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning: Limitations and Opportunities. fairmlbook.org.