第二語言習得中的公平知識追蹤：演算法偏見分析

1. 緒論

教育領域的預測建模，特別是知識追蹤，旨在模擬學生的知識狀態以實現個人化學習。傳統方法依賴人為判斷，容易受到記憶限制、疲勞和正向偏見的影響。Corbett 和 Anderson (1994) 提出的計算型知識追蹤，利用學生互動數據（成績、回饋、參與度）來預測未來表現並調整教學。

雖然準確度一直是主要焦點，但本研究凸顯了一個關鍵缺口：演算法公平性。本研究探討第二語言習得中的預測模型（使用多鄰國數據）是否會基於平台（iOS、Android、網頁版）或國家發展狀態（已開發國家 vs. 開發中國家）而對特定群體產生非預期的偏見。

2. 方法論與實驗設置

本研究採用比較分析框架，在評估準確度的同時也評估公平性。

2.1 資料集與學習軌跡

使用了來自多鄰國 2018 年共享任務資料集中的三條學習軌跡：

en_es： 以英語為母語者學習西班牙語。
es_en： 以西班牙語為母語者學習英語。
fr_en： 以法語為母語者學習英語。

數據包含學生練習序列、正確性以及元數據（客戶端平台、國家）。國家根據標準經濟指標（例如國際貨幣基金組織的分類）被劃分為「已開發國家」或「開發中國家」。

2.2 預測模型

評估了兩類模型：

機器學習： 傳統模型，如邏輯迴歸、隨機森林。
深度學習： 基於神經網路的模型，可能包括深度知識追蹤的變體或基於 Transformer 的架構。

主要任務是二元預測：學生是否能正確回答下一個練習？

2.3 公平性指標

使用群體公平性指標來評估公平性，比較模型在不同受保護群體間的表現：

平台公平性： 比較 iOS、Android 和網頁版用戶之間的準確度、F1分數或 AUC。
地理公平性： 比較來自已開發國家和開發中國家用戶的表現指標。

這些指標的差異表明了演算法偏見。一個完全公平的模型在所有群體中應具有相同的表現。

3. 結果與發現

本研究得出四項關鍵發現，揭示了顯著的權衡與偏見。

3.1 準確度與公平性的權衡

深度學習模型通常在準確度和公平性上都優於機器學習模型。 深度學習能夠捕捉序列學習數據中複雜的非線性模式，從而產生更穩健的預測，這些預測較少依賴於與敏感屬性相關的虛假相關性。

3.2 平台偏見 (iOS/Android/網頁版)

機器學習和深度學習演算法都表現出明顯的偏見，傾向於行動裝置用戶（iOS/Android）而非非行動裝置（網頁版）用戶。 這可能源於數據品質差異（例如互動模式、學習時長）、介面設計，或通常與各平台相關的人口統計特徵。這種偏見可能使主要透過桌上型電腦存取教育工具的學習者處於不利地位。

3.3 地理偏見 (已開發國家 vs. 開發中國家)

與深度學習演算法相比，機器學習演算法對來自開發中國家的用戶表現出更明顯的偏見。 這是一個關鍵發現，因為機器學習模型可能會學習並放大訓練數據中存在的歷史不平等（例如先前教育資源的差異、網路可靠性）。深度學習模型雖然並非免疫，但對這種地理偏見表現出更強的韌性。

最佳模型選擇： 本研究建議採取細緻的方法：

對於 en_es 和 es_en 軌跡，使用深度學習以獲得公平性與準確度的最佳平衡。
對於 fr_en 軌跡，可以考慮使用機器學習，因為在該特定情境下，其公平性與準確度的權衡被認為更為合適。

4. 技術分析與框架

4.1 知識追蹤的數學表述

知識追蹤的核心是模擬學生的潛在知識狀態。給定一個互動序列 $X_t = \{(q_1, a_1), (q_2, a_2), ..., (q_t, a_t)\}$，其中 $q_i$ 是一個練習/問題，$a_i \in \{0,1\}$ 表示正確性，目標是預測下一個練習正確的機率：$P(a_{t+1}=1 | X_t)$。

深度知識追蹤（Piech 等人，2015）使用循環神經網路來建模：

$h_t = \text{RNN}(h_{t-1}, x_t)$

$P(a_{t+1}=1) = \sigma(W \cdot h_t + b)$

其中 $h_t$ 是代表時間 $t$ 知識狀態的隱藏狀態，$x_t$ 是 $(q_t, a_t)$ 的輸入嵌入，$\sigma$ 是 sigmoid 函數。

4.2 公平性評估框架

本研究隱含地採用了群體公平性範式。對於二元預測器 $\hat{Y}$ 和敏感屬性 $A$（例如平台或國家群體），常見的指標包括：

統計均等差異： $|P(\hat{Y}=1|A=0) - P(\hat{Y}=1|A=1)|$
機會均等差異： $|P(\hat{Y}=1|A=0, Y=1) - P(\hat{Y}=1|A=1, Y=1)|$（當真實標籤 Y 已知時使用）。
表現指標差異： 群體間準確度、AUC 或 F1分數的差異。

差異越小表示公平性越高。本文的發現表明，深度學習模型在最小化這些已定義群體間的差異方面比機器學習模型更有效。

5. 個案研究：框架應用

情境： 一家教育科技公司在其語言學習應用程式中使用知識追蹤模型來推薦複習練習。該模型基於全球用戶數據進行訓練。

問題： 部署後的分析顯示，與 Y 國（一個已開發國家）的用戶相比，X 國（一個開發中國家）的用戶被錯誤推薦過難練習的比率高出 15%，導致挫折感和學習中斷。

使用本文框架進行分析：

識別敏感群體： 來自開發中國家與已開發國家的用戶。
稽核模型： 分別計算每個群體的表現指標（準確度、AUC）。觀察到的「適當難度推薦率」有 15% 的差異，這是一種公平性違規。
診斷： 模型是機器學習還是深度學習？根據本研究，機器學習模型更可能表現出這種地理偏見。調查特徵分佈——也許模型過度依賴與國家發展相關的特徵（例如平均連線速度、裝置類型）。
補救： 考慮轉換為基於深度學習的知識追蹤架構，本研究發現該架構對此類偏見更具韌性。或者，對現有模型應用公平性感知訓練技術（例如對抗性去偏見、重新加權）。
監控： 在採取干預措施後，持續追蹤公平性指標，以確保偏見得到緩解。

6. 未來應用與方向

這項研究的意義超越了第二語言學習：

大規模個人化學習： 公平的知識追蹤模型可以在大規模開放線上課程（如 Coursera、edX）和智慧輔導系統中實現真正公平的自適應學習系統，確保推薦對所有人口群體都有效。
教育科技產品的偏見稽核： 此框架為稽核商業教育軟體的演算法偏見提供了藍圖，這是監管機構和教育工作者日益關注的問題。
跨領域公平性： 未來的工作應調查其他敏感屬性的公平性：性別、年齡、從數據推斷的社會經濟地位以及學習障礙。
因果公平性分析： 超越相關性，理解偏見的原因——是數據、模型架構還是學習情境？可以整合因果推論的技術。
聯邦式與隱私保護的公平學習： 在不損害隱私的情況下，於去中心化的用戶數據上訓練公平模型，這是教育領域倫理人工智慧的關鍵方向。

7. 參考文獻

Baker, R.S., Inventado, P.S. (2014). Educational Data Mining and Learning Analytics. In: Larusson, J., White, B. (eds) Learning Analytics. Springer, New York, NY.
Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction, 4(4), 253-278.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems, 28.
Barocas, S., Hardt, M., & Narayanan, A. (2019). Fairness and Machine Learning: Limitations and Opportunities. fairmlbook.org.
Duolingo. (2018). Second Language Acquisition Modeling (SLAM) Workshop Dataset. Retrieved from https://sharedtask.duolingo.com/
Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2021). A survey on bias and fairness in machine learning. ACM Computing Surveys (CSUR), 54(6), 1-35.

8. 專家分析與評論

核心洞見： 本文揭示了教育科技領域一個關鍵卻常被忽視的事實：高準確度並不等同於公平的教育。 作者有力地證明，標準的知識追蹤模型在未經審慎處理便部署時，會系統性地使整個學習者群體處於不利地位——特別是那些使用網頁版平台和身處開發中國家的學習者。最引人注目的發現是，較簡單的機器學習模型不僅準確度較低，而且公平性顯著更差，它們充當了現有社會和數位鴻溝的放大器。這將演算法公平性定位為核心的模型效能和教學效能組成部分，而非小眾的倫理議題。

邏輯脈絡： 論證方法縝密。首先確立了高風險性（個人化教育）和歷史盲點（公平性）。接著，在三個不同的語言學習情境中，建立了一個清晰、二元的比較實驗（機器學習 vs. 深度學習）。選擇平台和地理作為公平性軸線是明智之舉，反映了直接影響用戶體驗的現實世界部署變數。結果邏輯連貫：深度學習優越的表徵能力不僅產生了更好的預測，也產生了更公平的預測。細緻的建議（en_es/es_en 用深度學習，fr_en 用機器學習）令人耳目一新，避免了「一刀切」的教條，並承認了情境依賴性，這是嚴謹分析的標誌。

優點與不足： 主要優點在於其可操作、實證性的焦點。它超越了理論上的公平性討論，為廣泛使用的數據集（多鄰國）中的偏見提供了可衡量的證據。這是內部模型稽核的有力範本。然而，分析有其局限性。它將「已開發」和「開發中」視為單一的整體，忽略了這些類別內部的巨大異質性（例如城市與鄉村用戶）。該研究也未深入探討偏見為何存在。是特徵表徵、各群體的數據量，還是學習模式的文化差異？正如 Mehrabi 等人 (2021) 的全面調查所指出的，診斷偏見的根本原因對於制定有效的緩解措施至關重要。此外，雖然深度學習在此處似乎更公平，但其「黑箱」性質可能掩蓋了更微妙、更難檢測的偏見，這是公平性文獻中強調的挑戰。

可操作的見解： 對於教育科技領導者和產品經理而言，這項研究是一項變革的指令。首先，必須將公平性指標整合到標準的模型評估儀表板中，與準確度和 AUC 並列。在部署任何自適應學習功能之前，應進行類似本研究的稽核。其次，優先考慮將深度學習架構用於核心的學生建模任務，因為它們提供了更好的內在偏見防護，這與其他領域的趨勢相符，即深度網路學習到更穩健的特徵。第三，細分你的數據。 不要只看「整體」表現。應將按平台、地區和其他相關人口統計特徵細分指標作為常規做法。最後，投資於因果分析，從觀察偏見轉向理解和消除偏見。公平教育科技的未來取決於以與預測準確度同等的嚴謹態度來對待公平性。