CPG-EVAL：一個用於評估大型語言模型中文教學文法能力的多層次基準

1. 引言

本文以一個引人深思的類比開場：在未經適當評估的情況下，將像 ChatGPT 這樣的大型語言模型部署於教育角色，就如同允許未經認證的教師指導學生。這凸顯了一個關鍵的差距。雖然 LLM 在外語教育（例如內容生成、錯誤修正）方面展現出潛力，但其核心的教學文法能力——即以可教學、具情境意識的方式理解和解釋文法規則的能力——在很大程度上仍未經衡量。作者認為，現有的 NLP 基準不足以應對此領域特定任務。因此，他們提出了CPG-EVAL（中文教學文法評估），這是首個專用的、多層次的基準，旨在系統性地評估 LLM 在對外漢語教學情境下的教學文法知識。

2. 相關工作

本文將 CPG-EVAL 定位於兩個研究脈絡之中。首先，回顧了 LLM 在語言教育中日益增長的應用，涵蓋了自動寫作評估、對話練習和資源開發等領域（例如 Bin-Hady 等人，2023；Kohnke 等人，2023）。其次，討論了 AI 基準的演進，從通用任務（例如 GLUE、SuperGLUE）到更專門的評估。作者指出，目前缺乏基於教學理論和語言教學專業知識的基準，而 CPG-EVAL 旨在透過橋接計算語言學與對外漢語教學的應用語言學來解決此問題。

3. CPG-EVAL 基準

3.1. 理論基礎與設計原則

CPG-EVAL 基於一個經過廣泛對外漢語教學實踐驗證的教學文法分類系統。其設計遵循教學一致性原則，確保任務反映真實世界的教學情境。該基準不僅評估文法正確性，還評估模型執行與教師或導師相關任務的能力，例如識別錯誤、解釋規則以及選擇合適的教學範例。

3.2. 任務分類與評估框架

該基準包含五項核心任務，構成了一個多層次的評估框架：

文法識別：判斷給定句子是否正確使用了目標文法點。
細粒度區分：區分細微不同的文法結構或用法。
類別辨別：將文法錯誤或句子分類到特定的教學類別中（例如，「了」的誤用、錯誤的詞序）。
語言干擾抵抗（單一實例）：評估模型處理單一混淆或誤導性範例的能力。
語言干擾抵抗（多重實例）：更具挑戰性的版本，模型必須在多個可能混淆的範例中進行推理。

此結構旨在探究從基礎識別到混淆情境下的進階推理等不同深度的教學理解。

4. 實驗設置與結果

4.1. 模型與評估協議

本研究評估了一系列 LLM，包括較小規模（例如，參數少於 100 億的模型）和較大規模的模型（例如 GPT-4、Claude 3）。評估在零樣本或少樣本設定下進行，以評估其內在能力。效能主要透過在定義任務上的準確率來衡量。

4.2. 主要發現與效能分析

結果揭示了一個顯著的效能層級：

較小規模的模型在較簡單的單一實例任務（如基礎文法識別）上可以取得合理的成功，但其效能急遽下降在涉及多重實例或強語言干擾的任務上。這表明它們缺乏穩健、可泛化的文法推理能力。
較大規模的模型（例如 GPT-4）表現出明顯更好的干擾抵抗能力，並能更有效地處理多重實例任務，顯示出更強的推理和情境理解能力。然而，它們的準確率仍遠非完美，顯示仍有很大的改進空間。
所有模型的整體效能突顯出，無論規模大小，當前的 LLM 在中文教學文法方面尚未達到可靠勝任的程度。該基準成功地暴露了特定的弱點，例如混淆相似的文法助詞，或無法在不同範例中應用一致的規則。

圖表描述（設想）：一個多柱狀圖將顯示 4-5 個模型系列在 5 項 CPG-EVAL 任務上的準確率分數（0-100%）。模型規模與效能之間存在明顯的正相關，對於任務 4，尤其是任務 5（干擾任務），大型與小型模型之間的差距會急劇擴大。所有模型在任務 5 上的分數都將是最低的。

關鍵指標：效能差距

~40%

大型與小型模型在複雜干擾任務上的準確率差異。

基準規模

5 個層級

多層次任務設計，探究不同能力水準。

暴露的核心限制

教學不一致性

LLM 缺乏可教學的、具情境意識的文法解釋技能。

5. 核心洞見與分析師觀點

核心洞見： CPG-EVAL 不僅僅是另一個準確率測試；它是對 AI 教育科技炒作的一次現實檢驗。它實證地證明，即使是最先進的 LLM，其文法「智能」也是膚淺且與教學脫節的。它們可以作為隨意的說話者，但作為系統性的教師則會失敗。

邏輯脈絡：本文巧妙地從識別關鍵市場需求（評估 AI 教師）開始，進而解構問題（什麼是教學能力？），最後構建一個嚴謹的、理論驅動的解決方案。五任務框架是其殺手鐧，創造了一個難度梯度，清晰地將記憶與真正理解區分開來。

優點與缺陷：其最大優勢在於其教學基礎。與通用基準不同，它是為對外漢語教學領域並由該領域建構的。這反映了像MMLU（大規模多任務語言理解）這類基準背後的理念，該基準匯集了跨學科的專家級知識，但 CPG-EVAL 在單一應用領域鑽研得更深。一個潛在缺陷是其目前側重於評估而非改進。它出色地診斷了病症，但提供的處方有限。未來的工作必須將 CPG-EVAL 上的表現與特定的微調或對齊技術聯繫起來，類似於RAG（檢索增強生成）的開發是為了解決早期基準所識別的幻覺問題。

可操作的見解：對於教育科技公司，這是一個必要的盡職調查工具——在未執行 CPG-EVAL 之前，切勿部署基於 LLM 的中文導師。對於模型開發者，該基準為「教學對齊」提供了一條清晰的路線圖，這是超越憲法 AI 的新前沿。在干擾任務上的低分表明，在經過策劃、教學結構化的資料集上進行訓練——類似於DALL-E 3或AlphaCode 2中使用的合成資料策略——是至關重要的。對於教育工作者和政策制定者，這項研究是支持 AI 輔助教育標準和認證的有力論據。盲目信任 AI 導師的時代已經結束。

6. 技術細節與數學公式

雖然 PDF 預覽未詳細說明複雜公式，但評估邏輯可以形式化。核心指標是模型 $M$ 在基準 $B$ 中任務 $T_i$ 上的準確率，該基準包含 $n$ 個實例：

\[ \text{Accuracy}(M, T_i) = \frac{1}{|D_{T_i}|} \sum_{x \in D_{T_i}} \mathbb{I}(\hat{y}_x = y_x) \]

其中 $D_{T_i}$ 是任務 $i$ 的資料集，$\hat{y}_x$ 是模型對實例 $x$ 的預測，$y_x$ 是黃金標籤，$\mathbb{I}$ 是指標函數。

關鍵創新在於 $D_{T_i}$ 的建構，特別是對於干擾任務。這些任務可能涉及受控的負面範例或對抗性擾動。例如，在一個測試區分表示動作完成的「$\text{了}$」與狀態改變的「$\text{了}$」的任務中，一個干擾實例可能是：「他病了三天。」與「他病三天了。」。細微的差異測試了深層的句法和語義理解。

7. 分析框架：範例案例

情境： 評估 LLM 對「$\text{把}$」結構的理解，這是對外漢語教學中的經典挑戰。

CPG-EVAL 任務應用：

識別（任務 1）： 呈現：「我把書放在桌子上。」模型必須判斷其為正確。
細粒度區分（任務 2）： 對比「我把書看了。」與「書被我看了。」。模型必須解釋焦點從施事者到受事者的轉移。
類別辨別（任務 3）： 給定一個錯誤：「我放書在桌子上。」——缺少「$\text{把}$」。模型必須將錯誤類型分類為「在需要時缺少把字結構」。
干擾 - 單一（任務 4）： 提供一個未使用「$\text{把}$」但可能使用的混淆性正確句子：「我打開了門。」與「我把門打開了。」模型必須認識到兩者在文法上都是有效的，但在語用上有所不同。
干擾 - 多重（任務 5）： 提供一組句子，一些正確使用「$\text{把}$」，一些錯誤使用，還有一些使用替代結構。提問：「哪兩個句子展示了對賓語相同的文法焦點？」這需要跨句推理。

此案例展示了 CPG-EVAL 如何從簡單的模式匹配進展到複雜的教學推理。

8. 未來應用與研究方向

基準擴展： 將 CPG-EVAL 擴展到其他具有複雜教學文法的語言（例如韓語、阿拉伯語）。
從評估到增強： 使用 CPG-EVAL 作為教學對齊微調的訓練信號，創建專門針對教學角色優化的 LLM。
與教育平台整合： 在教育科技平台內嵌入類似 CPG-EVAL 的評估模組，以持續監控 AI 導師的品質。
多模態評估： 未來的基準可以評估 AI 使用圖表、手勢或語碼轉換解釋文法的能力，超越純文字。
縱向與適應性評估： 開發能夠追蹤模型根據模擬學生不斷變化的熟練程度調整其解釋能力的基準，邁向真正的個性化 AI 輔導。

9. 參考文獻

Wang, D. (2025). CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models. arXiv preprint arXiv:2504.13261.
Bin-Hady, W. R. A., Al-Kadi, A., Hazaea, A., & Ali, J. K. M. (2023). Exploring the dimensions of ChatGPT in English language learning: A global perspective. Library Hi Tech.
Kohnke, L., Moorhouse, B. L., & Zou, D. (2023). ChatGPT for language teaching and learning. RELC Journal.
Srivastava, A., et al. (2022). Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615.
Liang, P., et al. (2023). Holistic Evaluation of Language Models. Transactions on Machine Learning Research.
Hendrycks, D., et al. (2021). Measuring Massive Multitask Language Understanding. Proceedings of ICLR.
Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems.