用ChatGPT提示詞學中文作為第二語言：基於CEFR同EBCL級別嘅研究

1. 引言
2. 背景同相關研究
- 2.1 聊天機器人喺語言學習嘅演變
- 2.2 CEFR同EBCL框架
3. 研究方法
- 3.1 A1-A2級別嘅提示詞設計
- 3.2 實驗設置
4. 結果同分析
- 4.1 詞彙合規性
- 4.2 漢字重複率
5. 技術細節同數學公式
6. 案例研究：A1級別嘅提示詞示例
7. 原創分析
8. 未來方向同應用
9. 參考文獻

1. 引言

ChatGPT作為領先嘅大型語言模型（LLM），為個人化語言學習帶嚟前所未有嘅機會。呢項研究探討點樣精心設計提示詞，令ChatGPT嘅輸出符合歐洲共同語言參考框架（CEFR）同歐洲中文基準測試（EBCL）嘅標準，專注於中文作為第二語言（L2）。研究集中喺A1、A1+同A2級別，通過控制詞彙同漢字輸出，應對中文方塊字書寫嘅獨特挑戰。

2. 背景同相關研究

2.1 聊天機器人喺語言學習嘅演變

由ELIZA（1966年）到ALICE（1995年）再到現代生成式AI，聊天機器人已經從基於規則嘅系統演變為適應性對話代理。Wang（2024年）對28項研究嘅70個效應量進行嘅元分析證實，聊天機器人對語言學習表現有整體正面影響。不過，2020年後由ChatGPT呢類LLM帶嚟嘅範式轉變，並未喺早期嘅綜述中反映（Adamopoulou，2020年）。

2.2 CEFR同EBCL框架

CEFR提供咗一個六級量表（A1到C2）嚟衡量語言能力。EBCL項目專門為中文制定基準，定義咗每個級別嘅漢字同詞彙表。對於A1級別，預計約150個漢字同300個詞語；A1+增加100個漢字；A2目標係300個漢字同600個詞語。呢啲詞彙表構成咗提示詞限制嘅基礎。

3. 研究方法

3.1 A1-A2級別嘅提示詞設計

我哋設計咗提示詞，包含明確指示：「只用EBCL A1詞彙表嘅漢字」同「將詞彙限制喺300個高頻詞語」。提示詞仲指定咗對話場景（例如，點餐、自我介紹），以確保情境相關性。

3.2 實驗設置

我哋使用ChatGPT-3.5同ChatGPT-4模型進行咗系統性實驗。每個提示詞測試咗50次，並分析輸出嘅漢字集合規性、詞彙多樣性同語法準確性。合規分數$C$定義為輸出中屬於目標EBCL詞彙表嘅漢字比例。

4. 結果同分析

4.1 詞彙合規性

喺提示詞中加入明確嘅漢字列表，令A1級別嘅合規性由62%（基準）提升到89%。對於A1+級別，合規性達到84%。呢個改善具有統計顯著性（$p < 0.01$）。

4.2 漢字重複率

控制漢字重複率（對話中漢字嘅重複次數）有助提升記憶效果。平均漢字重複率由每100個漢字1.2次增加到2.4次，符合間隔重複嘅教學原則。

5. 技術細節同數學公式

合規分數$C$定義如下：

$$C = \frac{N_{\text{target}}}{N_{\text{total}}} \times 100\%$$

其中$N_{\text{target}}$係來自目標EBCL詞彙表嘅漢字數量，$N_{\text{total}}$係輸出中嘅總漢字數量。詞彙多樣性$D$用類型-標記比率（TTR）衡量：

$$D = \frac{V}{N}$$

其中$V$係獨特詞語數量，$N$係總詞語數量。最佳提示詞喺A1級別達到$C > 85\%$同$D \approx 0.4$。

6. 案例研究：A1級別嘅提示詞示例

提示詞：「你係一位初學者（A1級別）嘅中文導師。只用EBCL A1詞彙表嘅漢字：我, 你, 好, 是, 不, 了, 在, 有, 人, 大, 小, 上, 下, 來, 去, 吃, 喝, 看, 說, 做。創作一個關於喺餐廳點餐嘅短對話。句子要簡單，重複關鍵漢字。」

示例輸出：「你好！我食米飯。你飲咩？我飲水。好，唔食喇。」（Hello! I eat rice. What do you drink? I drink water. Okay, I'm done eating.）

呢個輸出使用咗100%目標漢字，並展示咗自然嘅重複。

7. 原創分析

核心見解：呢篇論文係一個務實嘅橋樑，連接咗嚴格嘅課程標準（CEFR/EBCL）同LLM混亂嘅生成能力。佢唔單止問「ChatGPT可唔可以教中文？」，而係問「我哋點樣迫ChatGPT教正確嘅中文？」呢個係從新奇到實用嘅關鍵轉變。

邏輯流程：作者由歷史背景（ELIZA到ChatGPT）推進到具體問題（控制漢字輸出），再到解決方案（用明確詞彙表嘅提示詞工程），最後到實證驗證。流程緊湊，不過實驗範圍較窄（只有A1-A2）。

優點同缺點：優點係可行嘅方法論——任何老師都可以複製呢啲提示詞。缺點係缺乏長期學習成果數據。更高嘅合規性係咪真係會帶嚟更好嘅語言習得？論文假設係咁，但冇證明。另外，研究忽略咗LLM幻覺嘅風險（例如，憑空創造漢字）。正如Bender等人（2021年）喺佢哋對LLM嘅開創性批評中指出，「隨機鸚鵡」可以產生看似合理但錯誤嘅輸出，對初學者嚟講好危險。

可行建議：對於實踐者嚟講，關鍵收穫係提示詞工程係一種低成本、高影響嘅干預措施。對於研究人員嚟講，下一步係進行隨機對照試驗，比較有提示詞同冇提示詞嘅ChatGPT對實際學習效果嘅影響。呢個領域需要從合規性指標轉向熟練度指標。

8. 未來方向同應用

未來研究應該將呢種方法擴展到更高嘅CEFR級別（B1-C2），並整合多模態輸入（例如，語音識別用於聲調）。為中文老師開發一個「提示詞庫」，類似於EBCL參考詞彙表，可以普及呢種方法。另外，喺EBCL特定數據上微調一個較細嘅LLM，可以減少對提示詞工程嘅依賴。最終目標係一個適應性導師，能夠根據學習者表現動態調整漢字複雜度，使用基於人類反饋嘅強化學習（RLHF）。

9. 參考文獻

Adamopoulou, E., & Moussiades, L. (2020). Chatbots: History, technology, and applications. Machine Learning with Applications, 2, 100006.
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of FAccT 2021.
Li, B., et al. (2024). ChatGPT in education: A systematic review. Computers and Education: Artificial Intelligence, 6, 100215.
Wang, Y. (2024). Chatbots for language learning: A meta-analysis. Language Learning & Technology, 28(1), 1-25.
Weizenbaum, J. (1966). ELIZA—a computer program for the study of natural language communication between man and machine. Communications of the ACM, 9(1), 36-45.

目錄