Deep Factorization Machines untuk Penjejakan Pengetahuan: Analisis Penyelesaian Duolingo SLAM 2018

1. Pengenalan & Gambaran Keseluruhan

Kertas ini membentangkan penyelesaian penulis untuk Tugas Berkongsi Duolingo 2018 mengenai Pemodelan Pemerolehan Bahasa Kedua (SLAM). Cabaran teras adalah penjejakan pengetahuan pada tahap perkataan: meramalkan sama ada seorang pelajar akan menulis perkataan-perkataan dalam ayat baharu dengan betul, berdasarkan data percubaan sejarah mereka pada beribu-ribu ayat yang dianotasi dengan ciri leksikal, morfologi, dan sintaksis.

Penyelesaian yang dicadangkan menggunakan Deep Factorization Machines (DeepFM), sebuah model yang direka untuk menangkap kedua-dua interaksi ciri tertib rendah (linear) dan tertib tinggi (bukan linear). Model ini mencapai AUC sebanyak 0.815, mengatasi garis dasar regresi logistik (AUC 0.774) tetapi tidak mencapai model teratas (AUC 0.861) dalam pertandingan tersebut.

Wawasan Utama

Mengaplikasikan model sistem cadangan (DeepFM) kepada masalah perlombongan data pendidikan iaitu penjejakan pengetahuan.
Menunjukkan bagaimana model tradisional seperti Teori Respons Item (IRT) boleh dilihat sebagai kes khas dalam rangka kerja pemfaktoran yang lebih umum.
Menekankan kepentingan memanfaatkan maklumat sampingan yang kaya (ciri pengguna, item, kemahiran, linguistik) untuk ramalan prestasi yang tepat.

2. Kerja Berkaitan & Latar Belakang Teori

Kertas ini meletakkan dirinya dalam landskap sejarah dan kontemporari pemodelan pelajar.

2.1 Teori Respons Item (IRT)

Teori Respons Item (IRT) adalah rangka kerja psikometrik yang memodelkan kebarangkalian respons yang betul sebagai fungsi keupayaan pendam pelajar ($\theta$) dan parameter item (contohnya, kesukaran $b$, diskriminasi $a$). Model biasa adalah model logistik 2-parameter (2PL):

$P(\text{betul} | \theta) = \frac{1}{1 + e^{-a(\theta - b)}}$

IRT adalah asas dalam ujian piawai tetapi secara tradisinya mengendalikan interaksi pelajar-item yang mudah tanpa maklumat sampingan yang kaya.

2.2 Evolusi Penjejakan Pengetahuan

Penjejakan Pengetahuan Bayesian (BKT): Memodelkan pelajar sebagai Model Markov Tersembunyi, menjejaki kebarangkalian mengetahui sesuatu kemahiran dari semasa ke semasa.
Penjejakan Pengetahuan Mendalam (DKT): Menggunakan Rangkaian Neural Berulang (RNN), khususnya LSTM, untuk memodelkan jujukan temporal interaksi pelajar. Piech et al. (2015) menunjukkan potensinya, tetapi kerja susulan (Wilson et al., 2016) menunjukkan varian IRT boleh menjadi pesaing.
Batasan: Kedua-dua BKT dan DKT awal sering mengabaikan maklumat ciri tambahan tentang item dan pelajar.

2.3 Factorization Machines & Pembelajaran Wide & Deep

Kertas ini dibina berdasarkan dua idea utama dari sistem pencadang:

Factorization Machines (FMs): Dicadangkan oleh Rendle (2010), FM memodelkan semua interaksi berpasangan antara pemboleh ubah menggunakan parameter terfaktor, secara efektif mempelajari penanaman untuk ciri kategori. Ramalan untuk vektor ciri $\mathbf{x}$ adalah:
$\hat{y}(\mathbf{x}) = w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$
di mana $\mathbf{v}_i$ adalah vektor faktor pendam.
Pembelajaran Wide & Deep: Dicadangkan oleh Cheng et al. (2016) di Google, seni bina ini melatih bersama model linear lebar (untuk penghafalan) dan rangkaian neural mendalam (untuk generalisasi).
DeepFM: Guo et al. (2017) menggabungkan idea-idea ini, menggantikan komponen lebar dengan FM untuk mempelajari interaksi ciri tertib rendah secara automatik, sementara DNN mempelajari interaksi tertib tinggi. Inilah model yang diterima pakai dalam kertas ini.

3. Model DeepFM untuk Penjejakan Pengetahuan

Kertas ini menyesuaikan seni bina DeepFM untuk tugas penjejakan pengetahuan.

3.1 Formulasi Model & Seni Bina

Idea teras adalah untuk memperlakukan setiap interaksi pembelajaran (contohnya, "pengguna 123 mencuba perkataan 'serendipity' dalam ayat yang mempunyai ciri X") sebagai vektor ciri jarang $\mathbf{x}$. Model ini mempelajari penanaman untuk setiap entiti (contohnya, user_id=123, word='serendipity', feature_X=1).

Ramalan akhir adalah kebarangkalian:

$p(\mathbf{x}) = \psi(y_{FM} + y_{DNN})$

di mana $\psi$ adalah fungsi pautan (sigmoid $\sigma$ atau CDF normal $\Phi$).

Komponen FM: Mengira $y_{FM}$ seperti dalam persamaan FM standard, menangkap semua interaksi berpasangan antara penanaman entiti (contohnya, pengguna-perkataan, pengguna-kemahiran, perkataan-kemahiran).
Komponen Deep: Rangkaian neural suapan ke hadapan standard mengambil penanaman entiti yang digabungkan sebagai input dan mengira $y_{DNN}$, menangkap interaksi ciri tertib tinggi yang kompleks.

Kedua-dua komponen berkongsi penanaman ciri input yang sama, menjadikan model ini cekap dan dilatih secara bersama.

3.2 Pengekodan Ciri & Penanaman Entiti

Setiap contoh dikodkan menjadi vektor jarang bersaiz $N$, di mana $N$ adalah jumlah bilangan entiti yang mungkin merentasi semua kategori ciri kategori dan selanjar (pengguna, item, kemahiran, masa, tag linguistik).

Entiti diskret: Dikodkan dengan nilai 1 jika hadir.
Entiti selanjar (contohnya, cap masa): Nilai selanjar sebenar digunakan.
Entiti tidak hadir: Dikodkan sebagai 0.

Pengekodan yang fleksibel ini membolehkan model mengintegrasikan pelbagai jenis data dari tugas Duolingo dengan lancar.

4. Persediaan Eksperimen & Keputusan

4.1 Tugas Duolingo SLAM 2018

Tugas ini menyediakan jujukan percubaan pelajar pada ayat bahasa asing. Untuk setiap perkataan dalam ayat baharu, matlamatnya adalah untuk meramalkan kebarangkalian pelajar menulisnya dengan betul. Set data termasuk anotasi linguistik yang kaya untuk setiap perkataan/token.

4.2 Penyediaan Data & Kejuruteraan Ciri

Untuk menggunakan DeepFM, data jujukan mentalah ditransformasikan ke format matriks ciri standard. Langkah-langkah utama kemungkinan termasuk:

Penciptaan Contoh: Setiap percubaan pelajar-perkataan menjadi satu contoh data.
Pengkategorian Ciri: Mengenal pasti kategori: ID pengguna, ID perkataan/token, ID ayat, tag kelas kata, ciri morfologi, hubungan kebergantungan sintaksis, dsb.
Perwakilan Jarang: Menukar kategori ini kepada vektor entiti jarang $\mathbf{x}$.

4.3 Keputusan Prestasi & Analisis

Prestasi Model (AUC)

Garis Dasar Regresi Logistik: 0.774
DeepFM (Model Dicadangkan): 0.815
Model Berprestasi Teratas (Penanda Aras): 0.861

Interpretasi: Model DeepFM memberikan peningkatan relatif 5.3% yang ketara berbanding garis dasar linear yang kuat, mengesahkan kuasa memodelkan interaksi ciri. Walau bagaimanapun, jurang kepada model teratas menunjukkan ruang untuk penambahbaikan seni bina atau kejuruteraan ciri yang lebih canggih.

Kertas ini mencadangkan bahawa DeepFM boleh merangkumi model IRT tradisional. Sebagai contoh, model IRT mudah boleh dianggarkan oleh komponen FM dengan entiti hanya untuk keupayaan pengguna dan kesukaran item, di mana istilah interaksi mereka $\langle \mathbf{v}_{user}, \mathbf{v}_{item} \rangle$ menangkap dinamik $a(\theta - b)$.

5. Selaman Teknikal Mendalam & Analisis

Perspektif Penganalisis Industri: Wawasan Teras, Aliran Logik, Kekuatan & Kelemahan, Wawasan Boleh Tindak

5.1 Wawasan Teras & Aliran Logik

Pertaruhan asas kertas ini adalah bahawa penjejakan pengetahuan, pada terasnya, adalah masalah cadangan. Daripada mencadangkan filem, anda meramalkan "relevansi" (ketepatan) komponen pengetahuan (perkataan) kepada pengguna (pelajar) dalam konteks tertentu (ayat dengan ciri). Pembingkaian semula ini berkuasa. Aliran logiknya elegan: 1) Akui batasan model jujukan sahaja (DKT) dan model linear mudah (IRT, LR). 2) Kenal pasti keperluan untuk memodelkan interaksi silang ciri yang kaya (pengguna-kemahiran, kemahiran-konteks). 3) Import seni bina sistem pencadang terkini (DeepFM) yang terbukti cemerlang dalam masalah tepat ini. 4) Sahkan ia mengatasi garis dasar mudah. Ini adalah kes klasik pendebungaan silang dari bidang matang (sistem pencadang) kepada bidang baru muncul (AI EdTech), serupa dengan bagaimana teknik penglihatan komputer merevolusikan analisis imej perubatan.

5.2 Kekuatan & Kelemahan Kritikal

Kekuatan:

Kerangka Bersepadu: Sumbangan teori terbesarnya adalah menunjukkan bagaimana IRT, FM, dan model lain wujud pada spektrum dalam seni bina ini. Ini mengingatkan pandangan penyatuan yang disediakan oleh model seperti Transformer dalam NLP, yang merangkumi RNN dan CNN untuk tugas jujukan.
Agnostik Ciri: Model ini boleh menerima sebarang ciri kategori atau selanjar tanpa pra-pemprosesan yang meluas, satu kelebihan praktikal yang besar untuk set data pendidikan yang tidak teratur.
Pengalah Garis Dasar Kuat: AUC 0.815 adalah keputusan yang kukuh dan boleh digunakan dalam pengeluaran, meyakinkan lebih baik daripada garis dasar regresi logistik.

Kelemahan Kritikal & Peluang Terlepas:

Gajah dalam Bilik: Penanda Aras 0.861. Kertas ini mengabaikan mengapa DeepFM tidak mencapai sasaran. Adakah kapasiti model? Data latihan? Kekurangan pemodelan temporal eksplisit adalah kelemahan yang ketara. DeepFM memperlakukan setiap percubaan sebagai bebas, mengabaikan jujukan yang penting. Model pemenang kemungkinan menggabungkan dinamik temporal, serupa dengan bagaimana WaveNet atau konvolusi temporal mengatasi model suapan ke hadapan dalam ramalan siri masa. Ini adalah titik buta seni bina utama.
Pertukaran Kotak Hitam: Walaupun lebih boleh ditafsirkan daripada DNN tulen, penanaman yang dipelajari masih legap. Bagi pihak berkepentingan pendidikan, menerangkan mengapa sesuatu ramalan dibuat sering sama pentingnya dengan ramalan itu sendiri. Kertas ini tidak menawarkan alat kebolehinterpretasian.
Kos Pengiraan: Mempelajari penanaman untuk setiap entiti unik (setiap pengguna, setiap perkataan) boleh menjadi besar dan tidak cekap untuk platform berskala besar dan dinamik seperti Duolingo dengan berjuta-juta pengguna dan item kandungan baharu.

5.3 Wawasan Boleh Tindak & Implikasi Strategik

Untuk syarikat EdTech dan penyelidik:

Keutamaan Kejuruteraan Ciri Berbanding Kebaharuan Model: Kejayaan kertas ini lebih berasal dari perwakilan cirinya (mengekod semua maklumat sampingan) daripada model yang radikal baharu. Melabur dalam infrastruktur data untuk menangkap dan menyajikan ciri kontekstual yang kaya (waktu hari, peranti, sejarah pelajaran sebelumnya, metrik penglibatan).
Hibridkan, Jangan Hanya Import: Langkah seterusnya bukanlah model pencadang lain. Ia adalah DeepFM + Kesedaran Temporal. Terokai seni bina seperti DeepFM dengan menara LSTM/GRU atau Temporal Factorization Machines. Lihat kerja seperti TiSASRec (Li et al., 2020) yang menggabungkan perhatian kendiri dengan selang masa untuk cadangan berjujukan.
Penanda Aras Tanpa Henti Terhadap Kesederhanaan: Fakta bahawa varian IRT yang ditala dengan baik (Wilson et al., 2016) boleh bersaing dengan DKT adalah pengajaran yang merendah hati. Sentiasa penanda aras terhadap garis dasar yang kuat dan boleh ditafsir (IRT, regresi logistik dengan ciri bijak). Kerumitan mesti mewajarkan peningkatan prestasi dan kos pengiraannya.
Tumpu pada Output Boleh Tindak: Bergerak melangkaui ramalan AUC. Nilai sebenar adalah dalam preskripsi. Gunakan kekuatan interaksi berpasangan model (dari komponen FM) untuk mengenal pasti jurang kemahiran mana yang paling kritikal untuk seorang pelajar atau ciri pelajaran mana yang paling mengelirukan. Tukar diagnostik kepada laluan pembelajaran peribadi.

6. Kerangka Analisis & Contoh Konseptual

Kerangka Konseptual untuk Mengaplikasikan DeepFM kepada Set Data Pendidikan Baharu:

Takrifkan Sasaran Ramalan: Binari (betul/salah), atau pelbagai kelas (tahap kredit separa).
Inventori Semua Ciri (Entiti):
- Tahap Pelajar: ID, kohort demografi, sejarah prestasi keseluruhan.
- Tahap Item/Soalan: ID, komponen pengetahuan, penarafan kesukaran, format (pilihan berganda, terbuka).
- Konteks Interaksi: Cap masa, masa yang dihabiskan, nombor percubaan, platform yang digunakan.
- Luar: ID Pelajaran, ID guru (dalam tetapan bilik darjah).
Bina Vektor Jarang untuk Satu Contoh:
Contoh: Pelajar_S123 mencuba Soalan_Q456 pada Komponen Pengetahuan "Persamaan Linear."
Vektor Ciri $\mathbf{x}$ akan mempunyai 1 pada indeks yang sepadan dengan entiti: [pelajar=S123, soalan=Q456, kc=persamaan_linear, attempt_num=2, ...] dan 0 di tempat lain.
Latihan Model & Interpretasi:
- Komponen FM mempelajari bahawa interaksi $\langle \mathbf{v}_{S123}, \mathbf{v}_{persamaan\_linear} \rangle$ sangat negatif, menunjukkan pelajar ini bergelut dengan KC ini.
- Komponen DNN mungkin mengesan corak kompleks: pelajar yang bergelut dengan "persamaan linear" dan mencuba soalan dengan cepat (ciri masa-habis pendek) dan pada peranti mudah alih mempunyai kadar kegagalan yang lebih tinggi.

7. Aplikasi Masa Depan & Hala Tuju Penyelidikan

Peningkatan Temporal & Berjujukan: Mengintegrasikan lapisan berulang atau berasaskan perhatian (seperti Transformer) untuk memodelkan susunan dan masa aktiviti pembelajaran secara eksplisit. Model seperti SAINT+ (Choi et al., 2020) menggabungkan perhatian kendiri untuk ciri latihan dan respons, menunjukkan jalan ke hadapan.
Penjejakan Pengetahuan Rentas Domain: Menggunakan penanaman dari model bahasa (contohnya, BERT) untuk mewakili teks latihan atau penjelasan pelajar, membolehkan model menggeneralisasi kepada latihan yang tidak dilihat berdasarkan persamaan semantik.
Inferens Kausal untuk Reka Bentuk Intervensi: Bergerak dari korelasi (ramalan) kepada kausaliti. Bolehkah model mengenal pasti bukan sahaja bahawa seorang pelajar akan gagal, tetapi intervensi khusus mana (video, petunjuk, masalah lebih mudah) yang paling berkemungkinan mengubah hasil itu? Ini berkait dengan bidang yang berkembang pesat iaitu pemodelan peningkatan dalam pendidikan peribadi.
Pembelajaran Teragih & Pemeliharaan Privasi: Membangunkan versi DeepFM yang boleh melatih pada data pelajar terpencar (pada peranti individu/pelayan sekolah) tanpa memusatkan maklumat sensitif, penting untuk penskalaan EdTech yang beretika.
Integrasi dengan Teori Sains Pembelajaran: Mengekang atau memulakan parameter model berdasarkan teori kognitif (contohnya, kesan jarak, teori beban kognitif) untuk menjadikan model lebih boleh ditafsir dan berasas teori.

8. Rujukan

Cheng, H. T., Koc, L., Harmsen, J., Shaked, T., Chandra, T., Aradhye, H., ... & Shah, H. (2016). Wide & deep learning for recommender systems. Proceedings of the 1st workshop on deep learning for recommender systems.
Corbett, A. T., & Anderson, J. R. (1994). Knowledge tracing: Modeling the acquisition of procedural knowledge. User modeling and user-adapted interaction.
Guo, H., Tang, R., Ye, Y., Li, Z., & He, X. (2017). DeepFM: A factorization-machine based neural network for CTR prediction. arXiv preprint arXiv:1703.04247.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Sage.
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation.
Piech, C., Bassen, J., Huang, J., Ganguli, S., Sahami, M., Guibas, L. J., & Sohl-Dickstein, J. (2015). Deep knowledge tracing. Advances in neural information processing systems.
Rendle, S. (2010). Factorization machines. 2010 IEEE International Conference on Data Mining.
Settles, B., Brunk, B., & T. (2018). The 2018 Duolingo Shared Task on Second Language Acquisition Modeling. Proceedings of the 2018 SLAM Workshop.
Vie, J. J., & Kashima, H. (2018). Knowledge tracing machines: Factorization machines for knowledge tracing. arXiv preprint arXiv:1811.03388.
Wilson, K. H., Karklin, Y., Han, B., & Ekanadham, C. (2016). Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation. Educational Data Mining.
Li, J., Wang, Y., & McAuley, J. (2020). Time interval aware self-attention for sequential recommendation. Proceedings of the 13th International Conference on Web Search and Data Mining.
Choi, Y., Lee, Y., Cho, J., Baek, J., Kim, B., Cha, Y., ... & Kim, S. (2020). Towards an appropriate query, key, and value computation for knowledge tracing. Proceedings of the Seventh ACM Conference on Learning@ Scale.