ASP dalam Akuisisi Bahasa Kedua: Memformalkan Teori Pemprosesan Input

1. Pengenalan

Kertas kerja ini membentangkan aplikasi interdisipliner baharu Pengaturcaraan Set Jawapan (ASP) untuk memformalkan dan menganalisis satu teori utama dalam Akuisisi Bahasa Kedua (SLA): Teori Pemprosesan Input (IP) VanPatten. Cabaran teras yang ditangani ialah menterjemah teori kualitatif berasaskan bahasa semula jadi yang menerangkan strategi kognitif lalai yang digunakan oleh pelajar bahasa ke dalam model yang tepat dan boleh dikira. Pemformalan ini membolehkan ujian automatik ramalan teori, penapisan prinsipnya, dan pembangunan alat praktikal seperti sistem PIas untuk membantu pengajar bahasa.

2. Latar Belakang & Kerangka Teori

2.1. Pengaturcaraan Set Jawapan (ASP)

ASP ialah paradigma pengaturcaraan deklaratif berdasarkan semantik model stabil (set jawapan) pengaturcaraan logik. Ia cemerlang dalam mewakili penaakulan lalai, maklumat tidak lengkap, dan domain dinamik—ciri-ciri utama untuk memodelkan proses kognitif manusia. Satu peraturan dalam ASP mempunyai bentuk: head :- body., di mana kepala adalah benar jika badan dipenuhi. Lalai boleh diwakili dengan elegan menggunakan penafian sebagai kegagalan (not).

2.2. Teori Pemprosesan Input

Dicadangkan oleh VanPatten, teori IP mendalilkan bahawa pelajar bahasa kedua, terutamanya pemula, menggunakan satu set heuristik lalai untuk mengekstrak makna daripada input disebabkan sumber pemprosesan yang terhad (memori kerja) dan pengetahuan tatabahasa yang tidak lengkap. Satu prinsip utama ialah Prinsip Kata Nama Pertama: pelajar cenderung memberikan peranan agen/subjek kepada kata nama atau kata ganti pertama yang mereka temui dalam ayat. Ini membawa kepada salah tafsiran sistematik, seperti mentafsir ayat pasif "Kucing itu digigit oleh anjing" sebagai "Kucing itu menggigit anjing."

3. Pemformalan Pemprosesan Input dalam ASP

3.1. Pemodelan Strategi Lalai

Prinsip IP dikodkan sebagai peraturan ASP. Sebagai contoh, Prinsip Kata Nama Pertama boleh diwakili sebagai peraturan lalai yang digunakan apabila isyarat tatabahasa (seperti penanda suara pasif) tidak diproses disebabkan batasan sumber:

% Lalai: Berikan peranan agen kepada kata nama pertama
assign_agent(FirstNoun, Event) :-
    sentence_word(FirstNoun, Position1, Noun),
    sentence_word(Verb, Position2, VerbLex),
    Position1 < Position2,
    event(Event, VerbLex),
    not processed(grammatical_cue(passive, Verb)),
    not overridden_by_grammar(Event).

Syarat not processed(...) menangkap batasan sumber, menjadikan peraturan itu bukan monotonik.

3.2. Mewakili Pengetahuan & Sumber Pelajar

Model ini menggabungkan perwakilan dinamik keadaan pelajar:

Pengetahuan Leksikal: Fakta seperti knows_word(learner, 'dog', noun, animal).
Pengetahuan Tatabahasa: Peraturan yang diinternalisasi (contohnya, untuk suara pasif).
Sumber Pemprosesan: Dimodelkan sebagai kekangan yang menghadkan bilangan ciri tatabahasa yang boleh diproses serentak dalam ayat tertentu.

Interaksi antara strategi lalai dan pengetahuan tatabahasa yang diperoleh dimodelkan melalui keutamaan peraturan atau peraturan pembatalan.

4. Sistem PIas: Aplikasi & Hasil

4.1. Seni Bina Sistem

PIas (Processing Input as a System) ialah prototaip yang mengambil ayat Bahasa Inggeris dan profil pelajar (tahap kemahiran anggaran, kosa kata/tatabahasa yang diketahui) sebagai input. Ia menggunakan model ASP yang diformalkan untuk menjana satu atau lebih tafsiran yang diramalkan (set jawapan).

Penerangan Gambar Rajah Aliran Sistem: Aliran kerja bermula dengan data Ayat Input dan Profil Pelajar. Ini dimasukkan ke dalam Pangkalan Pengetahuan ASP, yang mengandungi peraturan IP yang diformalkan, fakta leksikal, dan peraturan tatabahasa. Penyelesai ASP (contohnya, Clingo) mengira model stabil. Set Jawapan yang terhasil dihuraikan kepada Tafsiran yang Diramalkan, yang kemudiannya dibentangkan dalam format yang boleh dibaca melalui Antara Muka Pengguna untuk Pengajar, menyerlahkan salah tafsiran yang berkemungkinan.

4.2. Ramalan Eksperimen & Pengesahan

Kertas kerja ini menunjukkan output sistem untuk contoh klasik. Untuk ayat pasif "Kucing itu digigit oleh anjing" dan profil pemula:

Tafsiran Diramalkan 1 (Lalai): Agen=KUCING, Tindakan=GIGIT, Pesakit=ANJING. (Tafsiran aktif yang salah).
Syarat untuk Tafsiran Betul: Model meramalkan bacaan pasif yang betul hanya jika profil pelajar termasuk pengetahuan yang diproses tentang morfologi suara pasif (processed(grammatical_cue(passive, 'bitten'))), mengatasi lalai.

Ramalan pengiraan ini selari dengan pemerhatian empirikal daripada penyelidikan SLA, mengesahkan kesahan muka model. Pemformalan itu juga mendedahkan kekaburan potensi dalam teori bahasa semula jadi, mencadangkan penapisan.

5. Analisis Teknikal & Kerangka

5.1. Formalisme Logik Teras

Teras model boleh diabstrakkan menggunakan kekangan logik. Biarkan $L$ menjadi keadaan pengetahuan pelajar, $S$ ayat input, dan $R$ sumber pemprosesan yang tersedia. Satu tafsiran $I$ ialah satu set peranan dan hubungan semantik. Teori IP $T$ mentakrifkan fungsi pemetaan $F_T$ yang dikekang oleh lalai $D$:

$I = F_T(S, L, R) \quad \text{tertakluk kepada} \quad \sum_{g \in G(S)} \text{cost}(g) \leq R$

di mana $G(S)$ ialah set ciri tatabahasa dalam $S$, dan $\text{cost}(g)$ ialah beban kognitif untuk memproses $g$. Lalai $D$ digunakan jika $g \notin \text{processed}(L, R, S)$.

5.2. Contoh Kerangka Analisis

Analisis Kes: Prinsip Kata Nama Pertama dalam Struktur Sintaksis Berbeza.

Input: "Buku itu diberikan kepada Mary oleh John." (Pasif kompleks dengan kata kerja dwitransitif).
Profil Pelajar: Pemula; tahu perkataan 'buku', 'beri', 'Mary', 'John'; tidak memproses morfologi pasif atau konstruksi datif.
Pelaksanaan Model ASP:
1. Pengambilan leksikal: BUKU, BERI, MARY, JOHN.
2. Pemprosesan tatabahasa gagal untuk pasif ('diberikan') dan objek tidak langsung ('kepada Mary').
3. Prinsip Kata Nama Pertama Lalai diaktifkan: BUKU diberikan peranan agen.
4. Strategi susunan linear lalai: urutan ditafsirkan sebagai Agen-Tindakan-Penerima-? (peranan JOHN kabur).
Output Diramalkan: Berbilang set jawapan mungkin timbul, contohnya, {agen(BUKU), tindakan(BERI), penerima(MARY), peserta_lain(JOHN)} membawa kepada tafsiran keliru seperti "Buku itu memberikan sesuatu kepada Mary (dan John terlibat)." Ini menunjukkan kawasan kekeliruan khusus untuk pelajar yang boleh disasarkan oleh pengajar.

6. Analisis Kritikal & Hala Tuju Masa Depan

Perspektif Penganalisis: Inti Teras, Aliran Logik, Kekuatan & Kelemahan, Pandangan Boleh Tindak

Inti Teras: Kerja ini bukan sekadar tentang menggunakan alat AI yang menarik untuk linguistik; ia adalah ujian tekanan yang ketat untuk teori SLA asas. Dengan memaksa peraturan kabur dan deskriptif Pemprosesan Input ke dalam sintaks ASP yang tidak memaafkan, Inclezan mendedahkan andaian tersembunyi dan batasan ramalan teori. Nilai sebenar terletak pada penggunaan pengiraan bukan sahaja untuk mengautomasikan, tetapi untuk mengkritik dan menapis model saintifik yang dijana manusia—satu metodologi yang menggema kerja Balduccini dan Girotto mengenai teori kualitatif dalam bidang lain.

Aliran Logik: Logik kertas kerja ini menarik: (1) Teori IP adalah kualitatif dan berasaskan lalai → (2) ASP ialah formalisme yang direka untuk lalai dan penaakulan bukan monotonik → (3) Oleh itu, ASP adalah alat yang sesuai untuk pemformalan → (4) Pemformalan membolehkan ramalan, yang membawa kepada (a) penapisan teori dan (b) aplikasi praktikal (PIas). Saluran paip ini adalah pelan untuk sains sosial pengiraan.

Kekuatan & Kelemahan: Kekuatan utama ialah kesesuaian elegan antara masalah dan alat. Menggunakan penafian-sebagai-kegagalan ASP untuk memodelkan "kegagalan memproses disebabkan sumber terhad" adalah inspirasi. Pembangunan PIas melangkaui teori tulen kepada utiliti ketara. Walau bagaimanapun, kelemahannya adalah ketara. Model ini sangat dipermudahkan, mengurangkan sifat kognitif manusia yang huru-hara dan kebarangkalian kepada peraturan deterministik. Ia kekurangan seni bina kognitif yang kukuh untuk ingatan atau perhatian, tidak seperti rangka kerja pemodelan kognitif yang lebih komprehensif seperti ACT-R. Pengesahan terutamanya logik ("kesahan muka") dan bukannya empirikal, kekurangan ujian berskala besar terhadap data pelajar sebenar. Berbanding pendekatan berasaskan data moden dalam NLP pendidikan (contohnya, menggunakan BERT untuk meramalkan ralat pelajar), pendekatan simbolik ini tepat tetapi mungkin kekurangan kebolehskalaan dan kebolehsesuaian.

Pandangan Boleh Tindak: Untuk penyelidik, langkah seterusnya segera ialah pengesahan empirikal dan lanjutan model. Ramalan model ASP mesti diuji terhadap korpus pelajar berskala besar yang beranotasi (contohnya, daripada tugasan berkongsi seperti komuniti NLP4CALL). Model harus dilanjutkan dengan ASP kebarangkalian atau teknik neuro-simbolik hibrid untuk mengendalikan ketidakpastian dan kecerunan dalam pengetahuan pelajar, serupa dengan kemajuan dalam domain lain yang menggabungkan logik dan pembelajaran mesin. Untuk pengamal, prototaip PIas harus dibangunkan menjadi pembantu perancangan pelajaran masa nyata, disepadukan ke dalam platform seperti Duolingo atau perisian pengurusan bilik darjah, untuk menandakan ayat yang berkemungkinan menyebabkan salah tafsiran untuk tahap kelas tertentu secara automatik. Visi akhir harus menjadi jalan dua hala: menggunakan data interaksi pelajar daripada aplikasi sedemikian untuk menapis dan mengparameterkan model pengiraan asas pemerolehan bahasa secara berterusan.

Aplikasi Masa Depan & Hala Tuju Penyelidikan

Bahan Pembelajaran Peribadi: Penjanaan dinamik latihan yang mensasarkan corak salah tafsiran yang diramalkan untuk pelajar tertentu.
Analisis Esei & Respons Automatik: Melanjutkan model untuk mentafsir bahasa yang dihasilkan pelajar, bukan hanya kefahaman, untuk mendiagnosis punca ralat.
Integrasi dengan Model Kognitif: Menggabungkan sistem berasaskan peraturan ASP dengan seni bina kognitif pengiraan (contohnya, ACT-R) untuk model ingatan dan pemprosesan yang lebih munasabah secara psikologi.
Pemodelan Lintas Linguistik: Menggunakan rangka kerja untuk memodelkan strategi IP untuk pelajar bahasa dengan susunan perkataan berbeza (contohnya, SOV seperti Jepun), menguji keuniversalan prinsip.
Lanjutan Kebarangkalian: Beralih daripada pengaturcaraan set jawapan kategori kepada kebarangkalian (contohnya, P-log) untuk memodelkan kebarangkalian tafsiran berbeza.

7. Rujukan

Gelfond, M., & Lifschitz, V. (1991). Classical negation in logic programs and disjunctive databases. New Generation Computing, 9(3/4), 365-386.
Niemelä, I. (1999). Logic programs with stable model semantics as a constraint programming paradigm. Annals of Mathematics and Artificial Intelligence, 25(3-4), 241-273.
Balduccini, M., & Girotto, S. (2010). Formalization of psychological knowledge in Answer Set Programming and its application. Theory and Practice of Logic Programming, 10(4-6), 725-740.
VanPatten, B. (2004). Input Processing in Second Language Acquisition. In B. VanPatten (Ed.), Processing Instruction: Theory, Research, and Commentary (pp. 5-31). Lawrence Erlbaum Associates.
Anderson, J. R., Bothell, D., Byrne, M. D., Douglass, S., Lebiere, C., & Qin, Y. (2004). An integrated theory of the mind. Psychological Review, 111(4), 1036–1060. (Seni bina ACT-R)
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT 2019. (Rujukan untuk kontras NLP berasaskan data)