ASP Aplicado à Aquisição de Segunda Língua: Formalizando a Teoria do Processamento de Input

1. Introdução

Este artigo apresenta uma nova aplicação interdisciplinar da Programação em Conjunto de Respostas (ASP) para formalizar e analisar uma teoria fundamental na Aquisição de Segunda Língua (ASL): a teoria do Processamento de Input (PI) de VanPatten. O desafio central abordado é traduzir uma teoria qualitativa, baseada em linguagem natural, que descreve as estratégias cognitivas padrão usadas por aprendizes de línguas, num modelo preciso e computável. A formalização permite o teste automatizado das previsões da teoria, o refinamento dos seus princípios e o desenvolvimento de ferramentas práticas como o sistema PIas para auxiliar instrutores de línguas.

2. Contexto & Enquadramento Teórico

2.1. Programação em Conjunto de Respostas (ASP)

A ASP é um paradigma de programação declarativa baseado na semântica de modelo estável (conjunto de respostas) da programação lógica. Destaca-se na representação do raciocínio padrão, informação incompleta e domínios dinâmicos — características centrais para modelar processos cognitivos humanos. Uma regra em ASP tem a forma: head :- body., onde a cabeça é verdadeira se o corpo for satisfeito. Os padrões podem ser elegantemente representados usando negação como falha (not).

2.2. Teoria do Processamento de Input

Proposta por VanPatten, a teoria do PI postula que os aprendizes de segunda língua, especialmente os iniciantes, usam um conjunto de heurísticas padrão para extrair significado do input devido a recursos de processamento limitados (memória de trabalho) e conhecimento gramatical incompleto. Um princípio fundamental é o Princípio do Primeiro Nome: os aprendizes tendem a atribuir o papel de agente/sujeito ao primeiro nome ou pronome que encontram numa frase. Isto leva a interpretações erróneas sistemáticas, como interpretar a frase passiva "O gato foi mordido pelo cão" como "O gato mordeu o cão".

3. Formalização do Processamento de Input em ASP

3.1. Modelagem de Estratégias Padrão

Os princípios do PI são codificados como regras ASP. Por exemplo, o Princípio do Primeiro Nome pode ser representado como uma regra padrão que se aplica quando pistas gramaticais (como marcadores de voz passiva) não são processadas devido a limitações de recursos:

% Padrão: Atribuir papel de agente ao primeiro nome
assign_agent(FirstNoun, Event) :-
    sentence_word(FirstNoun, Position1, Noun),
    sentence_word(Verb, Position2, VerbLex),
    Position1 < Position2,
    event(Event, VerbLex),
    not processed(grammatical_cue(passive, Verb)),
    not overridden_by_grammar(Event).

A condição not processed(...) capta a limitação de recursos, tornando a regra não monótona.

3.2. Representação do Conhecimento e Recursos do Aprendiz

O modelo incorpora uma representação dinâmica do estado do aprendiz:

Conhecimento Léxico: Factos como knows_word(learner, 'cão', nome, animal).
Conhecimento Gramatical: Regras internalizadas (ex.: para voz passiva).
Recursos de Processamento: Modelados como restrições que limitam o número de características gramaticais que podem ser processadas simultaneamente numa dada frase.

A interação entre as estratégias padrão e o conhecimento gramatical adquirido é modelada através de prioridades de regras ou regras de cancelamento.

4. O Sistema PIas: Aplicação & Resultados

4.1. Arquitetura do Sistema

O PIas (Processamento de Input como um Sistema) é um protótipo que recebe uma frase em inglês e um perfil do aprendiz (nível de proficiência aproximado, vocabulário/gramática conhecidos) como input. Utiliza o modelo ASP formalizado para gerar uma ou mais interpretações previstas (conjuntos de respostas).

Descrição do Diagrama de Fluxo do Sistema: O fluxo de trabalho começa com os dados da Frase de Input e do Perfil do Aprendiz. Estes alimentam a Base de Conhecimento ASP, que contém as regras do PI formalizadas, factos lexicais e regras gramaticais. Um Solucionador ASP (ex.: Clingo) calcula os modelos estáveis. Os Conjuntos de Respostas resultantes são analisados em Interpretações Previstas, que são então apresentadas num formato legível através de uma Interface de Utilizador para Instrutores, destacando as interpretações erróneas prováveis.

4.2. Previsões Experimentais & Validação

O artigo demonstra a saída do sistema para exemplos clássicos. Para a frase passiva "O gato foi mordido pelo cão" e um perfil de iniciante:

Interpretação Prevista 1 (Padrão): Agente=GATO, Ação=MORDER, Paciente=CÃO. (Interpretação ativa incorreta).
Condição para Interpretação Correta: O modelo prevê a leitura passiva correta apenas se o perfil do aprendiz incluir conhecimento processado da morfologia da voz passiva (processed(grammatical_cue(passive, 'mordido'))), sobrepondo-se ao padrão.

Estas previsões computacionais alinham-se com observações empíricas da investigação em ASL, validando a validade aparente do modelo. A formalização também revelou potenciais ambiguidades na teoria em linguagem natural, sugerindo refinamentos.

5. Análise Técnica & Enquadramento

5.1. Formalismo Lógico Central

O núcleo do modelo pode ser abstraído usando restrições lógicas. Seja $L$ o estado de conhecimento do aprendiz, $S$ a frase de input e $R$ os recursos de processamento disponíveis. Uma interpretação $I$ é um conjunto de papéis semânticos e relações. A teoria do PI $T$ define uma função de mapeamento $F_T$ restringida por padrões $D$:

$I = F_T(S, L, R) \quad \text{sujeito a} \quad \sum_{g \in G(S)} \text{custo}(g) \leq R$

onde $G(S)$ é o conjunto de características gramaticais em $S$, e $\text{custo}(g)$ é a carga cognitiva para processar $g$. Os padrões $D$ aplicam-se se $g \notin \text{processado}(L, R, S)$.

5.2. Exemplo do Enquadramento de Análise

Análise de Caso: O Princípio do Primeiro Nome em Diferentes Estruturas Sintáticas.

Input: "O livro foi dado à Maria pelo João." (Passiva complexa com verbo ditransitivo).
Perfil do Aprendiz: Iniciante; conhece as palavras 'livro', 'dar', 'Maria', 'João'; não processa morfologia passiva ou construção dativa.
Execução do Modelo ASP:
1. Recuperação lexical: LIVRO, DAR, MARIA, JOÃO.
2. Processamento gramatical falha para passiva ('foi dado') e objeto indireto ('à Maria').
3. O Princípio Padrão do Primeiro Nome é ativado: LIVRO é atribuído o papel de agente.
4. Estratégia padrão de ordem linear: a sequência é interpretada como Agente-Ação-Recipiente-? (o papel de JOÃO é ambíguo).
Saída Prevista: Podem surgir múltiplos conjuntos de respostas, ex.: {agente(LIVRO), ação(DAR), recipiente(MARIA), outro_participante(JOÃO)} levando a uma interpretação confusa como "O livro deu algo à Maria (e o João esteve envolvido)." Isto identifica uma área específica de confusão para os aprendizes que os instrutores podem visar.

6. Análise Crítica & Direções Futuras

Perspetiva do Analista: Ideia Central, Fluxo Lógico, Pontos Fortes & Fracos, Ideias Acionáveis

Ideia Central: Este trabalho não se trata apenas de aplicar uma ferramenta de IA interessante à linguística; é um teste de stress rigoroso para uma teoria fundamental da ASL. Ao forçar as regras vagas e descritivas do Processamento de Input para a sintaxe inflexível da ASP, Inclezan expõe as premissas ocultas e os limites preditivos da teoria. O verdadeiro valor reside em usar a computação não apenas para automatizar, mas para criticar e refinar modelos científicos gerados por humanos — uma metodologia que ecoa o trabalho de Balduccini e Girotto sobre teorias qualitativas noutros campos.

Fluxo Lógico: A lógica do artigo é convincente: (1) A teoria do PI é qualitativa e baseada em padrões → (2) A ASP é um formalismo concebido para padrões e raciocínio não monótono → (3) Portanto, a ASP é uma ferramenta adequada para formalização → (4) A formalização permite previsão, o que leva a (a) refinamento da teoria e (b) aplicação prática (PIas). Este pipeline é um modelo para a ciência social computacional.

Pontos Fortes & Fracos: O ponto forte principal é o ajuste elegante entre problema e ferramenta. Usar a negação-como-falha da ASP para modelar a "falha no processamento devido a recursos limitados" é inspirador. O desenvolvimento do PIas vai além da teoria pura para uma utilidade tangível. No entanto, os pontos fracos são significativos. O modelo é fortemente simplificado, reduzindo a natureza caótica e probabilística da cognição humana a regras determinísticas. Falta uma arquitetura cognitiva robusta para memória ou atenção, ao contrário de enquadramentos de modelação cognitiva mais abrangentes como o ACT-R. A validação é principalmente lógica ("validade aparente") em vez de empírica, faltando testes em larga escala com dados reais de aprendizes. Comparada com abordagens modernas orientadas por dados em PLN educacional (ex.: usar BERT para prever erros de aprendizes), esta abordagem simbólica é precisa, mas pode faltar escalabilidade e adaptabilidade.

Ideias Acionáveis: Para investigadores, o próximo passo imediato é a validação empírica e extensão do modelo. As previsões do modelo ASP devem ser testadas contra grandes corpora anotados de aprendizes (ex.: de tarefas partilhadas como as da comunidade NLP4CALL). O modelo deve ser estendido com ASP probabilístico ou técnicas neuro-simbólicas híbridas para lidar com incerteza e gradação no conhecimento do aprendiz, semelhante aos avanços vistos noutros domínios que combinam lógica e aprendizagem automática. Para profissionais, o protótipo PIas deve ser desenvolvido num assistente de planeamento de aulas em tempo real, integrado em plataformas como o Duolingo ou software de gestão de sala de aula, para sinalizar automaticamente frases que provavelmente causarão interpretações erróneas para um determinado nível de turma. A visão final deve ser uma via de mão dupla: usar dados de interação dos aprendizes de tais aplicações para refinar e parametrizar continuamente o modelo computacional subjacente da aquisição.

Aplicações Futuras & Direções de Investigação

Materiais de Aprendizagem Personalizados: Geração dinâmica de exercícios que visam padrões específicos de interpretação errónea previstos para um aprendiz.
Análise Automatizada de Redações & Respostas: Estender o modelo para interpretar a linguagem produzida pelo aprendiz, não apenas a compreensão, para diagnosticar causas raiz de erros.
Integração com Modelos Cognitivos: Combinar o sistema baseado em regras ASP com arquiteturas cognitivas computacionais (ex.: ACT-R) para um modelo psicologicamente mais plausível de memória e processamento.
Modelação Translinguística: Aplicar o enquadramento para modelar estratégias de PI para aprendizes de línguas com ordens de palavras diferentes (ex.: SOV como o japonês), testando a universalidade dos princípios.
Extensões Probabilísticas: Passar da programação em conjunto de respostas categórica para probabilística (ex.: P-log) para modelar a probabilidade de diferentes interpretações.

7. Referências

Gelfond, M., & Lifschitz, V. (1991). Classical negation in logic programs and disjunctive databases. New Generation Computing, 9(3/4), 365-386.
Niemelä, I. (1999). Logic programs with stable model semantics as a constraint programming paradigm. Annals of Mathematics and Artificial Intelligence, 25(3-4), 241-273.
Balduccini, M., & Girotto, S. (2010). Formalization of psychological knowledge in Answer Set Programming and its application. Theory and Practice of Logic Programming, 10(4-6), 725-740.
VanPatten, B. (2004). Input Processing in Second Language Acquisition. In B. VanPatten (Ed.), Processing Instruction: Theory, Research, and Commentary (pp. 5-31). Lawrence Erlbaum Associates.
Anderson, J. R., Bothell, D., Byrne, M. D., Douglass, S., Lebiere, C., & Qin, Y. (2004). An integrated theory of the mind. Psychological Review, 111(4), 1036–1060. (Arquitetura ACT-R)
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT 2019. (Referência para contraste de PLN orientado por dados)